컴퓨터 비전 알고리즘의 도전 과제와 기회를 이해하기 위해서는 열화상 이미징의 근본적인 물리적 원리와 특성을 먼저 확립해야 합니다. 이 파트에서는 열화상 기술의 핵심 원리를 분석하고, 기존의 RGB(가시광선) 카메라와의 비교를 통해 그 장단점을 명확히 하며, 열화상 데이터 고유의 문제점들을 심도 있게 탐구합니다.
열화상 카메라의 작동 원리는 절대영도 이상의 모든 물체가 방출하는 적외선 복사, 즉 열 에너지를 감지하는 것에 기반합니다.1 이는 물체 표면에서 반사된 가시광선을 감지하여 이미지를 생성하는 RGB 카메라와는 근본적으로 다른 원리입니다.3 이 과정은 특수 제작된 렌즈가 적외선 에너지를 센서에 집중시키고, 마이크로볼로미터(microbolometer)로 구성된 센서 어레이가 이 에너지를 전기 신호로 변환하며, 내장된 처리 장치가 이 신호 데이터를 분석하여 시각적인 온도 분포도, 즉 써모그램(thermogram)을 생성하는 단계를 포함합니다.1
이 기술의 핵심은 마이크로볼로미터 센서입니다.1 가시광선보다 파장이 훨씬 긴 적외선 에너지를 효과적으로 감지하기 위해, 각 센서 소자(픽셀)는 물리적으로 더 커야만 합니다.3 이러한 물리적 제약은 열화상 카메라가 동일한 크기의 가시광선 센서에 비해 본질적으로 낮은 해상도를 가질 수밖에 없는 주된 이유가 됩니다. 그러나 해상도의 한계에도 불구하고, 고품질의 열화상 카메라는 0.01°C 수준의 미세한 온도 차이까지 감지할 수 있는 뛰어난 열 감도(thermal sensitivity)를 자랑합니다.3 이 ‘열 대비(thermal contrast)’는 가시광선 이미지의 색상 및 밝기 대비를 대체하며, 열화상 환경에서의 객체 인지의 기초를 이룹니다.4
객체 탐지 및 추적의 관점에서 열화상 카메라와 RGB 카메라를 비교하면, 각 기술의 고유한 장점과 단점이 명확하게 드러납니다.
조명 독립성 대 고해상도 및 색상 정보
열화상 이미징의 가장 큰 장점은 주변 조명 조건에 구애받지 않는다는 점입니다. 완전한 암흑, 연기, 대부분의 안개 속에서도 객체의 열 신호를 감지하여 명확한 형상을 제공할 수 있습니다.1 이러한 특성은 24시간 감시, 야간 자율주행, 수색 및 구조와 같은 안전이 중요한 분야에서 필수적인 역할을 합니다.7
반면, 센서 기술의 물리적 한계로 인해 열화상 카메라는 일반적으로 RGB 카메라보다 훨씬 낮은 공간 해상도를 가집니다.3 이는 객체의 미세한 특징을 식별하거나, 원거리의 작은 객체를 인식하는 데 명백한 한계로 작용합니다. 또한, 열화상 카메라는 온도 정보만을 제공할 뿐, 색상 정보를 포함하지 않습니다.3 따라서 색상 히스토그램이나 복잡한 텍스처 패턴에 의존하는 전통적인 컴퓨터 비전 알고리즘은 열화상 이미지에 직접 적용하기 어렵습니다. 예를 들어, 서로 다른 색상의 옷을 입었지만 체온이 비슷한 두 사람은 열화상 이미지에서 거의 동일하게 보일 수 있습니다.10
재료 및 환경 의존성
열화상 기술은 특정 물질에 의해 시야가 방해받는 독특한 한계를 가집니다. 대표적으로, 유리는 장파장 적외선을 투과시키지 않고 반사하거나 흡수하기 때문에, 열화상 카메라로는 유리창 너머를 볼 수 없습니다.11 이는 차량용 첨단 운전자 보조 시스템(ADAS)에 열화상 카메라를 적용할 때, 차량 외부에 장착해야 하는 실질적인 제약으로 이어집니다.
비용 및 접근성
과거 열화상 카메라는 높은 가격으로 인해 군사 및 일부 산업 분야에서만 제한적으로 사용되었습니다.2 그러나 마이크로볼로미터 기술의 발전과 BMW와 같은 고급 자동차 브랜드에서의 대량 채택을 기점으로 생산 비용이 크게 절감되었습니다.6 이러한 가격 하락은 열화상 기술이 자율주행, 보안, 산업 진단 등 더 넓은 상업적 시장으로 확산되는 중요한 계기가 되었습니다.
이러한 비교를 통해, RGB와 열화상 기술 사이에는 근본적인 상충 관계가 존재함을 알 수 있습니다. RGB는 객체가 ‘무엇’인지 식별하는 데(고해상도, 색상, 질감) 탁월한 반면, 열화상 기술은 특히 악조건 하에서 객체가 ‘어디에’ 있는지 감지하는 데(열 대비를 통한 강건한 탐지) 더 뛰어납니다. 이 분석은 단일 센서만으로는 모든 시나리오에 대응할 수 없음을 시사하며, 두 센서의 장점을 결합하는 센서 퓨전 기술이 단순한 성능 향상을 넘어 시스템의 강건성을 확보하기 위한 필수적인 전략임을 보여줍니다.
| 특징 | 열화상 카메라 | RGB 카메라 | 객체 인지에 대한 시사점 |
|---|---|---|---|
| 작동 원리 | 물체에서 방출되는 적외선(열) 에너지 감지 1 | 물체에서 반사되는 가시광선 감지 3 | 열화상은 조명과 무관하게 작동, RGB는 조명에 의존적임 |
| 조명 의존성 | 없음. 완전한 어둠, 연기, 안개 속에서도 작동 1 | 높음. 빛이 없으면 성능 급격히 저하 3 | 야간 및 악천후 환경에서는 열화상이 객체 탐지에 절대적으로 유리함 |
| 해상도 및 세부 묘사 | 낮음. 센서 소자가 커서 픽셀 수가 적음 3 | 높음. 미세한 특징과 텍스처 식별에 용이 3 | 객체의 세부 식별(예: 얼굴 인식, 문자 판독)은 RGB가 우수함 |
| 색상/텍스처 정보 | 없음. 온도 분포를 의사 색상으로 표현 3 | 풍부함. 색상 기반 분류 및 분석에 필수적 3 | 색상에 의존하는 알고리즘은 열화상에 부적합. 유사 온도의 다른 객체 구분이 어려움 10 |
| 주요 환경적 제약 | 유리를 투과하지 못함.11 열 평형 상태에서 객체 소실 | 안개, 연기, 눈, 비, 역광 등 기상 조건에 민감 9 | 차량 내부 장착 불가 등 실용적 제약 발생. RGB는 기상 악화 시 성능 저하 |
| 비용 동향 | 과거 고가였으나, 자동차 등 대량 생산으로 가격 하락 중 7 | 상대적으로 저렴하고 보편화됨 1 | 접근성이 높아져 다양한 상업적 응용 분야로 확장되고 있음 |
| 핵심 강점 | 악조건에서의 강건한 탐지 능력 | 양호한 조건에서의 정밀한 식별 능력 | “객체가 존재하는가?”에 대한 답은 열화상이, “그 객체는 무엇인가?”에 대한 답은 RGB가 더 잘 제공함 |
| 핵심 약점 | 낮은 해상도와 세부 정보 부족 | 조명 및 환경 조건에 대한 취약성 | 두 기술은 상호 보완적이며, 강건한 시스템 구축을 위해 퓨전이 필수적임 |
표 1: 객체 인지 관점에서의 열화상 및 RGB 카메라 비교 분석
열화상 기술은 고유한 장점만큼이나 뚜렷한 기술적 난제들을 안고 있습니다.
첫째, 낮은 해상도와 작은 객체 문제는 가장 근본적인 한계입니다.12 원거리에 있는 객체는 이미지 상에서 단 몇 개의 픽셀로만 표현될 수 있어, 의미 있는 특징을 추출하는 것이 매우 어렵습니다. 이 문제를 해결하기 위해 저해상도 이미지를 고해상도로 변환하는 초해상도(Super-Resolution) 기법에 대한 연구가 활발히 진행되고 있습니다.12
둘째, 센서 노이즈 및 아티팩트는 열화상 이미지의 품질을 저하하는 주요 요인입니다. 성숙한 가시광선 CMOS 센서에 비해 열화상 센서는 고정 패턴 노이즈(fixed-pattern noise)나 블루밍(blooming) 현상과 같은 노이즈에 더 취약한 경향이 있습니다.10 이는 정교한 전처리 과정이나 노이즈에 강건한 알고리즘 설계를 요구합니다.
셋째, ‘열 평형(Thermal Crossover)’ 현상은 열화상 시스템의 치명적인 약점입니다.15 이는 객체의 온도가 주변 배경의 온도와 일치하게 되어 열 대비가 사라지면서, 열화상 카메라가 일시적으로 객체를 감지하지 못하게 되는 현상을 말합니다.16 이 현상은 주로 일출이나 일몰 시간대에 발생하지만, 비나 구름과 같은 환경적 요인에 의해서도 언제든지 발생할 수 있습니다.16 열 평형 현상은 단순한 기술적 결함을 넘어, 예측 가능한 실패 지점을 만들어낸다는 점에서 시스템의 신뢰성과 안전성에 심각한 위협이 됩니다. 예를 들어, 군사 및 보안 시스템에서 적대 세력은 이 열 평형 시간을 의도적으로 활용하여 감시망을 무력화시킬 수 있습니다. 따라서 이 문제를 완화하기 위한 다중 스펙트럼(서로 다른 적외선 파장대역 사용) 이미징, 편광(polarimetric) 이미징, 또는 RGB나 레이더와 같은 이종 센서와의 퓨전은 선택이 아닌 필수적인 보안 요구사항으로 간주되어야 합니다.16
마지막으로, 데이터 부족 문제는 딥러닝 기반 접근법의 발전을 가로막는 가장 큰 장애물입니다. ImageNet이나 COCO와 같이 방대한 양의 주석이 달린 공개 데이터셋이 존재하는 RGB 분야와 달리, 고품질의 주석 달린 열화상 데이터셋은 매우 부족합니다.19 이러한 데이터 희소성은 도메인 적응(Domain Adaptation)이나 합성 데이터 생성(Synthetic Data Generation)과 같은 기술 개발의 핵심 동기가 되고 있습니다.
이 파트에서는 개별 열화상 프레임 내에서 객체를 찾는 데 사용되는 알고리즘을 전통적인 접근법과 현대적인 딥러닝 패러다임으로 나누어 심층적으로 분석합니다.
딥러닝이 부상하기 전, 컴퓨터 비전 분야에서는 수작업으로 설계된 특징(handcrafted features)을 통해 객체를 표현하고 탐지했습니다.
HOG (Histogram of Oriented Gradients)
HOG는 객체의 형태를 경사도 방향의 분포로 표현하는 강력한 특징 기술자(feature descriptor)입니다.13 보행자 탐지 분야에서 기초적인 방법론으로 자리 잡았으며, 열화상 이미지에서도 SVM(Support Vector Machine)과 같은 분류기와 결합하여 널리 사용되었습니다.13 특히 열화상 데이터에서는 다른 전통적 특징인 LBP나 PCA보다 우수한 성능을 보이는 것으로 보고되었습니다.6
LBP (Local Binary Patterns)
LBP는 이미지의 질감(texture)을 표현하는 데 사용되는 특징 기술자입니다. HOG와 LBP를 단순하게 결합할 경우, 특정 객체 클래스에서는 오히려 성능이 저하될 수 있음이 관찰되었습니다.25 이는 열화상 이미지의 특성상 질감 정보가 제한적이기 때문일 수 있으며, 젠틀부스트(Gentle-Boost)와 같은 기법을 통해 유용한 특징만을 선별적으로 사용하는 것이 중요함을 시사합니다.25
이러한 전통적인 특징 기반 접근법들은 계산적으로 효율적이라는 장점이 있지만, 복잡하고 다양한 실제 환경에서는 딥러닝 모델에 비해 강건성과 일반화 성능이 떨어지는 명백한 한계를 가집니다.26
현대의 객체 탐지는 대부분 딥러닝, 특히 합성곱 신경망(CNN)을 기반으로 합니다. 열화상 객체 탐지 분야는 완전히 새로운 모델을 설계하기보다는, 방대한 RGB 데이터셋으로 사전 훈련된 성공적인 아키텍처를 열화상 도메인에 맞게 ‘적응(adapting)’시키는 방향으로 발전해왔습니다.6 이는 막대한 규모의 RGB 데이터로 학습된 모델의 강력한 특징 추출 능력을 활용하기 위한 전략적 선택입니다. 하지만 이러한 적응 과정은 도메인 불일치(domain shift)로 인한 성능 저하를 동반하며, 이를 극복하기 위한 다양한 기법이 요구됩니다.28
2단계 탐지기 (Two-Stage Detectors)
Faster R-CNN과 같은 2단계 탐지기는 먼저 객체가 있을 법한 후보 영역(region proposal)을 생성한 후, 각 후보 영역에 대해 분류를 수행하는 방식입니다.29 높은 정확도를 자랑하지만, 다단계 처리 과정으로 인해 속도가 느려 실시간 응용에는 부적합한 경우가 많습니다.27 주로 열화상 탐지 연구에서 성능 비교를 위한 기준 모델(baseline)로 활용됩니다.30
1단계 탐지기 (One-Stage Detectors)
YOLO(You Only Look Once), SSD(Single Shot MultiBox Detector)와 같은 1단계 탐지기는 후보 영역 생성 없이 한 번의 네트워크 통과(single pass)로 객체의 위치와 클래스를 동시에 예측합니다.29 이들은 속도와 정확도 사이의 균형이 뛰어나 실시간 시스템에 매우 적합합니다.9 특히 YOLO 계열 모델들은 빠른 속도와 활발한 오픈소스 커뮤니티 덕분에 열화상 객체 탐지 연구에서 가장 널리 사용되는 아키텍처 중 하나입니다.9
드론, 자율주행차의 ECU(Electronic Control Unit) 등 많은 실제 응용 환경은 계산 능력, 메모리, 전력 소비에 대한 엄격한 제약을 가집니다.33 이러한 엣지 디바이스(edge device) 환경에서는 모델의 효율성이 정확도만큼이나 중요한 설계 기준이 됩니다. 이는 단순히 가장 높은 mAP(mean Average Precision)를 기록하는 모델이 아니라, 주어진 하드웨어의 FPS(Frames Per Second) 및 전력 예산 내에서 요구 성능을 만족하는 모델이 ‘최적’의 모델임을 의미합니다. 따라서 열화상 객체 탐지는 순수한 알고리즘 설계 문제를 넘어, 소프트웨어와 하드웨어의 제약을 함께 고려하는 공동 설계(co-design) 문제로 접근해야 합니다.
이를 위해 YOLOv5s 9, YOLOv4-tiny 33, MobileNet 35, EfficientDet과 같은 경량 모델들이 개발되었습니다. 이 모델들은 깊이별 분리 합성곱(depthwise separable convolution) 39이나 간소화된 백본(backbone) 구조 35와 같은 기법을 사용하여 파라미터 수와 계산량(MACs, Multiply-Accumulate operations)을 획기적으로 줄입니다.40
한 연구 사례는 YOLOv5 모델을 열화상 데이터와 엣지 디바이스에 맞게 경량화하는 실용적인 접근법을 보여줍니다.9 이 연구에서는 기존 모델의 탐지 헤드(detection head) 레이어 수를 줄이고, 채널별 어텐션 모듈(CBAM)을 추가하여 중요한 특징에 집중하도록 했습니다. 그 결과, 정확도는 단 1.1% 감소하면서 파라미터 수는 4.375배나 줄이는 데 성공했습니다. 이는 속도와 정확도 사이의 실용적인 절충을 통해 실제 응용에 적합한 모델을 만들어내는 전형적인 예시입니다.
딥러닝 모델은 종종 ‘블랙박스’로 비유될 만큼 내부 작동 원리를 이해하기 어렵습니다.41 모델이 왜 특정 예측을 내렸는지 알 수 없다는 점은 특히 안전이 중요한 시스템에서 기술을 신뢰하고 도입하는 데 큰 장벽이 됩니다.
Grad-CAM (Gradient-weighted Class Activation Mapping)은 이러한 문제를 해결하기 위한 시각화 기법입니다.41 이 기법은 특정 클래스 예측에 가장 큰 영향을 미친 입력 이미지의 영역을 히트맵(heatmap) 형태로 보여줍니다. 이는 네트워크의 마지막 합성곱 레이어로 흘러 들어가는 그래디언트(gradient) 정보를 활용하여 계산됩니다.42
열화상 객체 탐지기에 Grad-CAM을 적용하면, 엔지니어는 모델이 엉뚱한 배경 정보가 아닌, 객체의 올바른 열 신호(예: 자동차의 엔진, 사람의 몸)에 집중하고 있는지를 시각적으로 확인할 수 있습니다.44 이는 모델의 예측을 신뢰할 수 있는지 검증하고, 오작동 시 원인을 분석하는 강력한 디버깅 도구로 활용됩니다.43 예를 들어, Grad-CAM은 일반 이미지에서 고양이와 개를 분류할 때 모델이 각 동물의 어느 부분에 주목하는지 보여줄 수 있으며 45, 동일한 원리가 포장도로 분석과 같은 열화상 응용에도 적용될 수 있습니다.44
이 파트는 단일 프레임에서의 객체 탐지를 넘어, 시계열 비디오 데이터의 핵심인 시간의 흐름에 따라 객체를 지속적으로 추적하는 기술들을 다룹니다.
현대의 다중 객체 추적 시스템은 대부분 ‘추적-탐지’라는 지배적인 패러다임을 따릅니다.46 이 방식은 각 비디오 프레임마다 먼저 객체 탐지기(파트 II에서 설명)를 실행하여 현재 프레임에 존재하는 모든 객체의 위치를 식별합니다. 그 후, 별도의 추적 알고리즘이 이 새로운 탐지 결과들을 이전 프레임에서부터 이어져 온 기존의 추적 궤도(track)와 연관시키는 역할을 담당합니다.46 이처럼 탐지와 추적을 모듈화하면 각 구성 요소를 독립적으로 개선하고 교체할 수 있어 유연성이 높습니다.
이러한 구조에서 탐지기와 추적기는 상호 보완적인 관계를 형성합니다. 시스템의 전체 성능은 단순히 각 부분의 성능을 합한 것이 아니라, 탐지기의 강점과 약점이 추적기의 설계 요구사항에 직접적인 영향을 미칩니다. 예를 들어, 탐지기의 바운딩 박스 예측이 불안정하고 노이즈가 많다면, 추적기는 칼만 필터와 같은 강력한 상태 추정 및 스무딩 기능을 갖추어야 합니다.32 만약 탐지기가 열 평형이나 짧은 가림 현상으로 인해 객체를 종종 놓친다면, 추적기의 예측 능력이 시스템의 강건성을 좌우하게 됩니다. 특히, 외형적 특징이 뚜렷하지 않은 열화상 이미지에서 탐지기가 두 객체를 구분하지 못하는 경우, 추적기는 단순한 위치 정보(IoU) 이상의 기준, 즉 외형 기반의 재식별(Re-identification) 능력을 갖추어야 합니다. 이는 DeepSORT와 같은 알고리즘이 개발된 핵심적인 이유입니다.49 따라서 성공적인 추적 시스템 설계는 특정 응용 분야(예: 열화상 감시)에서 예상되는 탐지기의 실패 모드를 보완할 수 있는 추적기를 선택하는 전체론적 관점을 요구합니다.
칼만 필터는 노이즈가 포함된 일련의 측정값으로부터 선형 동적 시스템의 상태를 재귀적으로 추정하는 알고리즘입니다.32 객체 추적 분야에서 칼만 필터는 객체의 운동 상태(예: 위치, 속도)를 모델링하고, 이를 바탕으로 다음 프레임에서의 위치를 예측하는 데 사용됩니다.29
새로운 탐지 결과가 기존 궤도와 연결되면, 칼만 필터는 이 측정값을 이용해 자신의 상태 추정치를 갱신합니다. 이 과정은 탐지기에서 발생하는 노이즈를 효과적으로 걸러내고 객체의 이동 경로를 부드럽게 만들어주는 역할을 합니다.32 만약 탐지기가 짧은 시간 동안 객체를 놓치더라도(예: 짧은 가림), 칼만 필터는 자체적인 운동 모델에 따라 객체의 위치를 계속해서 예측함으로써 추적의 연속성을 유지해 줍니다.32
칼만 필터를 구현하기 위해서는 상태 전이 모델(행렬 A)과 측정 모델(행렬 H)을 정의해야 합니다. 필터의 성능은 프로세스 노이즈 공분산(행렬 Q)과 측정 노이즈 공분산(행렬 R)이라는 두 파라미터를 통해 조절됩니다. Q와 R은 필터가 자신의 운동 모델 예측과 실제 탐지기 측정값 중 어느 쪽을 더 신뢰할지를 결정하는 역할을 합니다.48
칼만 필터는 객체의 움직임이 선형적이라는 가정을 전제로 합니다. 하지만 실제 세계의 객체들은 급격한 방향 전환이나 속도 변화와 같은 비선형적인 움직임을 보이는 경우가 많습니다. 이러한 복잡하고 비선형적인 운동을 모델링하기 위해 파티클 필터(Particle Filter)가 대안으로 사용될 수 있습니다.51
파티클 필터는 객체의 상태에 대한 확률 분포를 ‘파티클’이라고 불리는 다수의 가중치 있는 샘플들로 근사하여 표현합니다. 이를 통해 다중 모드(multi-modal) 분포나 비-가우시안(non-Gaussian) 분포를 가진 복잡한 상태를 추정할 수 있습니다. 하지만 일반적으로 칼만 필터에 비해 계산 비용이 훨씬 높다는 단점이 있습니다.52
객체 추적 기술은 순수한 운동 기반의 추정에서 외형 기반의 재식별로 진화하는 뚜렷한 경향을 보입니다. 이는 단순히 ‘움직이는 무언가’를 추적하는 것을 넘어, 각 객체의 ‘정체성’을 유지하며 추적하려는 시도를 반영합니다. 칼만 필터나 SORT와 같은 초기 방법론들은 객체의 예측된 위치에만 관심을 가질 뿐, 그 객체가 어떻게 생겼는지는 고려하지 않습니다.47 이러한 접근법은 두 객체의 경로가 교차하거나 한 객체가 가려졌다가 다시 나타나는 등 운동 모델이 모호해지는 상황에서 쉽게 실패합니다.50 시스템은 다시 나타난 객체가 이전에 추적하던 객체와 동일한지, 아니면 완전히 새로운 객체인지 판단할 수 없기 때문입니다.
샴 네트워크(Siamese Network)와 DeepSORT는 이러한 한계를 극복하기 위한 다음 세대의 진화된 기술입니다.49 이들은 “새롭게 탐지된 객체가 이전에 추적하던 객체와 외형적으로 유사한가?”라는 질문에 답하기 위해 명시적인 외형 모델을 학습합니다. 이를 통해 객체 재식별(Re-ID)이 가능해지며, 이는 복잡한 상호작용 속에서도 오랜 시간 동안 일관된 추적 ID를 유지하는 데 결정적인 역할을 합니다. 따라서 복잡한 열화상 환경에서의 강건한 추적 기술의 미래는 운동 정보와 외형 정보를 효과적으로 융합하는 능력에 달려 있으며, 특히 세부 묘사가 부족한 열화상 데이터에 특화된, 더 변별력 있는 외형 모델을 개발하는 것이 중요한 연구 과제로 남아있습니다.
샴 네트워크는 두 개의 동일한(가중치를 공유하는) 신경망 가지(branch)로 구성된 아키텍처입니다.55 이 네트워크는 두 개의 다른 이미지를 각각의 가지에 입력받아, 유사한 이미지 쌍(예: 동일 객체의 다른 이미지)은 특징 공간(feature space)에서 서로 가깝게, 다른 이미지 쌍은 서로 멀게 맵핑하도록 학습됩니다.56
객체 추적에 이를 적용할 때, 한쪽 가지에는 추적을 시작할 때의 목표 객체 템플릿 이미지를, 다른 쪽 가지에는 새로운 프레임의 탐색 영역 이미지를 입력합니다. 네트워크는 탐색 영역 내 모든 위치에 대한 유사도 맵(similarity map)을 출력하며, 가장 높은 유사도 점수를 가진 위치가 객체의 새로운 위치로 결정됩니다.55 이 방식은 추적 중에 별도의 온라인 학습이 거의 필요 없어 매우 빠른 속도를 자랑합니다.55 DSiam과 같은 최신 샴 네트워크 추적기들은 시간에 따른 객체의 외형 변화에 대응하기 위해 온라인 적응 메커니즘을 통합하여, 전통적인 업데이트 기반 추적기와의 성능 격차를 줄이고 있습니다.58
SORT (Simple Online and Realtime Tracking)
SORT는 매우 실용적이고 효율적인 추적-탐지 알고리즘입니다. 칼만 필터를 이용해 객체의 움직임을 예측하고, 헝가리안 알고리즘(Hungarian algorithm)을 사용해 새로운 탐지 결과와 기존 궤도를 바운딩 박스의 중첩 영역(IoU, Intersection over Union)을 기준으로 연결합니다.47 SORT의 가장 큰 약점은 객체의 외형 정보를 전혀 사용하지 않기 때문에, 객체들이 서로 가리거나 교차할 때 ID가 쉽게 바뀐다는(ID switch) 점입니다.50
DeepSORT
DeepSORT는 SORT의 이러한 단점을 극복하기 위해 심층 연관 측정(deep association metric)을 도입한 확장 버전입니다.46 DeepSORT는 SORT의 IoU 기반 정합에 더해, 별도로 사전 훈련된 딥러닝 모델을 사용하여 각 탐지된 객체의 외형 특징 벡터(appearance feature vector)를 추출합니다.47
데이터 연관 단계에서 DeepSORT는 운동 정보(칼만 필터 예측에 기반한 마할라노비스 거리)와 외형 정보(특징 벡터 간의 코사인 거리)를 결합한 비용 행렬을 사용합니다.49 이를 통해 객체가 오랜 시간 가려졌다가 다시 나타나더라도 그 외형적 유사성을 바탕으로 동일한 객체임을 재식별할 수 있습니다. 이 능력은 ID 전환을 획기적으로 줄여, 혼잡한 장면에서도 훨씬 더 강건한 추적 성능을 제공합니다.49
| 알고리즘 | 핵심 원리 | 가림(Occlusion) 처리 | ID 전환(ID Switch) 처리 | 계산 비용 | 대표적 사용 사례 |
|---|---|---|---|---|---|
| 칼만 필터 | 선형 운동 모델 기반의 상태 예측 및 갱신 32 | 단기 예측 가능, 장기 가림에 취약 | 처리 능력 없음 | 매우 낮음 | 노이즈가 있는 탐지기의 궤적 스무딩, 단기 예측 |
| SORT | 칼만 필터 + IoU 기반 데이터 연관 (헝가리안 알고리즘) 47 | 단기 예측 가능, 가림 후 재식별 불가 | IoU에만 의존하여 ID 전환이 잦음 50 | 낮음 | 실시간 성능이 중요하고 객체 간 상호작용이 적은 시나리오 |
| DeepSORT | SORT + 외형 특징 벡터를 이용한 심층 연관 측정 49 | 외형 정보로 장기 가림 후 재식별 가능 49 | 외형 유사도를 함께 고려하여 ID 전환을 크게 줄임 50 | 중간 (특징 추출기 필요) | 혼잡한 장면이나 가림이 잦은 환경에서의 강건한 다중 객체 추적 |
| 샴 네트워크 | 템플릿과 탐색 영역 간의 유사도 학습 및 정합 55 | 템플릿 매칭 기반으로 어느 정도 강건함. 심한 외형 변화에 취약 | 단일 객체 추적에 주로 사용. 다중 객체 추적 시 별도 관리 필요 | 낮음 (온라인 학습 불필요) | 고속 단일 객체 추적 (Visual Object Tracking) |
표 2: 주요 추적 알고리즘 성능 비교
이 파트에서는 단일 모드 열화상 이미징의 근본적인 한계를 극복하기 위한 최첨단 연구 동향을 탐구합니다. 이 분야의 발전은 새로운 모델 아키텍처의 개발보다는, 데이터를 생성하고, 증강하며, 학습하는 혁신적인 ‘데이터 중심 AI(Data-centric AI)’ 접근법에 의해 주도되고 있습니다. 이는 열화상 데이터가 본질적으로 저해상도이며, 색상과 질감이 부족하고, 양적으로도 희소하다는 문제에 대한 직접적인 대응입니다. RGB-T 퓨전은 부족한 세부 정보를 보완하고, GAN은 더 많은 데이터를 생성하며, UDA와 SSL은 기존의 풍부한 RGB 데이터나 레이블 없는 열화상 데이터를 활용하는 방법을 제시합니다. 이러한 데이터 중심 전략들은 열화상 인식 기술의 성능을 한 단계 끌어올리는 핵심 동력으로 작용하고 있습니다.
RGB와 열화상(TIR) 데이터를 융합하는 것은 각 센서의 상호 보완적인 강점을 결합하는 가장 직접적인 방법입니다. 즉, RGB의 풍부한 세부 묘사와 색상 정보, 그리고 열화상의 전천후 및 전천광(all-weather, all-lighting) 강건성을 통합하여 어느 한쪽만 사용하는 것보다 훨씬 더 강력한 인식 시스템을 구축하는 것입니다.5
초기 퓨전 방식은 단순히 픽셀 값을 평균 내는 수준이었지만, 정교한 딥러닝 접근법은 2-스트림(two-stream) CNN 구조를 사용하여 각 모달리티에서 독립적으로 특징을 추출한 후, 이를 다양한 단계(초기, 중간, 또는 후기)에서 융합합니다.61
CNN 기반 퓨전 방식은 두 모달리티 간의 전역적인 맥락(global context)이나 장거리 의존성(long-range dependencies)을 모델링하는 데 한계가 있습니다.66 최근 컴퓨터 비전 분야의 패러다임을 바꾸고 있는 트랜스포머(Transformer)와 그 핵심인 어텐션 메커니즘(attention mechanism)은 이러한 한계를 극복할 강력한 대안을 제시합니다. 트랜스포머는 이미지 내, 그리고 이미지 간의 전역적인 관계를 포착하는 데 탁월한 능력을 보입니다.67
최신 RGBT 추적 연구들은 트랜스포머를 백본으로 사용하여 RGB와 열화상 특징을 공동으로 추출, 융합, 그리고 관계 모델링까지 수행합니다.66 예를 들어, CSTNet과 같은 모델은 트랜스포머 블록 내부에 특화된 교차 모달 퓨전 모듈(cross-modal fusion module)을 직접 삽입하여 두 모달리티 간의 풍부한 상호작용을 유도합니다.67 이를 통해 모델은 열화상 이미지의 특정 ‘핫스팟’과 RGB 이미지의 해당 영역에 있는 ‘질감 패턴’ 사이의 복잡한 상관관계를 스스로 학습할 수 있게 됩니다.
대규모의 주석 달린 열화상 데이터셋 부재는 강력한 딥러닝 모델 훈련에 가장 큰 걸림돌입니다.19 이 문제를 해결하기 위해 데이터 자체를 생성하거나 증강하는 연구가 활발히 진행되고 있습니다.
생성적 적대 신경망(GAN, Generative Adversarial Networks)은 실제와 매우 유사한 이미지를 생성하는 데 뛰어난 성능을 보이는 딥러닝 모델입니다. GAN은 합성 이미지를 만드는 ‘생성자(Generator)’와, 이 이미지가 진짜인지 가짜인지 판별하는 ‘판별자(Discriminator)’가 서로 경쟁하며 학습하는 구조를 가집니다.71
연구자들은 이 GAN을 이미지-대-이미지 변환(image-to-image translation) 작업에 적용하여, 대규모로 존재하는 RGB 이미지를 그에 상응하는 그럴듯한 열화상 이미지로 변환하는 모델을 훈련시킵니다.20 COCO와 같이 방대한 양의 주석이 달린 RGB 데이터셋을 활용하면, 이 과정을 통해 자동으로 주석이 달린 대규모 합성 열화상 데이터셋을 생성할 수 있습니다.20 이는 부족한 실제 데이터를 보완하고 모델 훈련 과정을 효과적으로 지원하는 핵심적인 전략입니다.
단순한 기하학적 변환(좌우 반전, 회전 등)만으로는 열화상 데이터의 다양성을 충분히 확보하기 어렵습니다.75 열화상 이미지의 고유한 특성을 고려한 데이터 증강 기법이 필요합니다.
파라미터 기반 명암비 조절(parametric contrast stretching), 밝기 조절, 히스토그램 평활화(histogram equalization)와 같은 기법들은 열화상 이미지의 특성을 반영하여 더 현실적이고 도전적인 훈련 샘플을 만들어낼 수 있습니다.75 일부 연구에서는 한 걸음 더 나아가, 열 대비, 노이즈 수준과 같은 열화상 이미지 품질 지표를 사용하여 증강 과정을 안내합니다. 이를 통해 생성된 샘플이 실제 환경의 변화를 더 잘 반영하도록 하여 모델의 강건성과 일반화 성능을 향상시킵니다.75
UDA는 레이블이 풍부한 ‘소스 도메인’(예: RGB 이미지)에서 학습된 모델을, 레이블이 없는 ‘타겟 도메인’(예: 열화상 이미지)에서도 잘 작동하도록 적응시키는 기술입니다.77
가장 일반적인 기법 중 하나는 ‘적대적 정렬(adversarial alignment)’입니다. 이 방법은 특징 추출기(feature extractor)와 도메인 판별자(domain discriminator)를 함께 사용합니다. 판별자는 주어진 특징 벡터가 소스 도메인에서 왔는지 타겟 도메인에서 왔는지 구별하도록 학습됩니다. 동시에, 특징 추출기는 판별자를 속이는, 즉 도메인에 무관한(domain-invariant) 특징을 생성하도록 학습됩니다.77 이 과정을 통해 모델은 두 도메인에 공통적으로 적용될 수 있는 일반적인 표현을 학습하게 됩니다. 더 나아가, 어텐션 메커니즘을 도입하여 색상 정보와 같이 특정 도메인에만 국한된 특징이 학습을 방해하는 ‘부정적 전이(negative transfer)’를 줄이고, 두 도메인 간에 공유될 수 있는 유용한 특징(예: 형태 정보)에만 집중하여 전이 학습의 효율을 높이는 연구도 진행되고 있습니다.77
SSL은 레이블이 없는 대규모 데이터셋으로부터 모델 스스로 감독 신호(supervisory signal)를 만들어 유의미한 특징 표현을 학습하게 하는 패러다임입니다.82
대조 학습(Contrastive Learning)은 SSL의 대표적인 접근법 중 하나입니다. 이 방법은 동일한 이미지에 대해 서로 다른 증강(augmentation)을 적용한 ‘긍정적 쌍(positive pair)’의 특징 표현은 서로 가깝게 만들고, 서로 다른 이미지에서 온 ‘부정적 쌍(negative pair)’의 특징 표현은 서로 멀어지도록 모델을 학습시킵니다.83 이 원리를 RGB-열화상 이미지 쌍에 적용하면, 모델은 모달리티에 구애받지 않는 불변의 특징 표현을 학습할 수 있습니다.83
SSL은 대량의 레이블 없는 열화상 비디오 데이터를 쉽게 수집할 수 있다는 점에서 열화상 비전 분야에 엄청난 잠재력을 가집니다. 이를 통해 강력한 특징 추출기를 열화상 데이터로 직접 사전 훈련시킨 후, 소량의 레이블된 데이터로 특정 작업에 맞게 미세 조정(fine-tuning)하는 효율적인 학습 파이프라인을 구축할 수 있습니다.82
이러한 최신 연구 동향들은 하나의 공통된 방향을 가리킵니다. 바로 트랜스포머, 다중 모드 퓨전, 그리고 자기 지도 학습이 하나의 강력한 패러다임으로 수렴하고 있다는 것입니다. 미래의 최첨단 모델은 대규모의 레이블 없는 RGB-T 비디오 데이터셋을 통해 자기 지도 방식으로 사전 훈련된 거대한 트랜스포머 기반 모델이 될 가능성이 높습니다. 이러한 모델은 두 모달리티 간의 근본적인 상관관계를 깊이 이해하고, 소량의 레이블 데이터만으로 특정 작업에 매우 효과적으로 미세 조정될 수 있을 것입니다. 이는 현재보다 훨씬 높은 수준의 복잡성과 데이터 요구사항을 수반하지만, 성능과 강건성 면에서 비약적인 발전을 약속합니다.
이 마지막 파트에서는 이론적인 알고리즘을 현실 세계에 적용할 때 마주하게 되는 실질적인 도구, 하드웨어, 그리고 도전 과제들을 다룹니다. 성공적인 시스템 배포는 단순히 우수한 알고리즘을 선택하는 것을 넘어, 데이터셋, 하드웨어, 모델 아키텍처라는 세 가지 요소가 상호 유기적으로 작용하는 ‘삼각대(Triad)’를 이해하고 최적화하는 과정입니다. 특정 데이터셋(예: FLIR ADAS)은 응용 분야(예: 자동차)를 정의하고, 타겟 하드웨어(예: Jetson Nano)는 모델의 복잡성에 대한 엄격한 제약을 부과하며, 이는 다시 경량 모델(예: YOLOv4-tiny)의 선택과 하드웨어 특화 최적화(예: TensorRT)를 강제합니다. 따라서 학술적 벤치마크에서 최고의 성능을 보이는 모델이 실제 배포 환경에서는 최적이 아닐 수 있으며, 이 세 요소의 동시적인 공동 설계(co-design)가 실용적인 성공의 핵심입니다.
강력한 딥러닝 모델을 훈련하고 평가하기 위해서는 고품질의 데이터셋이 필수적입니다. 다음은 열화상 객체 인식 및 추적 연구에 널리 사용되는 주요 공개 데이터셋입니다.
| 데이터셋 이름 | 주요 초점 | 이미지 쌍/프레임 | 해상도 | 주석 상세 | 주요 해결 과제 |
|---|---|---|---|---|---|
| FLIR ADAS | 자동차(ADAS) | 26,000+ 프레임 (RGB+T) 60 | 640x512 (T), 가변 (RGB) | 15개 클래스, MSCOCO JSON 형식 60 | 주/야간 ADAS, RGBT 퓨전 알고리즘 개발 5 |
| KAIST Multispectral | 보행자 탐지 | 95,000+ 쌍 (RGB+T) 87 | 640x480 | 보행자, 자전거 탑승자 등, 텍스트 형식 | RGBT 보행자 탐지, 퓨전 기법 벤치마킹 88 |
| LLVIP | 저조도 환경 | 15,000+ 쌍 (RGB+T) 90 | 1280x1024 | 보행자, PASCAL VOC XML 형식 | 야간 환경에서의 퓨전 및 탐지 성능 평가 92 |
| C3I Thermal Automotive | 자동차(ADAS) | 35,000+ 프레임 (T) 94 | 640x480 | 다수 클래스, YOLO 형식 | 저가형 열화상 센서를 이용한 스마트 인식 시스템 개발 94 |
표 3: 주요 공개 열화상/RGBT 객체 인식 데이터셋
복잡한 딥러닝 모델을 실시간으로 추론하기 위해서는 하드웨어 가속이 필수적입니다. 특히 전력과 자원이 제한된 엣지 디바이스 환경에서는 더욱 그렇습니다.33
NVIDIA Jetson 시리즈(Nano, TX2, Xavier 등)는 저전력 GPU를 탑재한 임베디드 플랫폼으로, 엣지 AI 분야에서 널리 사용됩니다.95 이러한 플랫폼에서의 가속은 주로 NVIDIA의 CUDA 툴킷과 TensorRT SDK를 통해 이루어집니다. TensorRT는 훈련된 모델을 추론에 최적화하는 라이브러리로, 레이어 융합, 정밀도 보정(예: 32비트 부동소수점(FP32)에서 FP16 또는 8비트 정수(INT8)로 변환), 하드웨어에 특화된 커널 선택 등의 최적화를 수행하여 상당한 속도 향상을 가져옵니다.96
FPGA(Field-Programmable Gate Array)는 GPU의 대안으로, 진정한 하드웨어 병렬 처리를 통해 더 높은 전력 효율(GOPS/W)과 더 낮은 지연 시간(latency)을 제공할 수 있는 잠재력을 가집니다.100 FPGA 개발은 전통적으로 GPU보다 복잡했지만, Xilinx의 Vitis-AI와 같은 툴들이 등장하면서 DNN 모델을 FPGA에 배포하는 과정이 간소화되고 있습니다.101 특히 비디오 처리와 같이 데이터가 지속적으로 스트리밍되는 파이프라인 구조에 강점을 보입니다.102 일반적으로 FPGA는 GPU에 비해 전력 효율성에서 우위를 점하지만, 개발 곡선이 가파르고 개발 주기가 더 길다는 상충 관계가 존재합니다.95
실제 하드웨어에서의 성능은 이론적인 계산량만으로는 예측하기 어렵습니다. 다음 표는 경량 모델을 임베디드 하드웨어에서 실행했을 때의 실제 성능을 보여주는 벤치마크 사례입니다. 이 데이터는 하드웨어별 최적화의 중요성을 명확히 보여줍니다. 예를 들어, YOLOv4-tiny 모델은 고성능 GPU에서는 수백 FPS를 기록하지만 104, 최적화되지 않은 상태의 Jetson Nano에서는 1-2 FPS에 그칠 수 있습니다.97 하지만 TensorRT와 같은 프레임워크로 최적화하면 동일한 하드웨어에서 30-40 FPS 수준까지 성능을 끌어올릴 수 있습니다.99
| 모델 | 하드웨어 플랫폼 | 최적화 프레임워크 | 입력 해상도 | 정밀도 | 보고된 FPS | 보고된 정확도(mAP) | 출처 |
|---|---|---|---|---|---|---|---|
| YOLOv4 | Jetson Nano | TensorRT | 608x608 | FP16 | 1.77 | 48.4% (COCO) | 99 |
| YOLOv4 | Jetson Nano | TensorRT | 416x416 | FP16 | 4.62 | 45.4% (COCO) | 99 |
| YOLOv4-tiny | Jetson Nano | TensorRT (tkDNN) | 416x416 | FP16 | 39 | 40.2% (COCO) | 99 |
| YOLOv4-tiny | Jetson TX2 | Darknet (CUDNN) | 416x416 | - | 8 | - | 97 |
| YOLOv3 | Jetson Nano | Darknet (CUDNN) | 608x608 | - | 1.4 | - | 105 |
표 4: 임베디드 하드웨어에서의 경량 모델 성능 벤치마크
주요 성능 지표로는 탐지 정확도를 나타내는 mAP(mean Average Precision), 추적 정확도를 나타내는 MOTA(Multiple Object Tracking Accuracy) 및 MOTP(Multiple Object Tracking Precision), 추적 ID의 안정성을 나타내는 ID Switches(IDs), 그리고 추론 속도를 나타내는 FPS가 사용됩니다.50
학술 연구와 실제 배포 사이에는 상당한 격차가 존재하며, 이 격차는 주로 예측 불가능한 실패에 대한 강건성과 시스템 비용에 의해 정의됩니다. 학술 논문은 잘 정제된 벤치마크 데이터셋에서 최고의 성능을 달성하는 데 집중하는 반면 63, 실제 시스템은 센서 고장, 극단적인 환경 조건, 엄격한 비용 및 전력 예산과 같은 지저분하고 예측 불가능한 문제들을 해결해야 합니다.7
모달리티 데이터 누락 (Modality Missing)
RGBT 시스템에서 한쪽 센서가 고장 나거나 데이터 전송에 오류가 발생하는 것은 현실적인 실패 시나리오입니다.108 이를 완화하기 위한 전략으로는 단순히 마지막 프레임을 복사하는 간단한 방법부터, 가용한 모달리티 데이터를 기반으로 누락된 모달리티의 데이터를 그럴듯하게 생성해내는 역변환 가능 프롬프트 학습(invertible prompt learning)과 같은 고급 기법까지 다양합니다.108 이러한 연구는 실제 배포 환경에서는 매우 중요하지만, 잘 정제된 학술 벤치마크에서는 잘 다루어지지 않는 문제의 대표적인 예입니다.
환경적 도전 과제
열 평형 현상 외에도, 실제 추적기는 객체 가림, 배경 혼잡, 빠른 움직임 등 다양한 문제에 강건해야 합니다.46 DeepSORT와 같이 외형 정보를 활용하는 강건한 추적 알고리즘과 고급 퓨전 모델을 사용하는 것이 핵심적인 완화 전략입니다.
시스템 비용 및 복잡성
부품 비용은 점차 감소하고 있지만 7, 다중 센서 RGBT 시스템을 구축, 보정(calibration), 유지보수하는 것은 여전히 복잡하고 비용이 많이 듭니다. 특히 두 센서의 시야를 공간적으로, 그리고 캡처 시점을 시간적으로 정밀하게 일치시키는 것은 상당한 엔지니어링 노력을 요구하는 어려운 과제입니다.64
결론적으로, 2%의 정확도 손실이 있더라도 센서 고장과 같은 실제 문제 상황을 우아하게 처리할 수 있는 시스템이, 최고 성능을 자랑하지만 쉽게 실패하는 취약한 시스템보다 훨씬 더 가치가 있습니다. 이는 엔지니어링의 목표가 단순히 최고 성능 달성이 아니라, 신뢰성 확보에 있어야 함을 강조합니다.
본 보고서는 시계열 열화상 영상을 이용한 객체 인식 및 추적 기술을 심층적으로 분석하였다. 분석을 통해 다음과 같은 핵심적인 결론을 도출할 수 있다.
열화상 객체 인식 및 추적 기술은 다음과 같은 방향으로 더욱 발전할 것으로 전망된다.
| 열화상 카메라는 어떤 원리로 작동할까요? | Teledyne FLIR, accessed July 3, 2025, https://www.flirkorea.com/discover/rd-science/how-do-thermal-cameras-work/ |
| Thermal Datasets for ADAS Algorithm Training | Teledyne FLIR, accessed July 3, 2025, https://www.flir.com/oem/adas/dataset/ |
| In a there are visible images that it is difficult to track the target… | Download Scientific Diagram - ResearchGate, accessed July 3, 2025, https://www.researchgate.net/figure/In-a-there-are-visible-images-that-it-is-difficult-to-track-the-target-in-low-light-and_fig1_366018393 |
| 인공지능을 적용한 실시간 적외선 이미지 객체 탐지 서비스 | capstone-2020-14, accessed July 3, 2025, https://kookmin-sw.github.io/capstone-2020-14/ |
| Enhancing Thermal Image Classification with Novel Quality Metric-Based Augmentation Techniques | Mathematical Problems of Computer Science, accessed July 3, 2025, https://mpcs.sci.am/index.php/mpcs/article/view/865 |
| LLVIP: A Visible-infrared Paired Dataset for Low-light Vision | Papers With Code, accessed July 3, 2025, https://paperswithcode.com/paper/llvip-a-visible-infrared-paired-dataset-for |
| Benchmarking YoloV4 Models on an Nvidia Jetson Xavier NX | by Jan Nitschke - ML6 blog, accessed July 3, 2025, https://blog.ml6.eu/benchmarking-yolov4-models-on-an-nvidia-jetson-xavier-nx-353e6d49dc1f |
| A Comprehensive Review of RGBT Tracking | Request PDF - ResearchGate, accessed July 3, 2025, https://www.researchgate.net/publication/382762309_A_Comprehensive_Review_of_RGBT_Tracking |
| Attribute-Based Progressive Fusion Network for RGBT Tracking | Proceedings of the AAAI Conference on Artificial Intelligence, accessed July 3, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/20187 |