Chapter 8. 센서 융합(Sensor Fusion) 기초
센서 융합(sensor fusion)은 복수의 센서로부터 획득한 데이터를 결합하여 단일 센서로는 달성할 수 없는 정확도, 신뢰도, 완전성을 갖춘 환경 인지를 수행하는 기술이다. 자율주행 시스템에서 센서 융합은 카메라, LiDAR, 레이더, 초음파, IMU, GNSS 등 이종(heterogeneous) 센서의 상호 보완적 특성을 활용하여 주행 환경에 대한 통합적 이해를 구성하는 핵심 기술 요소이다.
본 장에서는 센서 융합의 이론적 기초, 융합 아키텍처의 분류, 확률적 상태 추정 기법, 데이터 연관(data association) 문제, 그리고 자율주행에서의 센서 융합 적용 사례를 학습한다.
1. 센서 융합의 정의와 동기
1.1 센서 융합의 정의
센서 융합은 복수의 센서 소스로부터 획득한 데이터를 체계적으로 결합하여, 관심 대상에 대한 보다 정확하고 완전한 추정(estimation)을 산출하는 과정이다. JDL(Joint Directors of Laboratories) 데이터 융합 모델에 따르면, 데이터 융합은 “복수의 소스로부터의 데이터와 정보를 연관, 상관, 결합하여 정제된 위치 및 식별 추정, 상황 및 위협 평가를 달성하는 다수준(multi-level) 프로세스“로 정의된다(Steinberg et al., 1999).
1.2 센서 융합의 동기
자율주행에서 센서 융합이 필수적인 근본적 동기는 다음과 같다.
상호 보완성(complementarity): 각 센서는 고유한 물리적 원리에 기반하므로 측정 가능한 물리량, 분해능, 환경 강건성이 상이하다. 카메라의 풍부한 의미적 정보, LiDAR의 정밀한 3차원 기하 정보, 레이더의 기상 강건성과 직접 속도 측정 등 각 센서의 강점은 다른 센서의 약점을 보완한다.
이중화(redundancy): 동일 영역을 복수의 센서로 관측함으로써 단일 센서의 고장, 차폐(occlusion), 환경적 성능 저하에 대한 내성을 확보한다. 이중화는 기능 안전(functional safety) 요구사항 충족에 핵심적이다.
정확도 향상: 동일 물리량에 대한 복수의 독립적 관측을 결합하면, 통계적으로 개별 관측 대비 낮은 불확실성을 갖는 추정을 산출할 수 있다. n개의 독립적이고 동일한 분산 \sigma^2을 갖는 관측을 평균하면, 결합 추정의 분산은 \sigma^2/n으로 감소한다.
2. 센서 융합 아키텍처의 분류
센서 융합 아키텍처는 융합이 수행되는 인지 파이프라인 내 위치(단계)에 따라 크게 세 가지로 분류된다(Feng et al., 2021).
2.1 조기 융합(Early Fusion)
조기 융합은 각 센서의 원시 데이터(raw data) 수준에서 결합을 수행하는 방식이다. 예를 들어, LiDAR 점군의 각 점에 카메라 영상의 RGB 값과 의미적 특징을 투영하거나, 복수 센서의 원시 측정값을 단일 통합 표현(unified representation)으로 변환한 후 인지 알고리즘에 입력한다.
장점: 원시 데이터에 포함된 모든 정보를 보존한 상태에서 융합이 이루어지므로, 정보 손실이 최소화된다.
단점: 이종 센서 데이터의 정밀한 시공간적 정합(spatial-temporal alignment)이 필수적이며, 연산량이 크고, 센서 간 캘리브레이션 오차에 민감하다.
대표적 사례로 PointPainting(Vora et al., 2020)은 카메라 영상의 의미적 분할 결과를 LiDAR 점군에 투영하여 각 점에 의미적 레이블을 부여한 후 3차원 객체 검출을 수행한다.
2.2 후기 융합(Late Fusion)
후기 융합은 각 센서에 대해 독립적으로 인지 처리(검출, 분류 등)를 수행한 후, 개별 센서의 출력 결과(검출 결과, 추적 결과)를 결합하는 방식이다. 각 센서의 인지 파이프라인이 독립적으로 동작하므로 모듈 간 결합도(coupling)가 낮다.
장점: 각 센서의 인지 모듈을 독립적으로 개발, 시험, 교체할 수 있어 시스템 유지보수성이 높다. 센서 추가 또는 제거가 용이하다.
단점: 개별 센서의 인지 단계에서 이미 정보 손실이 발생한 후 융합이 이루어지므로, 조기 융합 대비 최적의 성능을 달성하기 어려울 수 있다.
후기 융합에서는 복수 센서의 검출 결과를 연관(association)시키고, 중복 검출을 제거하며, 결합된 추정값을 산출하는 과정이 핵심이다. 헝가리안 알고리즘(Hungarian algorithm), IoU(Intersection over Union) 기반 매칭, 마할라노비스 거리(Mahalanobis distance) 기반 매칭 등이 사용된다.
2.3 중기 융합(Mid-Level Fusion / Feature-Level Fusion)
중기 융합은 각 센서의 원시 데이터에서 추출된 중간 수준의 특징(feature)을 결합하는 방식이다. 심층 학습 기반 인지에서는 각 센서 가지(branch)의 인코더(encoder)가 추출한 특징 맵(feature map)을 결합한 후 디코더(decoder)에서 통합적으로 처리한다.
장점: 원시 데이터의 정보를 상당 부분 보존하면서도, 특징 공간에서의 결합을 통해 이종 데이터 간의 정합 부담을 완화할 수 있다.
단점: 특징 표현 간의 의미적 정합(semantic alignment)이 필요하며, 학습 기반 접근법의 경우 대규모 다중 센서 데이터셋이 요구된다.
BEVFusion(Liu et al., 2023)은 카메라와 LiDAR의 특징을 BEV(Bird’s Eye View) 공간에서 결합하는 대표적인 중기 융합 방식이다.
3. 확률적 상태 추정의 기초
센서 융합의 이론적 기반은 확률적 상태 추정(probabilistic state estimation)이다. 센서 측정은 본질적으로 잡음(noise)을 포함하며, 추정하고자 하는 상태(state)는 불확실성을 갖는다. 확률적 프레임워크는 이러한 불확실성을 체계적으로 표현하고 관리하는 수학적 도구를 제공한다.
3.1 베이즈 필터(Bayes Filter)
베이즈 필터는 확률적 상태 추정의 일반적 프레임워크로서, 시간 t에서의 상태 \mathbf{x}_t에 대한 사후 확률 분포(posterior distribution) p(\mathbf{x}_t | \mathbf{z}_{1:t})를 재귀적으로 갱신한다. 여기서 \mathbf{z}_{1:t}는 시각 1부터 t까지의 관측(measurement) 시퀀스이다.
베이즈 필터는 두 단계로 구성된다.
예측 단계(prediction step):
p(\mathbf{x}_t | \mathbf{z}_{1:t-1}) = \int p(\mathbf{x}_t | \mathbf{x}_{t-1}) \, p(\mathbf{x}_{t-1} | \mathbf{z}_{1:t-1}) \, d\mathbf{x}_{t-1}
여기서 p(\mathbf{x}_t | \mathbf{x}_{t-1})는 상태 전이 모델(state transition model)이다.
갱신 단계(update step):
p(\mathbf{x}_t | \mathbf{z}_{1:t}) = \frac{p(\mathbf{z}_t | \mathbf{x}_t) \, p(\mathbf{x}_t | \mathbf{z}_{1:t-1})}{p(\mathbf{z}_t | \mathbf{z}_{1:t-1})}
여기서 p(\mathbf{z}_t | \mathbf{x}_t)는 관측 모델(observation model, likelihood)이며, 분모는 정규화 상수이다(Thrun et al., 2005).
3.2 칼만 필터(Kalman Filter)
칼만 필터는 선형 가우시안(linear-Gaussian) 시스템에 대한 베이즈 필터의 해석적(closed-form) 해이다. 상태 전이와 관측 모델이 선형이고 잡음이 가우시안 분포를 따를 때, 사후 분포는 가우시안으로 유지되며 평균과 공분산으로 완전히 기술된다.
시스템 모델:
\mathbf{x}_t = \mathbf{F}_t \mathbf{x}_{t-1} + \mathbf{B}_t \mathbf{u}_t + \mathbf{w}_t, \quad \mathbf{w}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{Q}_t)
관측 모델:
\mathbf{z}_t = \mathbf{H}_t \mathbf{x}_t + \mathbf{v}_t, \quad \mathbf{v}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{R}_t)
예측:
\hat{\mathbf{x}}_{t|t-1} = \mathbf{F}_t \hat{\mathbf{x}}_{t-1|t-1} + \mathbf{B}_t \mathbf{u}_t
\mathbf{P}_{t|t-1} = \mathbf{F}_t \mathbf{P}_{t-1|t-1} \mathbf{F}_t^T + \mathbf{Q}_t
갱신:
\mathbf{K}_t = \mathbf{P}_{t|t-1} \mathbf{H}_t^T (\mathbf{H}_t \mathbf{P}_{t|t-1} \mathbf{H}_t^T + \mathbf{R}_t)^{-1}
\hat{\mathbf{x}}_{t|t} = \hat{\mathbf{x}}_{t|t-1} + \mathbf{K}_t (\mathbf{z}_t - \mathbf{H}_t \hat{\mathbf{x}}_{t|t-1})
\mathbf{P}_{t|t} = (\mathbf{I} - \mathbf{K}_t \mathbf{H}_t) \mathbf{P}_{t|t-1}
여기서 \mathbf{K}_t는 칼만 이득(Kalman gain), \mathbf{P}는 오차 공분산 행렬이다(Kalman, 1960).
8.3.3 확장 칼만 필터(Extended Kalman Filter, EKF)
자율주행에서의 상태 전이 모델과 관측 모델은 대부분 비선형이다. EKF는 비선형 함수를 현재 추정값 주변에서 1차 테일러 전개(first-order Taylor expansion)로 선형화하여 칼만 필터 프레임워크를 적용한다.
비선형 시스템 모델 \mathbf{x}_t = f(\mathbf{x}_{t-1}, \mathbf{u}_t) + \mathbf{w}_t와 관측 모델 \mathbf{z}_t = h(\mathbf{x}_t) + \mathbf{v}_t에 대해, 야코비안(Jacobian) 행렬 \mathbf{F}_t = \frac{\partial f}{\partial \mathbf{x}} \big|_{\hat{\mathbf{x}}_{t-1}}, \mathbf{H}_t = \frac{\partial h}{\partial \mathbf{x}} \big|_{\hat{\mathbf{x}}_{t|t-1}}을 산출하여 선형화한다(Bar-Shalom et al., 2001).
8.3.4 무향 칼만 필터(Unscented Kalman Filter, UKF)
UKF는 비선형 시스템에서 EKF의 선형화 오차를 줄이기 위해 무향 변환(unscented transform)을 사용한다. 시그마 포인트(sigma points)라 불리는 결정론적 표본점을 선택하여 비선형 함수를 통과시킨 후, 변환된 표본점의 통계량으로부터 평균과 공분산을 추정한다. UKF는 2차 이상의 비선형성에 대해 EKF보다 정확한 추정을 제공한다(Julier & Uhlmann, 2004).
8.4 다중 센서 관측의 융합
8.4.1 순차적 갱신(Sequential Update)
복수의 센서 관측 \mathbf{z}_t^{(1)}, \mathbf{z}_t^{(2)}, \ldots, \mathbf{z}_t^{(m)}이 동일 시각에 도착할 때, 칼만 필터의 갱신 단계를 각 관측에 대해 순차적으로 적용할 수 있다. 각 갱신마다 상태 추정의 불확실성이 줄어들며, 최종 결과는 갱신 순서에 무관하다(관측이 조건부 독립일 때).
8.4.2 배치 갱신(Batch Update)
복수 센서의 관측을 하나의 관측 벡터로 결합하여 단일 갱신 단계에서 처리할 수도 있다. 관측 벡터 \mathbf{z}_t = [\mathbf{z}_t^{(1)T}, \mathbf{z}_t^{(2)T}, \ldots]^T에 대응하는 관측 행렬 \mathbf{H}_t와 관측 잡음 공분산 \mathbf{R}_t(블록 대각 형태, 센서 간 독립 가정)를 구성하여 칼만 갱신을 수행한다.
8.4.3 공분산 교차(Covariance Intersection)
복수 센서의 추정값 간 상관(correlation)이 미지(unknown)인 경우, 표준 칼만 필터의 융합은 과도하게 낙관적인 불확실성 추정을 야기할 수 있다. 공분산 교차(Covariance Intersection, CI) 알고리즘은 미지의 상관 구조에 대해서도 일관된(consistent) 추정을 보장하는 융합 기법이다(Julier & Uhlmann, 1997).
8.5 데이터 연관(Data Association)
8.5.1 데이터 연관의 정의
데이터 연관은 복수 센서의 검출 결과 또는 시간에 따른 검출 결과를 기존 추적 대상(track)에 올바르게 대응시키는 문제이다. 잘못된 연관은 추적 오류, 트랙 교환(track swap), 허위 트랙(false track) 등을 야기한다.
8.5.2 글로벌 최근접 이웃(Global Nearest Neighbor, GNN)
GNN 방식은 관측-트랙 쌍 간의 거리(또는 비용) 행렬을 구성하고, 총 비용을 최소화하는 일대일 대응을 헝가리안 알고리즘(Hungarian algorithm)으로 산출한다. 마할라노비스 거리가 비용 척도로 흔히 사용된다.
d_M = \sqrt{(\mathbf{z} - \hat{\mathbf{z}})^T \mathbf{S}^{-1} (\mathbf{z} - \hat{\mathbf{z}})}
여기서 \hat{\mathbf{z}}는 트랙의 예측 관측값, \mathbf{S}는 혁신 공분산(innovation covariance)이다(Blackman & Popoli, 1999).
3.3 확률적 데이터 연관
결합 확률적 데이터 연관 필터(Joint Probabilistic Data Association Filter, JPDAF)는 각 관측이 각 트랙에 속할 사후 확률을 계산하고, 이 확률에 기반하여 가중 갱신을 수행한다. 밀집 환경에서 GNN보다 강건한 성능을 보이나 연산 복잡도가 높다(Bar-Shalom & Fortmann, 1988).
4. 다중 객체 추적(Multi-Object Tracking)
4.1 추적의 기본 구조
다중 객체 추적(Multi-Object Tracking, MOT)은 시간에 따른 연속 센서 관측으로부터 다수 객체의 상태(위치, 속도, 크기 등)를 연속적으로 추정하는 문제이다. 기본 구조는 예측-연관-갱신의 순환으로 구성된다.
- 예측: 기존 트랙의 상태를 동역학 모델에 따라 다음 시각으로 예측한다.
- 연관: 새로운 센서 관측을 기존 트랙에 대응시킨다.
- 갱신: 연관된 관측으로 트랙의 상태를 갱신한다.
- 트랙 관리: 새로운 트랙의 생성(initiation), 미연관 트랙의 유지 또는 소멸(deletion)을 관리한다.
4.2 트랙 관리
트랙의 생명 주기(life cycle)는 생성, 확정(confirmed), 유지(coasting), 소멸의 단계로 관리된다. M/N 로직(M-out-of-N logic)이 일반적으로 사용되며, 최근 N 프레임 중 M 프레임 이상에서 관측이 연관된 경우 트랙을 확정하고, 일정 프레임 이상 연관이 없는 경우 트랙을 소멸시킨다.
5. 자율주행에서의 센서 융합 적용
5.1 객체 검출 융합
자율주행 인지에서 카메라, LiDAR, 레이더의 검출 결과를 융합하여 차량, 보행자, 자전거 등의 3차원 바운딩 박스(bounding box)를 산출한다. 조기 융합(예: BEVFusion), 중기 융합(예: TransFusion), 후기 융합(예: CLOCs) 등 다양한 아키텍처가 연구되고 있다.
5.2 위치 추정 융합
GNSS, IMU, 차륜 주행 거리계, LiDAR 기반 위치 인식(localization)의 결과를 EKF 또는 그래프 최적화(graph optimization)로 융합하여 차량의 전역 위치와 자세를 추정한다. GNSS/INS 융합은 자율주행 위치 추정의 근간을 형성한다(Groves, 2013).
5.3 점유 격자 맵(Occupancy Grid Map)
복수 센서의 관측을 확률적 점유 격자 맵(probabilistic occupancy grid map)으로 융합하여 주행 가능 영역(drivable area)과 장애물 영역을 식별한다. 각 센서의 관측을 역센서 모델(inverse sensor model)을 통해 점유 확률로 변환하고, 베이즈 갱신을 통해 누적적으로 맵을 구성한다(Elfes, 1989).
참고문헌
- Bar-Shalom, Y., & Fortmann, T. E. (1988). Tracking and Data Association. Academic Press.
- Bar-Shalom, Y., Li, X. R., & Kirubarajan, T. (2001). Estimation with Applications to Tracking and Navigation. John Wiley & Sons.
- Blackman, S., & Popoli, R. (1999). Design and Analysis of Modern Tracking Systems. Artech House.
- Elfes, A. (1989). Using occupancy grids for mobile robot perception and navigation. Computer, 22(6), 46–57.
- Feng, D., Haase-Schütz, C., Rosenbaum, L., Hertlein, H., Glaeser, C., Timm, F., Dietmayer, K., & Schlichtharle, F. (2021). Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. IEEE Transactions on Intelligent Transportation Systems, 22(3), 1341–1360.
- Groves, P. D. (2013). Principles of GNSS, Inertial, and Multisensor Integrated Navigation Systems (2nd ed.). Artech House.
- Julier, S. J., & Uhlmann, J. K. (1997). A non-divergent estimation algorithm in the presence of unknown correlations. Proceedings of the American Control Conference, 4, 2369–2373.
- Julier, S. J., & Uhlmann, J. K. (2004). Unscented filtering and nonlinear estimation. Proceedings of the IEEE, 92(3), 401–422.
- Kalman, R. E. (1960). A new approach to linear filtering and prediction problems. Journal of Basic Engineering, 82(1), 35–45.
- Liu, Z., Tang, H., Amini, A., Yang, X., Mao, H., Rus, D., & Han, S. (2023). BEVFusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. IEEE International Conference on Robotics and Automation (ICRA), 2774–2781.
- Steinberg, A. N., Bowman, C. L., & White, F. E. (1999). Revisions to the JDL data fusion model. Sensor Fusion: Architectures, Algorithms, and Applications III, SPIE, 3719, 430–441.
- Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
- Vora, S., Lang, A. H., Helber, B., Beijbom, O., & Caesar, H. (2020). PointPainting: Sequential fusion for 3D object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4604–4612.
버전: v1.0, 2026-04-11