8.5 고수준 융합(High-Level Fusion)

1. 고수준 융합의 정의와 특징

고수준 융합(high-level fusion)은 후기 융합(late fusion), 결정 수준 융합(decision-level fusion), 또는 객체 수준 융합(object-level fusion)이라고도 하며, 각 센서에 대해 독립적으로 완전한 인지 처리(검출, 분류, 추적 등)를 수행한 후, 개별 센서의 인지 결과(검출 목록, 추적 트랙, 분류 결과 등)를 결합하는 방식이다.

고수준 융합의 핵심 특징은 다음과 같다.

모듈 독립성: 각 센서의 인지 파이프라인이 독립적으로 동작하므로, 개별 모듈의 개발, 시험, 교체가 용이하다.
센서 확장성: 새로운 센서의 추가 또는 기존 센서의 제거가 전체 시스템에 미치는 영향이 최소화된다.
센서 고장 내성: 특정 센서가 고장하거나 성능이 저하되더라도, 다른 센서의 인지 결과에 기반하여 시스템의 연속적 동작이 가능하다.
정보 손실: 개별 센서의 인지 단계에서 원시 데이터의 상당 부분이 추상화되어 정보 손실이 발생한 후 융합이 이루어진다.

2. 고수준 융합의 기본 구조

고수준 융합의 일반적인 처리 흐름은 다음과 같다.

센서별 독립 인지: 각 센서(카메라, LiDAR, 레이더 등)에 대해 독립적으로 객체 검출 및 추적을 수행하여 검출 목록(detection list) 또는 트랙 목록(track list)을 산출한다.
좌표 변환: 각 센서의 검출 결과를 공통 좌표계(일반적으로 차체 좌표계)로 변환한다.
데이터 연관(data association): 이종 센서의 검출 결과 중 동일 객체에 대한 관측을 식별하여 대응시킨다.
상태 융합(state fusion): 연관된 관측을 결합하여 객체의 최종 상태(위치, 속도, 크기, 분류 등)를 추정한다.
트랙 관리: 새로운 트랙의 생성, 기존 트랙의 갱신, 소멸 트랙의 제거를 수행한다.

3. 데이터 연관 기법

고수준 융합에서 데이터 연관은 핵심적인 과정이다. 복수 센서의 검출 결과 중 동일 객체에 대한 관측을 올바르게 대응시키는 것이 정확한 융합의 전제 조건이 된다.

3.1 거리 척도(Distance Metric)

데이터 연관을 위해 검출 결과 간의 유사도 또는 거리를 정량화하는 척도가 필요하다.

마할라노비스 거리(Mahalanobis distance): 관측 $\mathbf{z}$ 와 트랙의 예측 관측 $\hat{\mathbf{z}}$ 간의 거리를 혁신 공분산 $\mathbf{S}$ 로 정규화한 척도이다.

$d_M = \sqrt{(\mathbf{z} - \hat{\mathbf{z}})^T \mathbf{S}^{-1} (\mathbf{z} - \hat{\mathbf{z}})}$

이 척도는 불확실성을 고려하므로, 측정 정밀도가 상이한 이종 센서 간의 연관에 적합하다.

IoU(Intersection over Union): 3차원 바운딩 박스 기반 검출에서 두 바운딩 박스의 겹침 비율을 나타낸다.

$\text{IoU} = \frac{\vert A \cap B \vert}{\vert A \cup B \vert}$

유클리드 거리(Euclidean distance): 검출 중심 간의 직선 거리를 사용하는 단순한 척도이다.

3.2 글로벌 최근접 이웃(Global Nearest Neighbor, GNN)

GNN은 모든 관측-트랙 쌍에 대한 비용 행렬(cost matrix)을 구성하고, 총 비용을 최소화하는 일대일 대응(one-to-one assignment)을 헝가리안 알고리즘(Hungarian algorithm, Kuhn-Munkres algorithm)으로 산출한다. 비용이 설정된 임계치(gating threshold)를 초과하는 쌍은 연관에서 제외한다.

헝가리안 알고리즘의 시간 복잡도는 $O(n^3)$ 이며, 여기서 $n$ 은 관측 또는 트랙의 수이다(Kuhn, 1955).

3.3 확률적 데이터 연관

JPDA(Joint Probabilistic Data Association): 각 관측이 각 트랙에 속할 사후 확률을 계산하고, 이 확률에 기반하여 가중 갱신을 수행한다. 밀집 환경에서 GNN보다 강건하나, 가능한 연관 조합의 수가 지수적으로 증가하여 연산 복잡도가 높다(Bar-Shalom & Fortmann, 1988).

MHT(Multiple Hypothesis Tracking): 복수의 연관 가설(hypothesis)을 유지하고, 후속 관측을 통해 가설을 검증 및 정리하는 방식이다. 이론적으로 최적에 근접하나 메모리와 연산 비용이 크며, 가설 가지치기(pruning) 및 병합(merging) 전략이 필수적이다(Reid, 1979).

4. 상태 융합 기법

4.1 칼만 필터 기반 융합

연관된 복수 센서의 관측을 칼만 필터(Kalman filter)의 순차적 갱신(sequential update)으로 처리하여 융합된 상태 추정을 산출한다. 각 센서 관측의 관측 모델 $\mathbf{H}_i$ 와 관측 잡음 공분산 $\mathbf{R}_i$ 에 따라 칼만 갱신을 순차적으로 적용한다.

$\mathbf{K}_i = \mathbf{P}_{i-1} \mathbf{H}_i^T (\mathbf{H}_i \mathbf{P}_{i-1} \mathbf{H}_i^T + \mathbf{R}_i)^{-1}$

$\hat{\mathbf{x}}_i = \hat{\mathbf{x}}_{i-1} + \mathbf{K}_i (\mathbf{z}_i - \mathbf{H}_i \hat{\mathbf{x}}_{i-1})$

$\mathbf{P}_i = (\mathbf{I} - \mathbf{K}_i \mathbf{H}_i) \mathbf{P}_{i-1}$

여기서 $i$ 는 센서 인덱스이며, 각 센서의 관측을 차례로 처리한다. 순차적 갱신의 결과는 처리 순서에 무관하다(관측이 조건부 독립일 때).

8.5.4.2 가중 평균 융합

각 센서의 검출 결과에 불확실성의 역수에 비례하는 가중치를 부여하여 가중 평균을 산출하는 방법이다. 센서 $i$ 의 추정값 $\hat{\mathbf{x}}_i$ 와 공분산 $\mathbf{P}_i$ 가 주어질 때, 최적 가중 결합의 추정값과 공분산은 다음과 같다.

$\mathbf{P}_f^{-1} = \sum_{i=1}^{m} \mathbf{P}_i^{-1}$

$\hat{\mathbf{x}}_f = \mathbf{P}_f \sum_{i=1}^{m} \mathbf{P}_i^{-1} \hat{\mathbf{x}}_i$

이 결과는 정보 필터(information filter) 관점에서의 관측 결합과 동치이다.

8.5.4.3 분류 결과의 융합

객체 분류(classification) 결과의 융합에는 다음과 같은 방법이 사용된다.

다수결 투표(majority voting): 각 센서의 분류 결과 중 가장 빈도가 높은 클래스를 최종 분류로 선택한다.

확률적 결합(probabilistic combination): 각 센서의 분류 확률 분포(클래스별 소프트맥스 확률)를 결합한다. Dempster-Shafer 증거 이론(Dempster-Shafer theory of evidence)은 불확실성과 무지(ignorance)를 명시적으로 표현하여 증거를 결합하는 프레임워크를 제공한다(Shafer, 1976).

베이즈 결합: 각 센서의 분류 우도(likelihood)를 곱하여 사후 확률을 갱신한다.

$p(c | \mathbf{z}^{(1)}, \ldots, \mathbf{z}^{(m)}) \propto p(c) \prod_{i=1}^{m} p(\mathbf{z}^{(i)} | c)$

5. 자율주행에서의 고수준 융합 사례

5.1 CLOCs

CLOCs(Pang et al., 2020)는 카메라 기반 2차원 검출기와 LiDAR 기반 3차원 검출기의 검출 결과를 후기 융합으로 결합하는 기법이다. 각 센서의 검출 후보를 2차원 영상 평면에서 기하학적으로 연관시키고, 연관된 쌍의 신뢰도(confidence score)를 학습된 네트워크를 통해 재조정(re-scoring)한다. 이를 통해 개별 센서 검출기의 오탐(false positive)을 억제하고 미탐(false negative)을 보완한다.

5.2 전통적 추적 기반 융합

양산 ADAS 및 자율주행 시스템의 다수는 전통적인 추적 기반 고수준 융합 아키텍처를 채택한다. 카메라, LiDAR, 레이더 각각에 대해 독립적인 검출 및 추적 파이프라인을 운용하고, 트랙 수준에서 GNN 또는 JPDA 기반 연관과 칼만 필터 기반 상태 융합을 수행한다. 이 구조는 모듈 독립성과 검증 용이성 측면에서 양산 시스템에 적합하다.

6. 고수준 융합의 장점

모듈화(modularity)와 유지보수성: 각 센서의 인지 모듈이 독립적이므로, 개별 모듈의 개선, 교체, 디버깅이 전체 시스템에 미치는 영향이 제한적이다. 양산 시스템의 개발과 인증에 유리하다.
센서 고장에 대한 강건성: 특정 센서의 고장 시 해당 센서의 인지 결과만 제외하고 나머지 센서의 결과로 융합을 계속할 수 있어, 우아한 성능 저하(graceful degradation)가 가능하다.
이질적 갱신 주기 대응: 각 센서가 상이한 프레임률로 데이터를 생성하더라도, 개별 센서의 인지 결과를 비동기적으로 처리할 수 있다.
해석 가능성(interpretability): 각 센서별 검출 결과와 융합 결과를 개별적으로 검사할 수 있어, 시스템의 동작을 분석하고 디버깅하기 용이하다.

7. 고수준 융합의 한계

정보 손실: 개별 센서의 인지 단계에서 원시 데이터의 풍부한 정보가 검출 결과(바운딩 박스, 클래스 레이블, 신뢰도 스코어)로 압축되며, 이 과정에서 센서 간 상호 보완적 활용이 가능했을 정보가 소실된다.
오류의 전파: 개별 센서의 미탐(false negative)은 해당 센서에서 검출 자체가 이루어지지 않으므로, 다른 센서의 관측과 연관시킬 기회가 없다. 즉, 개별 센서 수준에서 놓친 객체는 융합 단계에서 복구될 수 없다.
데이터 연관의 어려움: 이종 센서의 검출 결과는 바운딩 박스의 크기, 중심 위치, 방향, 불확실성 등이 상이하며, 밀집 환경에서의 올바른 연관은 계산적으로 복잡하고 오류에 취약하다.
최적성의 한계: 이론적으로, 모든 원시 데이터를 동시에 활용하여 추정을 수행하는 것이 최적의 결과를 산출한다. 고수준 융합은 개별 센서에서 이미 축약된 정보만을 결합하므로, 전역 최적(global optimum)에 도달하기 어렵다.

8. 고수준 융합의 설계 고려사항

불확실성 전파의 정확성: 각 센서의 검출 결과에 수반되는 불확실성(위치 공분산, 분류 신뢰도)이 정확하게 추정되고 융합 과정에 전달되어야 한다. 심층 학습 기반 검출기의 경우 불확실성 추정의 보정(calibration)이 중요하며, 이를 위해 온도 스케일링(temperature scaling) 등의 보정 기법이 적용될 수 있다(Guo et al., 2017).

연관 게이팅(gating): 비현실적인 연관 후보를 사전에 제거하기 위해, 마할라노비스 거리 또는 유클리드 거리에 기반한 게이팅 임계치를 설정한다. 게이팅이 너무 엄격하면 유효한 연관이 누락되고, 너무 완화하면 잘못된 연관이 발생한다.

비동기 데이터 처리: 카메라(30 Hz), LiDAR(10 Hz), 레이더(20 Hz) 등 각 센서의 갱신 주기가 상이하므로, 비동기적으로 도착하는 검출 결과를 적절히 처리하는 메커니즘이 필요하다. 칼만 필터의 예측 단계를 활용하여 트랙 상태를 각 센서의 관측 시각으로 전파한 후 갱신을 수행하는 방식이 일반적이다.

참고문헌

Bar-Shalom, Y., & Fortmann, T. E. (1988). Tracking and Data Association. Academic Press.
Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. Proceedings of the 34th International Conference on Machine Learning (ICML), 1321–1330.
Kuhn, H. W. (1955). The Hungarian method for the assignment problem. Naval Research Logistics Quarterly, 2(1–2), 83–97.
Pang, S., Morris, D., & Radha, H. (2020). CLOCs: Camera-LiDAR object candidates fusion for 3D object detection. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 10386–10393.
Reid, D. B. (1979). An algorithm for tracking multiple targets. IEEE Transactions on Automatic Control, 24(6), 843–854.
Shafer, G. (1976). A Mathematical Theory of Evidence. Princeton University Press.

버전: v1.0, 2026-04-11