8.3 저수준 융합(Low-Level Fusion)

1. 저수준 융합의 정의와 특징

저수준 융합(low-level fusion)은 조기 융합(early fusion) 또는 데이터 수준 융합(data-level fusion)이라고도 하며, 각 센서의 원시 데이터(raw data) 또는 최소한의 전처리만 수행된 데이터를 인지 파이프라인의 초기 단계에서 직접 결합하는 방식이다. 결합된 데이터에 대해 단일 인지 알고리즘(또는 단일 신경망)을 적용하여 최종 인지 결과를 산출한다.

저수준 융합의 핵심 특징은 다음과 같다.

정보 보존의 극대화: 센서가 측정한 원시 정보를 추상화 또는 양자화 없이 보존한 상태에서 결합하므로, 이론적으로 가장 많은 정보를 융합 과정에 활용할 수 있다.
높은 시공간 정합 요구: 이종 센서의 원시 데이터를 직접 결합하기 위해서는 정밀한 공간 정합(spatial alignment)과 시간 동기화(temporal synchronization)가 전제되어야 한다.
높은 연산 복잡도: 원시 데이터는 데이터 양이 크고 차원이 높으므로, 처리에 상당한 연산 자원이 요구된다.

2. 저수준 융합의 기본 방법

2.1 데이터 연결(Concatenation)

가장 직관적인 저수준 융합 방법은 이종 센서의 원시 데이터를 적절한 차원 축을 따라 연결(concatenation)하는 것이다. 예를 들어, LiDAR 점군의 각 점 속성 벡터 $(x, y, z, i)$ 에 해당 점의 카메라 투영 위치에서의 RGB 값을 추가하여 $(x, y, z, i, r, g, b)$ 로 확장할 수 있다.

이 방법은 구현이 단순하나, 이종 데이터 간의 의미적 정합(semantic alignment)이 단순 연결만으로는 충분하지 않을 수 있으며, 후속 알고리즘이 연결된 데이터로부터 유의미한 상관관계를 자체적으로 학습하여야 한다.

2.2 투영 기반 융합(Projection-Based Fusion)

투영 기반 융합은 한 센서의 데이터를 다른 센서의 좌표 공간으로 투영하여 결합하는 방법이다. 자율주행에서 가장 널리 사용되는 형태는 LiDAR 점군을 카메라 영상 평면에 투영하거나, 카메라 영상의 정보를 LiDAR 점군에 역투영(back-projection)하는 것이다.

LiDAR 점 $\mathbf{p}_L = (x_L, y_L, z_L, 1)^T$ (동차 좌표)를 카메라 영상 평면으로 투영하는 과정은 다음과 같다.

$\lambda \begin{pmatrix} u \\ v \\ 1 \end{pmatrix} = \mathbf{K} [\mathbf{R}_{CL} | \mathbf{t}_{CL}] \mathbf{p}_L$

여기서 $\mathbf{K}$ 는 카메라 내부 파라미터 행렬(intrinsic matrix), $[\mathbf{R}_{CL} | \mathbf{t}_{CL}]$ 은 LiDAR 좌표계에서 카메라 좌표계로의 외부 파라미터(extrinsic parameters), $(u, v)$ 는 영상 좌표, $\lambda$ 는 스케일 팩터(깊이)이다.

이 투영을 통해 각 LiDAR 점에 대응하는 영상 좌표를 결정하고, 해당 좌표에서의 영상 정보(색상, 의미적 레이블 등)를 LiDAR 점에 부가할 수 있다.

8.3.2.3 공통 표현 공간으로의 변환

이종 센서 데이터를 공통의 표현 공간(unified representation space)으로 변환한 후 결합하는 방법이다. 자율주행에서 널리 사용되는 공통 표현 공간으로는 다음이 있다.

BEV(Bird’s Eye View) 격자: 차량 주변의 수평 평면을 일정 크기의 2차원 격자로 분할하고, 각 센서의 데이터를 이 격자 위에 매핑한다. LiDAR 점군은 높이 방향으로 집약(aggregation)하여 BEV 특징으로 변환하고, 카메라 영상은 깊이 추정 또는 학습된 변환(예: Lift-Splat-Shoot, LSS)을 통해 BEV로 변환하며, 레이더 검출은 직접 BEV 격자에 배치한다(Philion & Fidler, 2020).

복셀 공간(Voxel Space): 3차원 공간을 균일한 복셀로 분할하고, 각 센서의 데이터를 해당 복셀에 매핑한다. LiDAR 점군과 카메라의 깊이 추정 결과를 동일한 복셀 공간에 표현하여 결합할 수 있다.

8.3.3 자율주행에서의 저수준 융합 사례

8.3.3.1 PointPainting

PointPainting(Vora et al., 2020)은 카메라 영상에 대해 먼저 2차원 의미적 분할(semantic segmentation)을 수행하고, LiDAR 점군의 각 점을 영상 평면에 투영하여 해당 위치의 의미적 분할 스코어(class score)를 점의 추가 속성으로 부가한다. 의미적 정보가 부가된 점군(“painted” point cloud)을 3차원 객체 검출 네트워크에 입력하여 검출을 수행한다.

이 방법은 기존 LiDAR 기반 3차원 검출기를 최소한의 수정으로 활용할 수 있으며, 카메라의 의미적 정보를 LiDAR 점군에 주입하여 분류 성능을 향상시킨다. 그러나 2차원 분할의 오류가 점군에 전파될 수 있으며, 카메라 FoV 밖의 점군에는 의미적 정보를 부가할 수 없다는 한계가 있다.

8.3.3.2 밀도 깊이 맵(Dense Depth Map) 생성

희소한 LiDAR 점군을 카메라 영상 평면에 투영한 후, 영상 기반 깊이 보완(depth completion) 알고리즘을 적용하여 밀도 높은 깊이 맵을 생성하는 방법이다. LiDAR의 정확하나 희소한 깊이 정보와 카메라의 밀도 높은 영상 정보를 원시 수준에서 결합하며, Ma와 Karaman(2018)이 자기지도 학습(self-supervised learning) 기반 깊이 보완 네트워크를 제안하였다.

8.3.3.3 원시 레이더-카메라 융합

레이더의 원시 거리-도플러 맵(Range-Doppler Map)이나 거리-방위 맵(Range-Azimuth Map)을 카메라 영상과 결합하여 인지를 수행하는 방법이다. 기존의 레이더 신호 처리 파이프라인(CFAR 검출 등)에서 발생하는 정보 손실을 방지하고, 원시 레이더 텐서에 포함된 풍부한 정보를 활용할 수 있다. Bansal 등(2020)은 레이더의 원시 Range-Azimuth 텐서를 카메라 영상과 결합하여 객체 검출을 수행하는 네트워크를 제안하였다.

8.3.4 저수준 융합의 장점

최대 정보 활용: 원시 데이터의 정보를 추상화 없이 보존하므로, 이론적으로 가능한 최대한의 정보를 인지 과정에 활용한다.
종단간 최적화 가능: 심층 학습 프레임워크에서 원시 데이터 결합 이후의 전 과정을 종단간(end-to-end)으로 학습하여, 특징 추출과 융합이 동시에 최적화된다.
미약 신호의 활용: 개별 센서의 인지 단계에서 폐기될 수 있는 미약하나 유의미한 신호가 다른 센서의 정보와 결합됨으로써 인지에 활용될 수 있다.

8.3.5 저수준 융합의 한계와 과제

정밀한 캘리브레이션 의존성: 센서 간 외부 파라미터의 캘리브레이션 오차가 원시 데이터 수준에서 직접적인 정합 오류로 전파된다. 고수준 융합에서는 개별 센서가 독립적으로 인지를 수행하므로 캘리브레이션 오차의 영향이 상대적으로 완화되나, 저수준 융합에서는 이 영향이 치명적일 수 있다.
시간 동기화의 엄밀성 요구: 이종 센서의 데이터 획득 시각이 상이한 경우, 원시 데이터의 직접 결합은 시간적 부정합(temporal misalignment)을 유발한다. 고속 이동 환경에서 수 밀리초의 시간 차이도 유의미한 공간적 오차를 초래할 수 있다.
센서 고장에 대한 취약성: 단일 통합 인지 파이프라인에서 특정 센서의 데이터가 결손(missing)되면, 전체 파이프라인의 재설계 또는 결손 대응 로직이 필요하다. 고수준 융합에서는 해당 센서의 결과만 제외하면 되므로 고장 대응이 상대적으로 용이하다.
높은 연산 비용: 원시 데이터의 차원과 양이 크므로, 실시간 처리에 상당한 연산 자원(GPU, 전용 가속기)이 요구된다.

8.3.6 저수준 융합의 설계 고려사항

저수준 융합 시스템을 설계할 때에는 다음 사항을 고려하여야 한다.

표현 공간의 선택: 원시 데이터를 어떤 공통 표현 공간에서 결합할 것인지가 성능에 큰 영향을 미친다. 영상 공간, 점군 공간, BEV 공간, 복셀 공간 등 각 표현 공간은 고유한 장단점을 갖는다.

캘리브레이션 파이프라인의 통합: 저수준 융합의 성능은 캘리브레이션의 정확도에 직접적으로 의존하므로, 온라인 캘리브레이션(online calibration) 또는 자동 캘리브레이션(auto-calibration) 기능의 통합이 권장된다.

결손 데이터 처리(Missing Data Handling): 특정 센서의 일시적 또는 영구적 결손에 대비하여, 결손 채널에 대한 마스킹(masking)이나 기본값 대체(default substitution) 전략을 설계에 포함하여야 한다.

참고문헌

Bansal, M., Krizhevsky, A., & Ogale, A. (2020). ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst. Robotics: Science and Systems (RSS).
Ma, F., & Karaman, S. (2018). Sparse-to-dense: Depth prediction from sparse depth samples and a single image. IEEE International Conference on Robotics and Automation (ICRA), 4796–4803.
Philion, J., & Fidler, S. (2020). Lift, Splat, Shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3D. European Conference on Computer Vision (ECCV), 194–210.
Vora, S., Lang, A. H., Helber, B., Beijbom, O., & Caesar, H. (2020). PointPainting: Sequential fusion for 3D object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4604–4612.

버전: v1.0, 2026-04-11