8.12 다중 센서 융합 아키텍처
1. 다중 센서 융합 아키텍처의 개요
다중 센서 융합 아키텍처(multi-sensor fusion architecture)는 카메라, LiDAR, 레이더 등 세 가지 이상의 이종 센서 데이터를 통합적으로 처리하여 자율주행 인지를 수행하는 시스템 구조를 의미한다. 단일 센서 쌍 간의 융합을 넘어, 모든 센서 모달리티를 포괄하는 전체 시스템 수준의 아키텍처 설계가 필요하다.
2. 중앙 집중형과 분산형 아키텍처
2.1 중앙 집중형(Centralized) 아키텍처
중앙 집중형 아키텍처는 모든 센서의 원시 데이터 또는 특징을 중앙 처리 유닛에 전송하여 단일 융합 모듈에서 통합 처리하는 구조이다. 저수준 또는 중수준 융합에 해당하며, 모든 센서 데이터를 동시에 활용하여 이론적으로 최적에 근접하는 성능을 달성할 수 있다.
장점: 센서 간 상호 보완적 정보를 최대한 활용할 수 있으며, 종단간 최적화가 가능하다.
단점: 대량의 원시 데이터를 중앙으로 전송하기 위한 높은 통신 대역폭이 요구되며, 중앙 처리 유닛의 연산 부하가 크다. 단일 고장 점(single point of failure) 문제가 있다.
2.2 분산형(Distributed) 아키텍처
분산형 아키텍처는 각 센서 또는 센서 그룹에 대해 독립적으로 인지 처리를 수행한 후, 고수준의 인지 결과(검출 목록, 트랙 목록)를 중앙에서 융합하는 구조이다. 고수준 융합에 해당한다.
장점: 각 센서 모듈의 독립적 개발과 검증이 가능하며, 통신 대역폭 요구가 낮고, 센서 고장에 대한 강건성이 높다.
단점: 개별 센서의 인지 단계에서 정보 손실이 발생한 후 융합이 이루어지므로, 중앙 집중형 대비 성능이 제한될 수 있다.
2.3 하이브리드(Hybrid) 아키텍처
실제 자율주행 시스템의 대다수는 중앙 집중형과 분산형의 요소를 결합한 하이브리드 아키텍처를 채택한다. 카메라-LiDAR 간에는 중수준 융합을 수행하고, 레이더와의 결합은 고수준 융합으로 처리하거나, 근거리와 원거리에서 서로 다른 융합 전략을 적용하는 등 유연한 구성이 가능하다.
3. 심층 학습 기반 다중 센서 융합 아키텍처
3.1 통합 BEV 융합 아키텍처
BEV(Bird’s Eye View) 공간을 공통 표현으로 사용하여 모든 센서의 특징을 결합하는 아키텍처가 현재의 주류이다. 전형적인 구조는 다음과 같다.
- 센서별 인코더: 카메라(2D CNN/ViT), LiDAR(3D 희소 합성곱), 레이더(PointNet/복셀화) 각각의 전용 인코더가 원시 데이터로부터 특징을 추출한다.
- BEV 변환: 각 센서의 특징을 BEV 공간으로 변환한다. 카메라는 깊이 추정 기반 변환(LSS), LiDAR는 높이 방향 집약, 레이더는 직접 BEV 투영을 적용한다.
- BEV 특징 융합: 센서별 BEV 특징 맵을 연결(concatenation) 또는 어텐션 기반 결합으로 통합한다.
- 작업별 헤드(Task Head): 융합된 BEV 특징 맵을 입력으로 3차원 객체 검출, BEV 분할, 모션 예측 등의 작업별 헤드에서 처리한다.
3.2 쿼리 기반 융합 아키텍처
트랜스포머의 학습 가능한 쿼리(learnable query)를 활용하여 복수 센서의 특징으로부터 정보를 추출하는 아키텍처이다. 3차원 공간에 분포하는 쿼리가 교차 어텐션을 통해 카메라, LiDAR, 레이더의 특징에서 선택적으로 정보를 획득한다.
FUTR3D(Chen et al., 2023)는 모달리티에 무관한(modality-agnostic) 3차원 검출 쿼리를 설계하여, 임의의 센서 조합에서 동작하는 통합 융합 프레임워크를 제안하였다. 각 쿼리는 변형 가능 교차 어텐션(deformable cross-attention)을 통해 사용 가능한 모든 센서의 특징에 접근한다.
3.3 시간적 융합(Temporal Fusion)
단일 시점의 센서 데이터뿐만 아니라, 과거 여러 시점의 데이터를 시간적으로 융합하여 인지 성능을 향상시키는 구조이다. BEVFormer(Li et al., 2022)는 시간적 자기 어텐션(temporal self-attention)을 통해 과거 BEV 특징을 현재 프레임에 통합한다. 시간적 융합은 가려짐(occlusion) 해소, 속도 추정, 동적 객체의 궤적 예측에 유리하다.
4. 양산 자율주행 시스템의 융합 아키텍처
4.1 Waymo의 다중 센서 융합
Waymo의 인지 시스템은 5기의 LiDAR, 29기의 카메라, 6기의 레이더로부터의 데이터를 통합 처리한다. 복수의 LiDAR 점군을 단일 좌표계에서 합성하고, 카메라 영상과 중수준 융합을 수행하며, 레이더 데이터를 보조적으로 활용하는 구조를 채택하고 있다(Waymo, 2020).
4.2 NVIDIA DRIVE 플랫폼
NVIDIA DRIVE 플랫폼은 다중 센서 융합을 위한 하드웨어(DRIVE Orin/Thor SoC)와 소프트웨어(DriveWorks SDK) 프레임워크를 제공한다. 센서 데이터의 수집, 전처리, 캘리브레이션, 시간 동기화, 융합을 체계적으로 지원하며, GPU 가속을 통한 실시간 다중 센서 인지를 가능하게 한다.
5. 아키텍처 설계 시 고려사항
5.1 연산 자원과 지연 시간
다중 센서 융합은 단일 센서 인지 대비 연산 부하가 크다. 센서별 인코더, 특징 변환, 융합 모듈, 작업별 헤드가 모두 실시간 처리 요구를 충족하여야 한다. 자율주행에서 인지 파이프라인의 종단간 지연(end-to-end latency)은 일반적으로 100 ms 이내가 요구된다.
5.2 센서 결손에 대한 강건성
양산 시스템에서는 센서 고장, 오염, 차폐 등에 의한 센서 결손 상황에 대비하여야 한다. 아키텍처 설계 시 특정 센서의 데이터가 결손되더라도 나머지 센서로 인지를 계속할 수 있는 우아한 성능 저하(graceful degradation) 메커니즘이 포함되어야 한다.
5.3 확장성과 모듈성
센서 구성의 변경(센서 추가, 제거, 교체)에 유연하게 대응할 수 있는 모듈화된 아키텍처가 유리하다. 쿼리 기반 융합 아키텍처는 이 측면에서 장점을 가지며, 센서 수와 유형에 무관하게 동일한 프레임워크를 적용할 수 있다.
5.4 기능 안전 요구사항
ISO 26262에 따른 기능 안전 요구사항을 충족하기 위해, 융합 아키텍처는 이중화, 독립성, 진단 커버리지(diagnostic coverage) 등을 고려하여 설계되어야 한다. 분산형 또는 하이브리드 아키텍처는 모듈 간 독립성이 높아 안전 분석(safety analysis)에 유리하다.
참고문헌
- Chen, X., Zhang, T., Wang, Y., Wang, Y., & Zhao, H. (2023). FUTR3D: A unified sensor fusion framework for 3D detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).
- Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., Qiao, Y., & Dai, J. (2022). BEVFormer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers. European Conference on Computer Vision (ECCV), 1–18.
- Waymo. (2020). Waymo Driver: 5th Generation Hardware Platform. Waymo LLC.
버전: v1.0, 2026-04-11