8.10 카메라-LiDAR 융합
1. 카메라-LiDAR 융합의 동기
카메라와 LiDAR는 자율주행 인지에서 가장 강력한 상호 보완적 센서 조합이다. 카메라는 높은 공간 분해능의 2차원 영상을 통해 풍부한 의미적 정보(색상, 질감, 텍스트, 차선 표시, 신호등 색상 등)를 제공하나, 직접적인 3차원 거리 측정이 불가능하다. LiDAR는 정밀한 3차원 기하 정보를 제공하나, 점군의 희소성과 의미적 정보의 부재가 한계이다. 두 센서를 융합하면 정밀한 3차원 기하 정보와 풍부한 의미적 정보를 동시에 활용하는 통합 인지가 가능하다(Feng et al., 2021).
2. 카메라-LiDAR 데이터 정합
2.1 투영 관계
LiDAR 점군과 카메라 영상 간의 기하학적 대응은 외부 보정(extrinsic calibration)과 내부 보정(intrinsic calibration)으로 결정된다. LiDAR 좌표계의 점 \mathbf{p}_L = (x_L, y_L, z_L)^T를 카메라 영상 좌표 (u, v)로 투영하는 과정은 다음과 같다.
\lambda \begin{pmatrix} u \\ v \\ 1 \end{pmatrix} = \mathbf{K} [\mathbf{R}_{CL} | \mathbf{t}_{CL}] \begin{pmatrix} x_L \\ y_L \\ z_L \\ 1 \end{pmatrix}
여기서 \mathbf{K}는 카메라 내부 파라미터 행렬, [\mathbf{R}_{CL} | \mathbf{t}_{CL}]은 LiDAR에서 카메라로의 외부 파라미터, \lambda는 깊이이다. 이 투영을 통해 각 LiDAR 점에 대응하는 영상 좌표를 결정할 수 있다.
8.10.2.2 데이터 특성의 비대칭성
카메라와 LiDAR의 데이터는 근본적으로 비대칭적이다.
| 특성 | 카메라 | LiDAR |
|---|---|---|
| 데이터 구조 | 규칙적 2차원 격자 | 비정형 3차원 점군 |
| 공간 분해능 | 높음(수백만 화소) | 낮음(수만~수백만 점, 거리에 따라 가변) |
| 깊이 정보 | 없음 | 직접 측정 |
| 의미적 정보 | 풍부 | 제한적(반사 강도만) |
이러한 비대칭성으로 인해 융합 시 어떤 센서의 데이터 공간을 기준으로 결합할 것인지(카메라 관점, LiDAR 관점, 또는 공통 관점)가 중요한 설계 결정이 된다.
8.10.3 저수준 카메라-LiDAR 융합
8.10.3.1 LiDAR 점군에 영상 정보 투영
LiDAR 점군의 각 점을 카메라 영상 평면에 투영하여, 해당 영상 좌표에서의 정보(RGB 값, 의미적 분할 결과, 특징 벡터 등)를 점의 추가 속성으로 부가하는 방법이다.
PointPainting(Vora et al., 2020)은 카메라 영상에 대해 2차원 의미적 분할을 수행한 후, 각 LiDAR 점을 영상에 투영하여 해당 위치의 클래스별 분할 스코어를 점의 속성으로 부가한다. 의미적 정보가 부가된 점군을 기존 3차원 객체 검출기(PointPillars, CenterPoint 등)에 입력하여 검출 성능을 향상시킨다.
PointAugmenting(Wang et al., 2021)은 카메라 영상의 CNN 특징 맵에서 각 LiDAR 점에 대응하는 특징 벡터를 추출하여 점의 속성으로 부가한다. 의미적 분할의 이산적 출력이 아닌 연속적 특징 벡터를 사용함으로써, 종단간 학습을 통한 최적화가 가능하다.
8.10.3.2 밀도 깊이 보완(Dense Depth Completion)
희소한 LiDAR 깊이를 카메라 영상 평면에 투영하고, 영상의 구조적 정보를 이용하여 밀도 높은 깊이 맵을 생성하는 방법이다. 투영된 LiDAR 깊이는 전체 영상의 약 5% 미만의 화소에만 존재하므로, 나머지 영역의 깊이를 영상의 에지, 질감 등 구조적 단서를 이용하여 보간(interpolation)한다. 자기지도 학습(self-supervised learning) 기반 깊이 보완 네트워크가 제안되었다(Ma & Karaman, 2018).
8.10.4 중수준 카메라-LiDAR 융합
8.10.4.1 BEV 공간 기반 융합
BEV(Bird’s Eye View) 공간에서 카메라와 LiDAR의 특징을 결합하는 방식이 현재 가장 활발히 연구되고 있다.
카메라 BEV 변환: 카메라 영상의 2차원 특징 맵을 3차원 BEV 공간으로 변환하기 위해서는 깊이 정보의 추정이 필수적이다. LSS(Lift-Splat-Shoot)(Philion & Fidler, 2020)는 각 영상 화소에 대해 이산적 깊이 분포를 예측하고, 이를 기반으로 영상 특징을 3차원 공간에 “리프트(lift)“한 후 BEV 평면에 “스플랫(splat)“하여 BEV 특징 맵을 생성한다.
LiDAR BEV 변환: LiDAR 점군은 복셀화 후 3차원 희소 합성곱 인코더를 거쳐 BEV 특징 맵으로 변환된다.
BEV 특징 결합: 카메라 BEV 특징 맵과 LiDAR BEV 특징 맵을 채널 축으로 연결하거나 원소별 합산하여 결합한 후, 공유 디코더에서 처리한다.
BEVFusion(Liu et al., 2023)은 이 구조의 대표적 사례이며, nuScenes 3차원 객체 검출 벤치마크에서 높은 성능을 달성하였다.
8.10.4.2 교차 어텐션 기반 융합
트랜스포머의 교차 어텐션(cross-attention) 메커니즘을 활용하여, LiDAR 특징과 카메라 특징 간의 정보 교환을 수행하는 방식이다.
TransFusion(Bai et al., 2022)은 LiDAR 기반 검출기에서 생성된 객체 쿼리(object query)를 카메라 영상 특징과 교차 어텐션하여, 카메라의 의미적 정보를 LiDAR 기반 검출에 주입한다.
DeepInteraction(Yang et al., 2022)은 카메라와 LiDAR의 특징 인코더 사이에 양방향 교차 어텐션을 배치하여, 인코딩 과정에서 양 센서의 특징이 상호 보강되도록 설계하였다.
8.10.5 고수준 카메라-LiDAR 융합
8.10.5.1 검출 결과의 융합
카메라 기반 2차원/3차원 검출기와 LiDAR 기반 3차원 검출기의 검출 결과를 후기 융합으로 결합한다.
CLOCs(Pang et al., 2020)는 카메라의 2차원 검출 결과와 LiDAR의 3차원 검출 결과를 기하학적으로 연관시키고, 연관된 쌍의 신뢰도를 학습된 네트워크로 재조정한다. 이를 통해 개별 검출기의 오탐(false positive)을 억제한다.
8.10.5.2 추적 수준의 융합
각 센서의 검출 결과를 독립적으로 추적한 후, 트랙 수준에서 연관 및 융합을 수행한다. 카메라 트랙의 풍부한 외형(appearance) 정보와 LiDAR 트랙의 정밀한 3차원 위치 정보를 결합하여, 추적의 안정성과 정확도를 향상시킨다.
8.10.6 카메라-LiDAR 융합의 최신 동향
8.10.6.1 통합 BEV 표현의 확산
BEV 공간을 공통 표현으로 활용하는 카메라-LiDAR 융합이 사실상의 표준으로 자리잡고 있다. BEV 공간은 경로 계획(path planning)과 자연스럽게 정합되며, 복수 센서의 특징을 동일한 공간에서 결합할 수 있어 다중 작업(multi-task) 학습에 유리하다.
8.10.6.2 카메라 전용 모델과의 성능 격차
최근 카메라 전용(camera-only) 3차원 인지 모델(BEVFormer, BEVDet 등)의 성능이 급속히 향상되면서, 카메라-LiDAR 융합 모델과의 성능 격차가 점차 축소되고 있다. 그러나 원거리 객체 탐지, 3차원 위치 추정 정확도, 악천후 강건성 등에서 LiDAR 융합 모델이 여전히 우위를 보이고 있다(Li et al., 2022).
8.10.6.3 센서 결손에 대한 강건 융합
카메라 또는 LiDAR 중 하나가 고장하거나 성능이 저하된 상황에서도 융합 시스템이 안정적으로 동작하도록 하는 강건 융합(robust fusion) 연구가 진행되고 있다. 학습 시 센서 드롭아웃(sensor dropout)을 적용하거나, 센서별 신뢰도를 동적으로 추정하여 가중치를 조절하는 방법이 제안되고 있다.
참고문헌
- Bai, X., Hu, Z., Zhu, X., Huang, Q., Chen, Y., Fu, H., & Tai, C.-L. (2022). TransFusion: Robust LiDAR-camera fusion for 3D object detection with transformers. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1090–1099.
- Feng, D., Haase-Schütz, C., Rosenbaum, L., Hertlein, H., Glaeser, C., Timm, F., Dietmayer, K., & Schlichtharle, F. (2021). Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. IEEE Transactions on Intelligent Transportation Systems, 22(3), 1341–1360.
- Li, Y., Ge, Z., Yu, G., Yang, J., Wang, Z., Shi, Y., Sun, J., & Li, Z. (2022). BEVDepth: Acquisition of reliable depth for multi-view 3D object detection. Proceedings of the AAAI Conference on Artificial Intelligence, 37(2), 1477–1485.
- Liu, Z., Tang, H., Amini, A., Yang, X., Mao, H., Rus, D., & Han, S. (2023). BEVFusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. IEEE International Conference on Robotics and Automation (ICRA), 2774–2781.
- Ma, F., & Karaman, S. (2018). Sparse-to-dense: Depth prediction from sparse depth samples and a single image. IEEE International Conference on Robotics and Automation (ICRA), 4796–4803.
- Pang, S., Morris, D., & Radha, H. (2020). CLOCs: Camera-LiDAR object candidates fusion for 3D object detection. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 10386–10393.
- Philion, J., & Fidler, S. (2020). Lift, Splat, Shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3D. European Conference on Computer Vision (ECCV), 194–210.
- Vora, S., Lang, A. H., Helber, B., Beijbom, O., & Caesar, H. (2020). PointPainting: Sequential fusion for 3D object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4604–4612.
- Wang, C., Ma, C., Zhu, M., & Yang, X. (2021). PointAugmenting: Cross-modal augmentation for 3D object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11794–11803.
- Yang, Y., Chen, B., Lei, B., Wang, R., Wang, Y., & Yin, W. (2022). DeepInteraction: 3D object detection via modality interaction. Advances in Neural Information Processing Systems (NeurIPS), 35.
버전: v1.0, 2026-04-11