8.4 중수준 융합(Mid-Level Fusion)
1. 중수준 융합의 정의와 특징
중수준 융합(mid-level fusion)은 특징 수준 융합(feature-level fusion)이라고도 하며, 각 센서의 원시 데이터에서 독립적으로 추출한 중간 수준의 특징(feature)을 결합하는 방식이다. 심층 학습 기반 인지 시스템에서는 각 센서 가지(branch)의 인코더(encoder)가 원시 데이터로부터 추출한 특징 맵(feature map) 또는 특징 벡터(feature vector)를 특정 표현 공간에서 결합한 후, 공유 디코더(shared decoder) 또는 검출 헤드(detection head)에서 통합적으로 처리하여 최종 인지 결과를 산출한다.
중수준 융합은 저수준 융합과 고수준 융합 사이에 위치하며, 양자의 장점을 균형 있게 결합하는 것을 지향한다.
- 저수준 융합 대비: 원시 데이터의 정보를 상당 부분 보존하면서도, 특징 공간에서의 결합을 통해 이종 데이터 표현 간의 정합 부담을 완화한다.
- 고수준 융합 대비: 개별 센서의 독립적 인지 단계에서 발생하는 정보 손실 이전에 융합이 이루어지므로, 센서 간 상호 보완적 정보를 보다 효과적으로 활용할 수 있다.
2. 특징 추출과 표현
2.1 센서별 특징 추출
중수준 융합에서 각 센서의 원시 데이터는 전용 인코더(encoder)를 통해 특징 표현으로 변환된다.
카메라 특징 추출: 2차원 영상은 합성곱 신경망(CNN) 또는 비전 트랜스포머(Vision Transformer, ViT) 기반 백본(backbone) 네트워크를 통해 다중 스케일(multi-scale) 특징 맵으로 변환된다. ResNet(He et al., 2016), Swin Transformer(Liu et al., 2021) 등이 백본으로 사용된다.
LiDAR 특징 추출: 3차원 점군은 복셀화(voxelization) 후 3차원 희소 합성곱(sparse convolution) 네트워크를 통해 특징 맵으로 변환되거나(Zhou & Tuzel, 2018), PointNet 계열(Qi et al., 2017) 구조를 통해 점별 특징 벡터로 변환된다. 또는 BEV 투영을 통해 2차원 특징 맵으로 변환하는 방법도 사용된다.
레이더 특징 추출: 레이더 점군 또는 원시 거리-도플러 텐서를 PointNet 계열, 복셀화, 또는 2차원 CNN을 통해 특징으로 변환한다.
2.2 공통 표현 공간의 선택
이종 센서의 특징을 결합하기 위해서는 공통의 표현 공간(shared representation space)을 선정하여야 한다. 자율주행에서 사용되는 주요 공통 표현 공간은 다음과 같다.
BEV(Bird’s Eye View) 공간: 차량 주변의 수평 평면을 격자로 분할한 2차원 공간이다. LiDAR 특징은 높이 방향으로 집약하여 BEV 특징 맵으로 변환하고, 카메라 특징은 깊이 추정 기반 변환(예: LSS, BEVDet)을 통해 BEV 공간으로 투영한다. BEV 공간은 자율주행에서의 경로 계획과 자연스럽게 정합되며, 현재 가장 널리 사용되는 공통 표현 공간이다.
원근 영상(Perspective Image) 공간: 카메라 영상 평면을 공통 공간으로 사용하고, LiDAR나 레이더의 특징을 영상 평면에 투영하여 결합한다. 카메라의 풍부한 의미적 정보를 유지하는 데 유리하나, 3차원 정보의 표현이 제한적이다.
3차원 복셀(Voxel) 공간: 3차원 공간을 복셀로 분할하여 공통 공간으로 사용한다. 3차원 정보를 완전히 보존하나 메모리 소비가 크며, 희소 합성곱 기법의 활용이 필수적이다.
3. 특징 결합 방법
3.1 연결(Concatenation)
가장 단순한 방법으로, 공통 표현 공간에서 각 센서의 특징 맵을 채널 축(channel dimension)을 따라 연결한다. 연결된 특징 맵은 후속 합성곱 계층에서 처리되어 센서 간 상호 작용을 학습한다.
\mathbf{F}_{\text{fused}} = \text{Conv}([\mathbf{F}_{\text{cam}} ; \mathbf{F}_{\text{lidar}}])
여기서 [\cdot ; \cdot]은 채널 축 연결, Conv는 합성곱 연산을 의미한다.
8.4.3.2 원소별 연산(Element-wise Operation)
공통 표현 공간에서 동일 차원의 특징 맵을 원소별로 합산(element-wise addition) 또는 곱셈(element-wise multiplication)하여 결합한다.
\mathbf{F}_{\text{fused}} = \mathbf{F}_{\text{cam}} + \mathbf{F}_{\text{lidar}}
또는
\mathbf{F}_{\text{fused}} = \mathbf{F}_{\text{cam}} \odot \mathbf{F}_{\text{lidar}}
원소별 합산은 잔차 연결(residual connection)과 유사한 효과를 가지며, 원소별 곱셈은 한 센서의 특징이 다른 센서의 특징에 대한 게이팅(gating) 역할을 수행할 수 있다.
8.4.3.3 어텐션 기반 융합(Attention-Based Fusion)
트랜스포머(transformer)의 교차 어텐션(cross-attention) 메커니즘을 활용하여, 한 센서의 특징이 다른 센서의 특징에 선택적으로 주목(attend)하여 정보를 교환하는 방식이다. 쿼리(query)를 한 센서의 특징에서, 키(key)와 값(value)을 다른 센서의 특징에서 산출한다.
\text{CrossAttn}(\mathbf{Q}_{\text{cam}}, \mathbf{K}_{\text{lidar}}, \mathbf{V}_{\text{lidar}}) = \text{softmax}\left(\frac{\mathbf{Q}_{\text{cam}} \mathbf{K}_{\text{lidar}}^T}{\sqrt{d_k}}\right) \mathbf{V}_{\text{lidar}}
어텐션 기반 융합은 공간적으로 정합이 정확하지 않은 특징 간에도 의미적 대응(semantic correspondence)을 학습할 수 있어, 캘리브레이션 오차에 대한 일정 수준의 강건성을 제공한다(Bai et al., 2022).
3.2 변형 가능 어텐션(Deformable Attention) 기반 융합
변형 가능 어텐션(deformable attention)은 고정된 격자 위치가 아닌 학습된 오프셋(offset) 위치에서 특징을 샘플링하여 주목하는 메커니즘이다. 이를 통해 카메라와 LiDAR 등 이종 센서 특징 간의 비정합(misalignment)을 적응적으로 보상할 수 있다. TransFusion(Bai et al., 2022)과 FUTR3D(Chen et al., 2023) 등이 이 메커니즘을 센서 융합에 적용하였다.
4. 자율주행에서의 중수준 융합 사례
4.1 BEVFusion
BEVFusion(Liu et al., 2023)은 카메라와 LiDAR의 특징을 BEV 공간에서 결합하는 대표적인 중수준 융합 아키텍처이다. 카메라 영상은 LSS(Lift-Splat-Shoot) 기반 뷰 변환(view transformation)을 통해 BEV 특징 맵으로 변환되고, LiDAR 점군은 복셀화 및 3차원 희소 합성곱을 거쳐 BEV 특징 맵으로 변환된다. 두 BEV 특징 맵을 채널 축으로 연결한 후 합성곱 계층에서 처리하여 3차원 객체 검출과 BEV 분할(segmentation)을 동시에 수행한다.
BEVFusion은 BEV 공간에서의 특징 결합을 통해 카메라와 LiDAR 각각의 강점을 효과적으로 활용하며, nuScenes 데이터셋에서 높은 성능을 달성하였다.
4.2 TransFusion
TransFusion(Bai et al., 2022)은 LiDAR 기반 3차원 검출기의 쿼리(query) 생성 단계에서 카메라 영상 특징을 교차 어텐션으로 결합하는 구조이다. LiDAR 점군에서 후보 객체 위치를 추출하고, 각 후보 위치에 대해 카메라 영상 특징과의 교차 어텐션을 수행하여 분류 성능을 향상시킨다. 이 방식은 LiDAR의 정밀한 위치 정보와 카메라의 의미적 정보를 특징 수준에서 효과적으로 결합한다.
4.3 CenterFusion
CenterFusion(Nabati & Qi, 2021)은 카메라 기반 3차원 검출기(CenterNet)의 중간 특징 맵에 레이더 검출 결과를 필러(pillar) 형태로 인코딩하여 결합하는 구조이다. 카메라의 풍부한 영상 특징과 레이더의 거리 및 속도 정보를 특징 수준에서 융합하여, 카메라 단독 대비 3차원 검출 성능을 향상시킨다.
5. 중수준 융합의 장점
- 정보 보존과 추상화의 균형: 원시 데이터의 정보를 상당 부분 보존하면서도, 특징 공간에서의 결합을 통해 이종 데이터의 표현 차이를 효과적으로 처리한다.
- 종단간 학습에 의한 최적화: 특징 추출, 특징 결합, 인지 결과 산출의 전 과정을 종단간으로 학습함으로써, 융합 과정이 최종 인지 성능에 대해 최적화된다.
- 캘리브레이션 오차에 대한 부분적 강건성: 어텐션 기반 융합 방식은 고정된 공간 정합이 아닌 학습된 대응 관계를 활용하므로, 일정 수준의 캘리브레이션 오차를 흡수할 수 있다.
- 다중 작업(Multi-Task) 지원: 공통 표현 공간에서의 융합된 특징을 다수의 검출 헤드에 입력하여 객체 검출, BEV 분할, 모션 예측 등 복수의 인지 작업을 동시에 수행할 수 있다.
6. 중수준 융합의 한계와 과제
- 특징 정합의 복잡성: 카메라의 2차원 영상 특징을 3차원 BEV 공간으로 변환하는 과정에서 깊이 추정의 부정확성이 특징 정합의 오류로 전파될 수 있다. 이 변환의 정확도는 중수준 융합의 성능을 좌우하는 핵심 요인 중 하나이다.
- 학습 데이터 의존성: 종단간 학습 방식은 대규모의 다중 센서 주석(annotation) 데이터셋을 필요로 한다. nuScenes(Caesar et al., 2020), Waymo Open Dataset(Sun et al., 2020) 등의 대규모 데이터셋이 이를 지원하나, 특정 도메인이나 센서 구성에 대한 데이터 확보는 여전히 과제이다.
- 연산 복잡도: 특징 추출 인코더가 센서별로 독립적으로 요구되며, 특징 결합과 공유 디코더의 연산도 추가되므로, 전체 연산 복잡도가 단일 센서 모델 대비 높다. 실시간 처리를 위한 효율적 구조 설계가 중요하다.
- 센서 결손 대응: 특정 센서의 특징이 결손될 경우 융합된 특징의 품질이 저하된다. 학습 시 센서 드롭아웃(sensor dropout)을 적용하거나 결손에 강건한 특징 결합 전략을 설계하는 연구가 진행되고 있다.
참고문헌
- Bai, X., Hu, Z., Zhu, X., Huang, Q., Chen, Y., Fu, H., & Tai, C.-L. (2022). TransFusion: Robust LiDAR-camera fusion for 3D object detection with transformers. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1090–1099.
- Caesar, H., Bankiti, V., Lang, A. H., Vora, S., Liong, V. E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., & Beijbom, O. (2020). nuScenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11621–11631.
- Chen, X., Zhang, T., Wang, Y., Wang, Y., & Zhao, H. (2023). FUTR3D: A unified sensor fusion framework for 3D detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).
- He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778.
- Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 10012–10022.
- Liu, Z., Tang, H., Amini, A., Yang, X., Mao, H., Rus, D., & Han, S. (2023). BEVFusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. IEEE International Conference on Robotics and Automation (ICRA), 2774–2781.
- Nabati, R., & Qi, H. (2021). CenterFusion: Center-based radar and camera fusion for 3D object detection. IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 1527–1536.
- Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet: Deep learning on point sets for 3D classification and segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 652–660.
- Sun, P., Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., Guo, J., Zhou, Y., Chai, Y., Caine, B., et al. (2020). Scalability in perception for autonomous driving: Waymo Open Dataset. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2446–2454.
- Zhou, Y., & Tuzel, O. (2018). VoxelNet: End-to-end learning for point cloud based 3D object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4490–4499.
버전: v1.0, 2026-04-11