8.11 카메라-레이더 융합

1. 카메라-레이더 융합의 동기

카메라-레이더 융합은 비용 효율성과 기상 강건성을 동시에 확보할 수 있는 센서 조합이다. 카메라는 높은 공간 분해능과 풍부한 의미적 정보를 제공하며, 레이더는 기상 조건에 대한 강건성, 직접적인 속도 측정, 장거리 탐지 능력을 제공한다. 두 센서 모두 양산 차량에 이미 광범위하게 탑재되어 있어 추가 비용 부담이 낮으며, LiDAR 없이도 효과적인 3차원 인지 시스템을 구성할 수 있다(Chadwick et al., 2019).

2. 카메라-레이더 융합의 과제

카메라-레이더 융합은 카메라-LiDAR 융합 대비 다음과 같은 고유한 과제를 갖는다.

2.1 공간 분해능의 불균형

레이더의 각도 분해능(수 도 수준)은 카메라(수백만 화소)에 비해 현저히 낮다. 기존 레이더의 검출 결과는 프레임당 수십 개의 점 표적(point target)에 불과하여, 카메라 영상의 밀도 높은 정보와의 직접적 대응이 어렵다. 4D 이미징 레이더의 등장으로 이 격차가 축소되고 있으나, 여전히 LiDAR 수준의 점군 밀도에는 미치지 못한다.

2.2 높이 정보의 부재

기존 레이더는 방위각(azimuth)만을 측정하고 앙각(elevation)을 측정하지 못하여, 레이더 검출점의 3차원 위치를 완전히 결정할 수 없다. 이로 인해 레이더 검출을 카메라 영상에 투영할 때 수직 방향의 모호성이 발생한다. 4D 이미징 레이더는 앙각 측정을 지원하여 이 문제를 완화한다.

2.3 허위 검출과 클러터

레이더는 다중 경로 반사, 클러터, 상호 간섭에 의한 허위 검출(false detection)이 카메라 대비 빈번하다. 이러한 허위 검출이 융합 과정에 유입되면 인지 성능을 저하시킬 수 있으므로, 효과적인 필터링이 필요하다.

3. 저수준 카메라-레이더 융합

3.1 레이더 검출의 영상 평면 투영

레이더 검출점 $(r, \theta, v)$ (거리, 방위각, 도플러 속도)를 카메라 영상 평면에 투영하여, 카메라 영상에 거리와 속도 정보를 부가하는 방법이다. 높이 정보가 부재한 경우, 지면 높이를 가정하거나 일정 높이 범위를 투영하여 영상 내 대응 영역을 추정한다.

3.2 BEV 공간 기반 결합

카메라 영상을 BEV 공간으로 변환하고, 레이더 검출을 동일한 BEV 격자에 매핑하여 결합한다. 레이더 검출은 BEV 공간에서 직접 표현이 가능하므로, 높이 모호성 문제가 완화된다. CRN(Camera-Radar Net)(Kim et al., 2023)은 레이더의 깊이 정보를 카메라의 BEV 변환 과정에 활용하여 깊이 추정의 정확도를 향상시키는 방법을 제안하였다.

4. 중수준 카메라-레이더 융합

4.1 CenterFusion

CenterFusion(Nabati & Qi, 2021)은 카메라 기반 3차원 검출기(CenterNet)의 중간 특징 맵에 레이더 검출 결과를 필러(pillar) 형태로 인코딩하여 결합하는 구조이다. 카메라의 검출 후보(frustum) 영역 내에 위치한 레이더 검출점을 연관시키고, 레이더의 거리와 속도 정보를 특징 수준에서 카메라 특징에 결합한다. 이를 통해 깊이 추정과 속도 추정의 정확도가 향상된다.

4.2 어텐션 기반 레이더-카메라 융합

트랜스포머의 교차 어텐션을 이용하여 카메라 특징과 레이더 특징 간의 정보 교환을 수행하는 방법이 연구되고 있다. 레이더 검출의 위치를 쿼리(query)로 사용하여 카메라 특징 맵에서 관련 정보를 어텐션으로 추출하거나, 그 역방향으로 레이더의 속도 및 거리 정보를 카메라 특징에 주입한다.

4.3 RadarNet과 원시 레이더 텐서 활용

기존 CFAR 검출 이후의 레이더 점 표적이 아닌, 원시 거리-도플러 맵(Range-Doppler Map)이나 거리-방위 맵(Range-Azimuth Map)을 직접 신경망에 입력하여 카메라 특징과 결합하는 방법이 연구되고 있다. 이 접근법은 CFAR 검출 과정에서의 정보 손실을 방지하고, 원시 레이더 텐서에 포함된 풍부한 정보를 활용할 수 있다(Major et al., 2019).

5. 고수준 카메라-레이더 융합

5.1 검출 결과의 연관 및 융합

카메라 기반 검출기와 레이더 기반 검출기의 결과를 후기 융합으로 결합한다. 카메라 검출의 바운딩 박스 중심과 레이더 검출점을 영상 평면 또는 BEV 공간에서 연관시키고, 연관된 쌍에 대해 카메라의 분류 결과와 레이더의 거리·속도를 결합하여 최종 객체 상태를 추정한다.

5.2 칼만 필터 기반 추적 융합

ADAS 시스템에서 널리 사용되는 구조로서, 카메라와 레이더 각각의 검출 결과를 독립적으로 또는 통합적으로 칼만 필터에 입력하여 객체의 상태(위치, 속도, 크기)를 추적한다. 레이더의 직접 속도 측정은 칼만 필터의 상태 갱신에서 속도 관측으로 직접 활용되어 추적의 수렴 속도와 정확도를 향상시킨다(Kellner et al., 2013).

6. 4D 이미징 레이더와 카메라 융합

4D 이미징 레이더의 등장은 카메라-레이더 융합의 가능성을 확장하고 있다. 4D 이미징 레이더가 생성하는 고밀도 레이더 점군은 LiDAR 점군과 유사한 형태를 가지므로, 기존 카메라-LiDAR 융합 기법을 레이더 점군에 적용하는 연구가 진행되고 있다.

RCBEVDet(Lin et al., 2024)은 4D 이미징 레이더 점군과 카메라 영상을 BEV 공간에서 융합하는 구조로, 레이더 점군을 복셀화하여 BEV 특징 맵을 생성하고 카메라 BEV 특징 맵과 결합한다. 레이더의 도플러 속도 정보가 추가적인 특징 채널로 활용되어, LiDAR 융합에서는 얻을 수 없는 직접 속도 정보를 제공한다.

4D 이미징 레이더-카메라 융합은 LiDAR-카메라 융합 대비 비용이 낮으면서도 기상 강건성이 우수하여, 양산 자율주행 시스템에서의 적용 잠재력이 높이 평가되고 있다.

7. 카메라-레이더 융합의 장단점 요약

측면	장점	한계
비용	양산 센서 활용, 낮은 추가 비용	—
기상 강건성	레이더의 전천후 동작	—
속도 측정	레이더의 직접 도플러 측정	시선 방향만 측정
공간 분해능	카메라의 높은 영상 분해능	레이더의 낮은 각도 분해능
3차원 정확도	—	LiDAR 융합 대비 깊이 정확도 제한
야간 성능	—	카메라의 야간 성능 저하

참고문헌

Chadwick, S., Maddern, W., & Newman, P. (2019). Distant vehicle detection using radar and vision. IEEE International Conference on Robotics and Automation (ICRA), 8311–8317.
Kellner, D., Barjenbruch, M., Klappstein, J., Dickmann, J., & Dietmayer, K. (2013). Instantaneous ego-velocity estimation with Doppler radar. IEEE International Conference on Connected Vehicles and Expo (ICCVE), 592–597.
Kim, Y., Shin, J., Kim, S., Lee, I., Choi, J., & Kum, D. (2023). CRN: Camera radar net for accurate, robust, efficient 3D perception. IEEE/CVF International Conference on Computer Vision (ICCV).
Lin, T., Ye, Z., Shi, W., Huang, M., Xu, J., Xiang, S., & Pan, C. (2024). RCBEVDet: Radar-camera BEV 3D object detection. European Conference on Computer Vision (ECCV).
Major, B., Fontijne, D., Jain, A., Ganguli, S., & Piramuthu, R. (2019). Vehicle detection with automotive radar using deep learning on range-azimuth-Doppler tensors. IEEE/CVF International Conference on Computer Vision Workshops (ICCVW), 924–932.
Nabati, R., & Qi, H. (2021). CenterFusion: Center-based radar and camera fusion for 3D object detection. IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 1527–1536.

버전: v1.0, 2026-04-11