7.4 카메라 기반 인지의 장점과 한계

카메라는 자율주행 인지 시스템에서 가장 풍부한 시각 정보를 제공하는 센서이다. 심층 학습(deep learning) 기술의 발전과 함께 카메라 기반 인지의 성능은 비약적으로 향상되었으며, 일부 자율주행 시스템에서는 카메라를 주력 센서(primary sensor)로 채택하고 있다. 그러나 카메라는 물리적 원리에 기인하는 고유한 한계를 가지며, 이를 정확히 이해하는 것이 센서 융합 전략의 설계와 시스템 안전성 확보에 필수적이다. 본 절에서는 카메라 기반 인지의 장점과 한계를 체계적으로 분석한다.

1. 카메라 기반 인지의 장점

1.1 풍부한 의미론적 정보(Semantic Information)

카메라는 색상(color), 질감(texture), 형태(shape), 패턴(pattern) 등의 풍부한 시각 정보를 제공한다. 이러한 정보는 다음과 같은 인지 과제에서 핵심적이다.

객체 분류(Object Classification): 차량, 보행자, 자전거, 동물 등의 세부 분류가 가능하다. LiDAR 점군만으로는 유사한 형상의 객체(예: 보행자와 전봇대)를 구별하기 어려우나, 카메라 영상에서는 시각적 특징에 기반하여 높은 정확도로 분류할 수 있다.
교통 표지판 인식(Traffic Sign Recognition): 교통 표지판의 내용(속도 제한, 진입 금지, 방향 지시 등)은 색상과 형태로 전달되므로, 카메라가 유일하게 직접 인식 가능한 센서이다.
교통 신호등 인식(Traffic Light Recognition): 신호등의 색상 상태(적, 황, 녹)와 화살표 방향은 카메라를 통해서만 판독할 수 있다.
차선 및 노면 표시 인식(Lane and Road Marking Detection): 차선 경계, 정지선, 횡단보도 표시 등의 노면 표시는 색상과 패턴으로 구성되어 있으므로 카메라가 가장 적합한 센서이다.

1.2 높은 공간 해상도(High Spatial Resolution)

현대 자율주행용 카메라는 2~8 MP(메가픽셀)의 해상도를 제공하며, 이는 LiDAR나 레이더에 비하여 현저히 높은 공간 분해능(spatial resolution)에 해당한다. 높은 해상도는 다음과 같은 이점을 제공한다.

원거리 소형 객체(보행자, 자전거 등)의 검출 성능이 향상된다.
교통 표지판의 원거리 판독이 가능하다.
객체의 세밀한 형태 인식(예: 차량의 방향 지시등 상태)이 가능하다.

1.3 낮은 센서 원가

카메라는 LiDAR에 비하여 센서 단가가 현저히 낮다. 자율주행용 카메라 모듈의 가격은 수십~수백 달러 수준인 반면, 고성능 LiDAR는 수천~수만 달러에 달한다. 이러한 비용 차이는 대량 양산 시 차량 원가에 직접적인 영향을 미친다.

1.4 인간의 시각 시스템과의 유사성

카메라는 인간의 시각 시스템과 동일한 물리적 원리(가시광선의 수광)에 기반하므로, 도로 환경이 인간 운전자를 위하여 설계된 시각적 정보(표지판, 신호등, 차선 등)를 자연스럽게 인식할 수 있다. 이는 기존 도로 인프라의 변경 없이 자율주행을 구현할 수 있음을 의미한다.

1.5 심층 학습과의 친화성

카메라 영상은 격자(grid) 구조의 정규 데이터(regular data)이므로, 합성곱 신경망(Convolutional Neural Network, CNN)을 비롯한 심층 학습 기법을 직접 적용할 수 있다. 이미지넷(ImageNet)을 비롯한 대규모 영상 데이터셋의 존재와 사전 훈련(pre-training) 기법의 발전으로, 카메라 기반 인지 알고리즘은 빠르게 성능이 향상되고 있다.

2. 카메라 기반 인지의 한계

2.1 깊이 정보의 부재

단안 카메라의 가장 근본적인 한계는 2차원 영상으로의 투영 과정에서 깊이 정보가 소실된다는 것이다. 3차원 공간의 점 $(X, Y, Z)$ 는 영상의 2차원 점 $(u, v)$ 로 투영되며, 이 과정에서 깊이 $Z$ 에 대한 정보가 상실된다. 이를 깊이 모호성(depth ambiguity)이라 한다.

깊이 정보의 부재는 다음과 같은 인지 과제에서 어려움을 초래한다.

객체까지의 거리 추정: 영상만으로는 정확한 거리 측정이 어려우며, 추정 오차가 거리에 따라 증가한다.
3차원 바운딩 박스 추정: 객체의 3차원 크기와 위치를 동시에 추정해야 하므로, 2D 검출에 비하여 정확도가 낮다.
자유 공간(free space) 판별: 주행 가능 영역의 3차원 범위를 파악하기 어렵다.

심층 학습 기반 단안 깊이 추정(monocular depth estimation) 기법이 연구되고 있으나(Eigen et al., 2014), LiDAR의 직접 측정에 비하여 정확도가 낮고 일반화(generalization) 성능에 한계가 있다.

2.2 조명 조건에 대한 민감성

카메라는 수동형 센서로서 외부 광원에 의존하므로, 조명 조건의 변화에 민감하다. 주요 문제 상황은 다음과 같다.

조명 조건	문제	영향
역광(Backlight)	태양이 카메라 정면에 위치	전방 객체 실루엣화, 검출 실패
저조도(Low Light)	야간, 지하 주차장	잡음 증가, 해상도 저하
급격한 명암 변화	터널 진입/퇴출	노출 적응 지연, 순간적 시야 상실
그림자(Shadow)	건물, 가로수에 의한 그림자	차선 인식 방해, 허위 객체 검출
대향차 전조등	야간 대향 주행	국부적 포화(blooming)

HDR(High Dynamic Range) 기술이 일부 문제를 완화하지만, 극단적 조명 조건에서의 성능 저하를 완전히 해소하지는 못한다.

2.3 악천후에 대한 취약성

카메라는 악천후 환경에서 성능이 현저히 저하된다.

폭우: 렌즈 표면의 물방울에 의한 영상 왜곡, 시야 차단
안개/연무: 대기 중 수분 입자에 의한 산란으로 대비(contrast) 저하, 원거리 물체 불가시
폭설: 렌즈 적설, 노면 표시 은폐, 배경과 객체의 대비 감소
먼지/오염: 렌즈 표면의 오염에 의한 영상 품질 저하

이러한 한계를 완화하기 위하여 렌즈 세정 장치(와이퍼, 에어 블로워), 발수 코팅, 히터 등의 하드웨어적 대책과 영상 복원(image restoration) 알고리즘 등의 소프트웨어적 대책이 적용된다.

2.4 스케일 모호성(Scale Ambiguity)

단안 카메라에서는 절대적인 스케일(크기)을 결정할 수 없다. 영상에서 동일한 크기로 나타나는 물체가 가까이 있는 소형 물체인지, 멀리 있는 대형 물체인지를 순수하게 영상 기하학만으로는 구별할 수 없다. 이 문제를 해결하기 위해서는 물체의 알려진 크기(예: 차량의 전형적 크기)에 대한 사전 지식(prior knowledge)이나 다른 센서의 거리 정보가 필요하다.

2.5 텍스처 의존성

카메라 기반 인지 알고리즘은 영상의 시각적 특징(텍스처, 에지, 색상 등)에 의존한다. 따라서 텍스처가 부족한 환경(예: 무늬 없는 흰색 벽, 눈 덮인 평지)에서는 특징 추출이 어려워 인지 성능이 저하될 수 있다.

2.6 연산 비용

고해상도 카메라 영상의 처리에는 높은 연산 비용이 수반된다. 특히 심층 학습 기반 인지 알고리즘(객체 검출, 의미론적 분할 등)은 GPU 가속을 필요로 하며, 다중 카메라 시스템에서는 연산 자원의 요구가 비례하여 증가한다.

3. 카메라 전용 자율주행 접근법(Camera-Only Approach)

최근 일부 자율주행 시스템에서는 LiDAR를 사용하지 않고 카메라만으로 인지를 수행하는 접근법을 채택하고 있다. 이 접근법은 다음과 같은 기술적 발전에 기반한다.

단안 3D 객체 검출: 단일 영상에서 3차원 바운딩 박스를 추정하는 심층 학습 기법
BEV(Bird’s Eye View) 변환: 다중 카메라 영상으로부터 조감도(bird’s eye view) 표현을 생성하는 기법(Philion & Fidler, 2020)
시간적 정보 활용: 연속 프레임 간의 광류(optical flow)와 자차 운동 정보를 활용한 깊이 및 속도 추정

카메라 전용 접근법은 센서 원가 절감과 시스템 단순화의 장점이 있으나, 깊이 추정의 정확도와 악천후 대응 측면에서 LiDAR 기반 시스템에 비하여 한계가 존재한다. 이러한 트레이드오프(trade-off)는 자율주행 업계에서 지속적으로 논의되고 있는 주제이다.

4. 카메라의 한계 극복 전략 요약

한계	주요 극복 전략
깊이 정보 부재	스테레오 카메라, 단안 깊이 추정, LiDAR/레이더 융합
조명 민감성	HDR 센서, 자동 노출 제어, 적외선 카메라 보완
악천후 취약성	렌즈 세정 장치, 레이더 융합, 영상 복원 알고리즘
스케일 모호성	물체 크기 사전 지식, 다른 센서와의 융합
높은 연산 비용	전용 AI 가속기(GPU, NPU), 모델 경량화

참고문헌

Eigen, D., Puhrsch, C., & Fergus, R. (2014). Depth Map Prediction from a Single Image Using a Multi-Scale Deep Network. Advances in Neural Information Processing Systems (NeurIPS), 27, 2366–2374.
Philion, J., & Fidler, S. (2020). Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D. European Conference on Computer Vision (ECCV), 194–210.
Janai, J., Güney, F., Behl, A., & Geiger, A. (2020). Computer Vision for Autonomous Vehicles: Problems, Datasets and State of the Art. Foundations and Trends in Computer Graphics and Vision, 12(1–3), 1–308.
Li, Y., & Ibanez-Guzman, J. (2020). Lidar for Autonomous Driving: The Principles, Challenges, and Trends for Automotive Lidar and Perception Systems. IEEE Signal Processing Magazine, 37(4), 50–61.

버전: 2026-04-11 v1.0