7.2 카메라 센서의 원리와 구조

카메라 센서는 가시광선 또는 근적외선 영역의 전자기파를 2차원 디지털 영상으로 변환하는 광학 장치이다. 자율주행에서 카메라는 가장 기본적이면서도 정보 밀도가 높은 센서로, 객체 검출, 분류, 차선 인식, 교통 표지판 판독 등 다양한 인지 과제에 활용된다. 본 절에서는 카메라의 광학적 동작 원리, 이미지 센서의 구조, 카메라 모델의 수학적 정식화, 그리고 자율주행용 카메라의 하드웨어 구성을 기술한다.

1. 카메라의 광학적 동작 원리

1.1 영상 형성(Image Formation)

카메라에서 영상이 형성되는 과정은 물체로부터 반사된 빛이 렌즈를 통과하여 이미지 센서(감광면)에 도달하여 광전 변환(photoelectric conversion)되는 것이다. 이 과정은 기하 광학(geometric optics)의 원리에 의하여 기술된다.

볼록 렌즈(convex lens)의 결상 관계는 얇은 렌즈 공식(thin lens formula)으로 표현된다.

$\frac{1}{f} = \frac{1}{d_o} + \frac{1}{d_i}$

여기서 $f$ 는 초점 거리(focal length), $d_o$ 는 물체까지의 거리(object distance), $d_i$ 는 상까지의 거리(image distance)이다. 자율주행에서 대부분의 물체는 초점 거리에 비하여 매우 먼 거리( $d_o \gg f$ )에 위치하므로, $d_i \approx f$ 가 성립한다.

1.2 핀홀 카메라 모델(Pinhole Camera Model)

핀홀 카메라 모델은 렌즈를 무한히 작은 구멍(pinhole)으로 이상화한 카메라의 수학적 모델이다. 이 모델에서 3차원 공간의 점 $\mathbf{P} = (X, Y, Z)^T$ 가 영상 평면의 점 $\mathbf{p} = (u, v)^T$ 로 투영되는 과정은 투시 변환(perspective projection)으로 기술된다.

카메라 좌표계에서의 투영 관계는 다음과 같다.

$u = f_x \frac{X}{Z} + c_x$

$v = f_y \frac{Y}{Z} + c_y$

여기서 $f_x$ , $f_y$ 는 초점 거리의 픽셀 단위 표현(focal length in pixels), $(c_x, c_y)$ 는 주점(principal point)의 영상 좌표이다. 이를 동차 좌표(homogeneous coordinates)를 사용하여 행렬 형태로 표현하면 다음과 같다.

$s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = \underbrace{\begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix}}_{K} \begin{bmatrix} X \\ Y \\ Z \end{bmatrix}$

행렬 $K$ 를 내부 파라미터 행렬(intrinsic matrix) 또는 캘리브레이션 행렬(calibration matrix)이라 한다. 스케일 팩터 $s = Z$ 는 물체의 깊이 정보에 해당한다.

1.3 전체 투영 모델

전역 좌표계의 점 $\mathbf{P}_w$ 를 카메라 영상의 점 $\mathbf{p}$ 로 투영하는 전체 모델은 내부 파라미터와 외부 파라미터(extrinsic parameters)를 모두 포함한다.

$s \begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K \begin{bmatrix} R & \mathbf{t} \end{bmatrix} \begin{bmatrix} X_w \\ Y_w \\ Z_w \\ 1 \end{bmatrix}$

여기서 $R \in \mathbb{R}^{3 \times 3}$ 은 회전 행렬, $\mathbf{t} \in \mathbb{R}^{3}$ 은 병진 벡터로, 전역 좌표계에서 카메라 좌표계로의 강체 변환(rigid body transformation)을 나타낸다. $[R \mid \mathbf{t}]$ 를 외부 파라미터 행렬(extrinsic matrix)이라 한다.

2. 렌즈 왜곡(Lens Distortion)

실제 렌즈는 핀홀 모델과 달리 광학적 왜곡을 발생시킨다. 주요 왜곡 유형은 다음과 같다.

2.1 방사 왜곡(Radial Distortion)

방사 왜곡은 영상의 중심으로부터의 거리에 따라 발생하는 왜곡으로, 배럴 왜곡(barrel distortion)과 핀쿠션 왜곡(pincushion distortion)이 있다. 방사 왜곡 모델은 다음과 같다.

$x_d = x_n (1 + k_1 r^2 + k_2 r^4 + k_3 r^6)$

$y_d = y_n (1 + k_1 r^2 + k_2 r^4 + k_3 r^6)$

여기서 $(x_n, y_n)$ 은 왜곡 전 정규화 좌표, $(x_d, y_d)$ 는 왜곡 후 좌표, $r^2 = x_n^2 + y_n^2$ , $k_1, k_2, k_3$ 은 방사 왜곡 계수이다.

2.2 접선 왜곡(Tangential Distortion)

접선 왜곡은 렌즈와 이미지 센서의 정렬 오차에 의하여 발생하며, 다음과 같이 모델링된다.

$x_d = x_n + 2 p_1 x_n y_n + p_2 (r^2 + 2 x_n^2)$

$y_d = y_n + p_1 (r^2 + 2 y_n^2) + 2 p_2 x_n y_n$

여기서 $p_1, p_2$ 는 접선 왜곡 계수이다.

자율주행에서는 정확한 기하학적 인지를 위하여 카메라 캘리브레이션(camera calibration) 과정을 통해 이러한 왜곡 파라미터를 추정하고, 영상 처리 단계에서 왜곡을 보정(undistortion)해야 한다. Zhang(2000)이 제안한 체커보드 패턴 기반 캘리브레이션 기법이 산업 표준으로 널리 사용되고 있다.

3. 이미지 센서(Image Sensor)

이미지 센서는 렌즈를 통해 결상된 광학 영상을 전기 신호로 변환하는 반도체 소자이다.

3.1 CMOS 센서(Complementary Metal-Oxide-Semiconductor)

CMOS 센서는 현재 자율주행용 카메라에서 지배적으로 사용되는 이미지 센서이다. CMOS 센서의 주요 특성은 다음과 같다.

각 픽셀 독립 읽기: 각 픽셀이 자체 증폭기와 아날로그-디지털 변환기(ADC)를 가지므로, 특정 영역만 선택적으로 읽어올 수 있다(ROI 기능).
롤링 셔터(Rolling Shutter): 대부분의 CMOS 센서는 행(row) 단위로 순차적으로 노출하는 롤링 셔터 방식을 사용한다. 이로 인하여 빠르게 움직이는 물체에 대하여 기하학적 왜곡(skew)이 발생할 수 있다.
글로벌 셔터(Global Shutter): 모든 픽셀이 동시에 노출되는 방식으로, 롤링 셔터 왜곡이 발생하지 않는다. 자율주행과 같이 빠른 움직임이 관련된 응용에서 권장된다.
저전력 소비: CCD에 비하여 소비 전력이 낮다.

3.2 CCD 센서(Charge-Coupled Device)

CCD 센서는 각 픽셀에서 축적된 전하를 순차적으로 이동시켜 단일 출력 노드에서 변환하는 방식이다. 균일한 화질과 낮은 잡음 수준을 제공하지만, 소비 전력이 높고 고속 읽기가 어렵다는 단점이 있어 자율주행 분야에서는 CMOS 센서에 비하여 사용 빈도가 낮다.

3.3 베이어 필터(Bayer Filter)

대부분의 컬러 카메라는 이미지 센서 위에 베이어 컬러 필터 배열(Bayer Color Filter Array, CFA)을 배치하여 색상 정보를 획득한다. 베이어 배열은 적(R), 녹(G), 청(B) 필터를 RGGB 패턴으로 배치하며, 인간의 눈이 녹색에 가장 민감한 것을 반영하여 녹색 필터의 수를 2배로 배치한다. 원시 베이어 데이터에서 전체 색상 영상을 복원하는 과정을 디모자이킹(demosaicing)이라 한다.

4. 자율주행용 카메라의 하드웨어 구성

자율주행용 카메라 모듈은 다음과 같은 구성 요소로 이루어진다.

구성 요소	역할
렌즈 조립체(Lens Assembly)	빛을 집광하여 이미지 센서에 결상
이미지 센서(Image Sensor)	광학 영상을 전기 신호로 변환
ISP(Image Signal Processor)	자동 노출, 화이트 밸런스, 디모자이킹 등 영상 처리
시리얼 인터페이스(Serial Interface)	영상 데이터를 처리 장치로 전송 (GMSL, MIPI CSI 등)
하우징(Housing)	방수, 방진, 내열 보호
히터/와이퍼(Heater/Wiper)	결빙, 오염 방지

4.1 자동 노출 제어(Auto Exposure Control, AEC)

자율주행 환경에서는 터널 진입/퇴출, 역광, 야간 주행 등 조명 조건이 급격하게 변화한다. AEC는 이미지 센서의 노출 시간(exposure time)과 아날로그 이득(analog gain)을 자동으로 조절하여 적절한 밝기의 영상을 확보한다. 자율주행용 카메라에서는 영상 전체의 평균 밝기가 아닌, 관심 영역(예: 도로면, 전방 차량)의 밝기를 기준으로 노출을 조절하는 가중 평균 방식이 사용되기도 한다.

4.2 HDR 영상(High Dynamic Range Imaging)

자율주행 환경에서는 밝은 하늘과 어두운 터널 내부가 동시에 영상에 포함되는 등 높은 동적 범위(dynamic range)가 요구되는 상황이 빈번하다. HDR 기술은 서로 다른 노출 시간으로 촬영한 복수의 영상을 합성하거나, 센서 내부에서 픽셀별로 다중 노출을 수행하여 넓은 동적 범위의 영상을 생성한다.

일반적인 이미지 센서의 동적 범위는 약 60~70 dB이나, HDR 기술을 적용한 자율주행용 센서는 120~140 dB의 동적 범위를 제공한다.

5. 카메라 캘리브레이션(Camera Calibration)

카메라 캘리브레이션은 카메라의 내부 파라미터(초점 거리, 주점, 왜곡 계수)와 외부 파라미터(위치, 방향)를 정밀하게 추정하는 과정이다. 정확한 캘리브레이션은 영상으로부터 3차원 기하학적 정보를 추출하기 위한 전제 조건이다.

5.1 내부 캘리브레이션(Intrinsic Calibration)

알려진 기하학적 패턴(체커보드, 원형 패턴 등)을 다양한 자세에서 촬영하고, 영상 내 특징점의 좌표와 실제 좌표 사이의 대응 관계로부터 내부 파라미터를 추정한다. 최소 3장 이상의 영상이 필요하며, 일반적으로 10~20장의 다양한 자세 영상이 사용된다.

5.2 외부 캘리브레이션(Extrinsic Calibration)

차량 좌표계에서의 카메라 위치와 방향을 결정하는 과정이다. 다중 센서 시스템에서는 카메라와 다른 센서(LiDAR, 레이더 등) 사이의 상대적 위치와 방향도 외부 캘리브레이션을 통하여 결정해야 한다. 이를 센서 간 캘리브레이션(cross-calibration) 또는 외부 캘리브레이션이라 한다.

참고문헌

Hartley, R., & Zisserman, A. (2004). Multiple View Geometry in Computer Vision (2nd ed.). Cambridge University Press.
Zhang, Z. (2000). A Flexible New Technique for Camera Calibration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(11), 1330–1334.
Szeliski, R. (2022). Computer Vision: Algorithms and Applications (2nd ed.). Springer.
Corke, P. (2017). Robotics, Vision and Control: Fundamental Algorithms in MATLAB (2nd ed.). Springer.

버전: 2026-04-11 v1.0