4.11 깊이 추정(Depth Estimation)

1. 정의

깊이 추정(Depth Estimation)은 입력 영상으로부터 장면 내 각 픽셀의 카메라로부터의 거리(깊이)를 추정하는 과업이다. 깊이 정보는 2차원 영상을 3차원 공간으로 확장하는 데 필수적이며, 카메라 기반 3D 인지 시스템의 핵심 구성 요소이다.

두 대의 카메라(스테레오 카메라)로 촬영한 영상 쌍으로부터 시차(Disparity)를 계산하여 깊이를 추정하는 방식이다. 기선(Baseline) 거리 $b$ 와 시차 $d$ , 초점 거리 $f$ 의 관계로 깊이 $Z$ 를 계산한다.

$Z = \frac{f \cdot b}{d}$

스테레오 깊이 추정은 기하학적 원리에 기반하므로 물리적 정확성이 높으나, 질감이 없는 영역(Textureless Region)이나 반복 패턴 영역에서 시차 매칭이 어려울 수 있다.

단일 카메라 영상으로부터 깊이를 추정하는 방식이다. 기하학적 단서가 부족하므로, 신경망이 학습 데이터에서 원근법, 상대 크기, 질감 경사(Texture Gradient) 등의 단안 깊이 단서(Monocular Depth Cue)를 학습한다.

지도 학습 방식: 라이다 등으로 획득한 깊이 정답(Ground Truth)을 이용하여 신경망을 학습한다. Eigen et al.(2014)이 최초로 심층 학습 기반 단안 깊이 추정을 제안하였다.

자기 지도 학습 방식: 깊이 정답 없이, 시간적 또는 공간적으로 인접한 영상 쌍의 광도 일관성(Photometric Consistency)을 손실 함수로 이용하여 학습한다. Monodepth2(Godard et al., 2019)가 대표적이다.

라이다로 획득한 희소(Sparse) 깊이 정보와 카메라 영상을 결합하여 밀집(Dense) 깊이 맵을 생성하는 과업이다. 라이다의 정확한 거리 정보와 카메라의 밀집한 공간 정보를 상호 보완적으로 활용한다.

깊이 추정은 카메라 기반 자율주행 시스템에서 다음과 같이 활용된다.

2D-to-3D 변환: 2D 영상 특징을 3D 공간으로 투영하는 과정(Lift-Splat-Shoot 등)에서 깊이 분포 추정이 핵심 역할을 한다.
라이다 대체/보완: 라이다 없이 카메라만으로 3D 인지를 수행하는 비전 중심 시스템에서 깊이 추정은 거리 정보를 제공하는 유일한 수단이다.
장애물 거리 추정: 검출된 객체까지의 거리를 추정하여 안전 거리 판단에 활용한다.

Eigen, D., Puhrsch, C., & Fergus, R. (2014). Depth map prediction from a single image using a multi-scale deep network. Advances in Neural Information Processing Systems, 27, 2366–2374.
Godard, C., Mac Aodha, O., Firman, M., & Brostow, G. J. (2019). Digging into self-supervised monocular depth estimation. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 3828–3838.

v1.0