4.10 3차원 점유 격자 추정(3D Occupancy Estimation)

1. 정의

3차원 점유 격자 추정(3D Occupancy Estimation)은 주행 환경을 3차원 복셀(Voxel) 격자로 분할하고, 각 복셀의 점유 상태와 의미론적 범주를 추정하는 과업이다. 2차원 BEV 표현이 높이 정보를 압축하는 것과 달리, 3차원 점유 격자는 공간의 수직 구조를 보존하여 고가도로 하부, 터널 입구, 높이가 제한된 통행로 등의 3차원적 장면 구조를 표현할 수 있다.

2. 기존 인지 방법론과의 차이

특성	3D 객체 탐지	3D 점유 격자
표현 단위	개별 객체 (3D 박스)	복셀 (3D 격자 셀)
비정형 객체 처리	제한적 (사전 정의 범주)	가능 (범주 비의존적 점유)
공간 연속성	불연속	연속
일반 장면 구조	배경 무시	배경 포함 전체 장면 표현

3D 객체 탐지는 사전 정의된 범주에 속하는 객체만을 검출하므로, 학습 데이터에 포함되지 않은 비정형 장애물(도로 위 잔해, 불규칙한 형태의 물체 등)을 놓칠 수 있다. 3D 점유 격자는 범주에 관계없이 공간의 점유 상태를 추정하므로, 이러한 비정형 장애물에 대한 강건성이 높다.

3. 주요 연구

TPVFormer (Huang et al., 2023): 다중 카메라 영상으로부터 세 개의 직교 평면(Tri-Perspective View)의 특징을 생성하고 이를 결합하여 3D 복셀 점유를 추정한다.

OccNet (Tong et al., 2023): BEV 특징에서 3D 복셀 특징으로의 변환을 학습하여 3D 점유 예측을 수행한다.

SurroundOcc (Wei et al., 2023): 다중 카메라 영상으로부터 밀집 3D 점유 예측을 수행하며, 다중 스케일 특징 융합을 통해 세밀한 3D 구조를 복원한다.

4. 자율주행에서의 의의

3D 점유 격자는 자율주행의 안전성 향상에 있어 중요한 역할을 한다. 사전 정의된 객체 범주에 의존하지 않으므로 개방 세계(Open World)의 임의 장애물에 대한 대응 능력이 향상된다. Tesla는 2023년 자사의 자율주행 시스템에 3D 점유 네트워크(Occupancy Network)를 도입하여 비정형 장애물의 인지 능력을 강화하였다.

5. 참고 문헌

Huang, Y., Zheng, W., Zhang, Y., Zhou, J., & Lu, J. (2023). Tri-perspective view for vision-based 3D semantic occupancy prediction. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 9223–9232.

v1.0