4.2 인지 모듈의 입력 데이터 유형

1. 개요

인지 모듈은 다양한 센서로부터 수집된 원시 데이터를 입력으로 받아 주행 환경을 해석한다. 각 센서의 데이터는 고유한 형태, 해상도, 특성을 가지며, 인지 알고리즘은 이러한 데이터의 특성에 맞추어 설계된다.

2. 카메라 영상 데이터

카메라 영상은 2차원 픽셀 배열로 구성된 밀집(Dense) 데이터이다. 각 픽셀은 RGB 또는 YUV 색상 값을 가지며, 일반적으로 $H \times W \times 3$ 의 텐서로 표현된다( $H$ : 높이, $W$ : 너비, 3: 색상 채널).

속성	내용
데이터 구조	2D 격자 (밀집)
차원	$H \times W \times C$
해상도	1~8 MP
정보 유형	색상, 질감, 형태, 밝기
직접 거리 정보	없음 (단안), 가능 (스테레오)

카메라 영상은 합성곱 신경망(CNN) 또는 비전 트랜스포머(ViT)의 표준 입력 형태와 일치하므로, 컴퓨터 비전 분야의 사전 학습 모델(Pre-trained Model)을 직접 활용할 수 있다는 이점이 있다.

3. 라이다 포인트 클라우드

라이다 포인트 클라우드는 3차원 공간에 분포하는 점들의 집합으로, 각 점은 위치 $(x, y, z)$ 와 반사 강도(Intensity) $i$ 를 포함하는 4차원 벡터로 표현된다. 포인트 클라우드는 비구조화(Unstructured) 데이터로, 2차원 격자 구조를 갖는 영상 데이터와는 근본적으로 다른 형태이다.

속성	내용
데이터 구조	비구조화 3D 점 집합 (희소)
차원	$N \times (3 + k)$ ( $N$ : 점 수, $k$ : 추가 속성)
점 수	프레임당 수만~수십만
정보 유형	3D 위치, 반사 강도, (일부) 시간 정보
직접 거리 정보	있음

포인트 클라우드를 처리하는 신경망 아키텍처로는 PointNet(Qi et al., 2017), PointNet++(Qi et al., 2017b) 등의 점 직접 처리 방식과, 포인트 클라우드를 복셀(Voxel)이나 필라(Pillar)로 변환하여 3D 합성곱 또는 2D 합성곱을 적용하는 VoxelNet(Zhou & Tuzel, 2018), PointPillars(Lang et al., 2019) 등의 격자화 방식이 있다.

4. 레이더 데이터

레이더 데이터는 객체 목록(Object List) 형태 또는 포인트 클라우드 형태로 출력된다. 기존 레이더는 검출된 객체의 거리, 상대 속도, 각도를 포함하는 희소한 객체 목록을 출력하였으나, 최근의 4D 이미징 레이더는 라이다에 준하는 밀도의 포인트 클라우드를 제공한다.

레이더 데이터의 핵심적 특성은 도플러 효과를 이용한 직접적인 상대 속도 측정이 가능하다는 점이다. 이는 카메라나 라이다에서는 시간적 추적을 통해 간접적으로 추정하여야 하는 정보이다.

5. 다중 센서 데이터의 통합

실제 자율주행 시스템의 인지 모듈은 단일 센서가 아닌 다중 센서의 데이터를 통합적으로 처리한다. 각 센서의 데이터는 상이한 좌표계, 시간 기준, 해상도를 가지므로, 통합 처리를 위해 다음의 전처리가 필요하다.

좌표계 통일: 각 센서의 데이터를 차량 좌표계(Vehicle Frame) 또는 공통 좌표계로 변환한다. 센서의 외부 파라미터(Extrinsic Calibration)가 사용된다.
시간 동기화: 각 센서의 데이터를 동일 시점에 정합한다. 하드웨어 동기 트리거 또는 소프트웨어 보간이 사용된다.
카메라-라이다 정합: 라이다 포인트를 카메라 영상 평면에 투영하거나, 카메라 영상의 특징을 3차원 포인트 클라우드 공간에 대응시킨다. 카메라의 내부 파라미터(Intrinsic Calibration)와 외부 파라미터가 사용된다.

6. 참고 문헌

Lang, A. H., Vora, S., Caesar, H., Zhou, L., Yang, J., & Beijbom, O. (2019). PointPillars: Fast encoders for object detection from point clouds. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 12697–12705.
Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet: Deep learning on point sets for 3D classification and segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 652–660.
Qi, C. R., Yi, L., Su, H., & Guibas, L. J. (2017b). PointNet++: Deep hierarchical feature learning on point sets in a metric space. Advances in Neural Information Processing Systems, 30, 5099–5108.
Zhou, Y., & Tuzel, O. (2018). VoxelNet: End-to-end learning for point cloud based 3D object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4490–4499.

v1.0