3.3 인지(Perception) 하위 시스템

1. 개요

인지 하위 시스템은 센서로부터 수집된 원시 데이터를 처리하여 주행 환경의 구조화된 표현을 생성하는 기능 모듈이다. 인지의 출력은 후속 모듈(예측, 판단, 제어)의 입력이 되므로, 인지 하위 시스템의 성능은 전체 자율주행 시스템의 성능에 직접적인 영향을 미친다.

2. 주요 인지 과업

2.1 D 객체 검출 (2D Object Detection)

카메라 영상에서 차량, 보행자, 자전거, 교통 표지판 등의 객체를 감지하고 2D 경계 상자(Bounding Box)로 위치를 특정하는 과업이다. 대표적 알고리즘으로 YOLO 계열(Redmon et al., 2016), Faster R-CNN(Ren et al., 2015), DETR(Carion et al., 2020) 등이 있다.

2.2 D 객체 검출 (3D Object Detection)

라이다 포인트 클라우드 또는 카메라 영상으로부터 객체의 3차원 위치, 크기, 방향을 추정하는 과업이다. 라이다 기반 방법으로 PointPillars(Lang et al., 2019), CenterPoint(Yin et al., 2021) 등이 있으며, 카메라 기반 방법으로 BEVDet(Huang et al., 2022), BEVFormer(Li et al., 2022) 등이 있다.

2.3 객체 추적 (Object Tracking)

시간에 따른 객체의 연속적인 위치 변화를 추적하여 각 객체에 고유 식별자를 부여하고 궤적을 생성하는 과업이다. 칼만 필터(Kalman Filter) 기반의 추적(Weng et al., 2020)과 심층 학습 기반의 추적 방법이 사용된다.

2.4 의미론적 분할 (Semantic Segmentation)

영상의 각 픽셀을 도로, 차선, 인도, 건물, 식생, 하늘 등의 의미적 범주로 분류하는 과업이다. 주행 가능 영역의 추정과 도로 구조의 이해에 활용된다.

2.5 차선 검출 (Lane Detection)

도로의 차선 표시를 인식하여 차선의 위치와 형태를 추정하는 과업이다. 직선 및 곡선 차선의 검출, 차선 유형(실선, 점선, 이중선)의 분류가 포함된다.

2.6 깊이 추정 (Depth Estimation)

단안 카메라 또는 스테레오 카메라로부터 장면의 깊이 정보(각 픽셀의 거리)를 추정하는 과업이다. 단안 깊이 추정은 라이다 없이 3D 인지를 수행하기 위한 핵심 기술이다.

2.7 교통 신호 및 표지판 인식

교통 신호등의 상태(적색, 황색, 녹색, 화살표)와 교통 표지판의 내용(속도 제한, 진입 금지, 일방통행 등)을 인식하는 과업이다.

3. 인지 표현 형태

인지 하위 시스템의 출력은 다양한 표현 형태로 생성될 수 있다.

객체 목록(Object List): 검출된 각 객체의 위치, 크기, 방향, 속도, 클래스를 포함하는 구조화된 목록이다. 모듈형 아키텍처에서 인지 모듈의 표준적 출력 형태이다.

BEV(Bird’s Eye View) 표현: 차량 상방에서 내려다본 평면도 형태로 주행 환경을 표현하는 방식이다. 다중 카메라 영상을 통합하여 BEV 공간에서 객체, 도로 구조, 주행 가능 영역 등을 표현한다. BEVFormer(Li et al., 2022) 등의 연구에서 BEV 표현의 유효성이 입증되었다.

점유 격자 지도(Occupancy Grid Map): 주행 환경을 격자 셀로 분할하고 각 셀의 점유 상태(점유/비점유/미관측)를 확률적으로 표현하는 방식이다. 센서 융합의 결과를 통합적으로 표현하는 데 적합하다.

벡터화된 표현(Vectorized Representation): 차선, 도로 경계, 횡단보도 등의 도로 요소를 벡터(점, 선, 다각형)로 표현하는 방식이다. MapTR(Liao et al., 2023) 등의 연구에서 실시간 벡터화 지도 구성이 제안되었다.

4. 센서 융합 수준

인지 하위 시스템에서 다중 센서 데이터를 통합하는 센서 융합은 융합이 수행되는 단계에 따라 다음과 같이 구분된다.

  • 초기 융합(Early Fusion): 원시 센서 데이터 수준에서 융합이 수행된다. 예를 들어, 라이다 포인트 클라우드와 카메라 영상을 원시 데이터 수준에서 결합한다.
  • 특징 융합(Feature-Level Fusion): 각 센서에서 추출된 특징(Feature) 수준에서 융합이 수행된다. 각 센서의 특징 맵을 공유된 특징 공간에서 결합한다.
  • 후기 융합(Late Fusion): 각 센서에서 독립적으로 생성된 검출 결과를 최종 단계에서 융합한다. 각 센서의 검출 결과를 결합하여 최종 객체 목록을 생성한다.

5. 참고 문헌

  • Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-end object detection with transformers. Proceedings of the European Conference on Computer Vision (ECCV), 213–229.
  • Huang, J., Huang, G., Zhu, Z., Ye, Y., & Du, D. (2022). BEVDet: High-performance multi-camera 3D object detection in bird-eye-view. arXiv preprint arXiv:2112.11790.
  • Lang, A. H., Vora, S., Caesar, H., Zhou, L., Yang, J., & Beijbom, O. (2019). PointPillars: Fast encoders for object detection from point clouds. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 12697–12705.
  • Li, Z., Wang, W., Li, H., Xie, E., Sima, C., Lu, T., … & Dai, J. (2022). BEVFormer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers. Proceedings of the European Conference on Computer Vision (ECCV), 1–18.
  • Liao, B., Chen, S., Wang, X., Cheng, T., Zhang, Q., Liu, W., & Huang, C. (2023). MapTR: Structured modeling and learning for online vectorized HD map construction. Proceedings of the International Conference on Learning Representations (ICLR).
  • Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 779–788.
  • Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems, 28, 91–99.
  • Yin, T., Zhou, X., & Krahenbuhl, P. (2021). Center-based 3D object detection and tracking. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11784–11793.
  • Weng, X., Wang, J., Held, D., & Kitani, K. (2020). 3D multi-object tracking: A baseline and new evaluation metrics. Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 10359–10366.

v1.0