1.3 자율주행의 핵심 기능 요소

자율주행 시스템은 인간 운전자가 수행하는 동적 운전 과업(Dynamic Driving Task, DDT)을 기술적으로 구현하기 위해 다수의 기능 요소로 구성된다. 본 절에서는 자율주행의 핵심 기능 요소를 인지(Perception), 판단(Planning), 제어(Control)의 세 가지 주요 범주와 이를 보조하는 측위(Localization) 및 예측(Prediction) 기능으로 분류하여 체계적으로 기술한다.

1. 인지 (Perception)

인지는 차량에 탑재된 센서로부터 획득한 원시 데이터를 처리하여 주행 환경의 상태를 파악하는 기능이다. SAE J3016 표준에서 정의하는 OEDR(Object and Event Detection and Response)의 감지(Detection) 부분에 해당하며, 자율주행 시스템의 첫 번째 처리 단계를 구성한다.

인지 모듈이 수행하는 주요 과업은 다음과 같다.

객체 검출(Object Detection): 주행 환경 내의 차량, 보행자, 자전거, 교통 표지판 등의 객체를 감지하고 그 위치를 특정한다. 2차원 영상에서의 경계 상자(Bounding Box) 검출과 3차원 공간에서의 3D 객체 검출이 모두 포함된다. 대표적인 알고리즘으로 YOLO(Redmon et al., 2016), Faster R-CNN(Ren et al., 2015), PointPillars(Lang et al., 2019) 등이 있다.

의미론적 분할(Semantic Segmentation): 영상의 각 픽셀을 도로, 차선, 인도, 건물, 식생 등의 의미적 범주로 분류한다. 이를 통해 주행 가능 영역(Drivable Area)과 비주행 영역을 구분한다.

깊이 추정(Depth Estimation): 단안 카메라(Monocular Camera) 또는 스테레오 카메라(Stereo Camera)로부터 장면의 깊이 정보를 추정한다. 라이다를 대체하거나 보완하는 수단으로 연구되고 있다.

차선 검출(Lane Detection): 도로의 차선 표시를 인식하여 차량의 횡방향 위치 기준을 제공한다. 구조화된 도로뿐만 아니라 차선 표시가 불명확한 비구조화 도로에서의 검출도 연구 대상이다.

2. 측위 (Localization)

측위는 차량의 현재 위치와 자세(Pose)를 정밀하게 추정하는 기능이다. 자율주행에서 요구되는 측위 정확도는 일반적으로 수 센티미터 수준이며, 이는 일반적인 GNSS(Global Navigation Satellite System)의 정확도로는 충분하지 않다.

정밀 측위를 위해 다음의 기법이 사용된다.

GNSS/INS 결합: GNSS 수신기와 관성 측정 장치(Inertial Measurement Unit, IMU)를 결합하여 위치와 자세를 추정한다. RTK(Real-Time Kinematic) 보정을 적용하면 센티미터 수준의 정확도를 달성할 수 있다.
라이다 기반 측위: 라이다 포인트 클라우드를 사전 구축된 고정밀 지도(HD Map)와 정합(Matching)하여 차량의 위치를 추정한다. ICP(Iterative Closest Point) 알고리즘(Besl & McKay, 1992)과 NDT(Normal Distributions Transform)(Biber & Straßer, 2003) 등이 대표적이다.
시각 기반 측위(Visual Localization): 카메라 영상의 특징점을 지도 데이터와 대조하여 위치를 추정한다. 시각적 주행 거리 측정(Visual Odometry)과 동시적 위치 추정 및 지도 작성(Simultaneous Localization and Mapping, SLAM)이 이에 포함된다.

3. 예측 (Prediction)

예측은 주행 환경 내 다른 교통 참여자(차량, 보행자, 자전거 등)의 미래 궤적(Trajectory)과 행동 의도(Intent)를 추정하는 기능이다. 인지 모듈이 현재 상태를 파악한다면, 예측 모듈은 미래 상태를 추론한다.

예측 방법론은 크게 다음으로 구분된다.

물리 기반 모델(Physics-Based Model): 등속 모델(Constant Velocity Model), 등가속 모델(Constant Acceleration Model) 등 운동학적 모델을 기반으로 미래 위치를 예측한다. 단기 예측에 적합하나 상호작용 및 의도 변화를 반영하기 어렵다.
학습 기반 모델(Learning-Based Model): 순환 신경망(RNN), 그래프 신경망(Graph Neural Network, GNN), 트랜스포머 등을 이용하여 과거 궤적 데이터로부터 미래 궤적을 학습한다. Social LSTM(Alahi et al., 2016), VectorNet(Gao et al., 2020), HiVT(Zhou et al., 2022) 등이 대표적이다.
다중 모드 예측(Multi-Modal Prediction): 미래 궤적의 불확실성을 반영하여 다수의 가능한 궤적을 확률적으로 예측한다. 실제 교통 상황에서 교통 참여자의 행동은 다의적(Multi-Modal)이므로, 단일 궤적 예측보다 다중 궤적 예측이 보다 현실적이다.

4. 판단 (Planning)

판단은 인지 및 예측 결과를 기반으로 차량의 주행 경로와 행동 전략을 수립하는 기능이다. 판단 모듈은 일반적으로 계층적 구조를 가지며, 다음의 세 수준으로 구분된다(Paden et al., 2016).

경로 계획(Route Planning): 출발지에서 목적지까지의 전역 경로를 도로 네트워크 수준에서 탐색한다. 도로 지도 그래프에서 Dijkstra 알고리즘 또는 A* 알고리즘 등을 이용하여 최적 경로를 산출한다.

행동 계획(Behavioral Planning): 현재 교통 상황에서 차량이 취해야 할 전술적 행동을 결정한다. 차선 변경, 좌회전, 우회전, 양보, 추월 등의 의사결정이 이에 해당한다. 유한 상태 기계(Finite State Machine, FSM), 의사결정 트리(Decision Tree), 또는 강화 학습 기반 정책이 활용된다.

운동 계획(Motion Planning): 행동 계획의 결과를 구체적인 시공간 궤적으로 변환한다. 차량의 동역학적 제약, 주행 가능 영역, 주변 객체와의 충돌 회피 등을 동시에 고려하여 안전하고 쾌적한 궤적을 생성한다. 래티스 계획(Lattice Planning), 샘플링 기반 계획(Sampling-Based Planning), 최적화 기반 계획(Optimization-Based Planning) 등의 방법론이 사용된다.

5. 제어 (Control)

제어는 판단 모듈이 생성한 목표 궤적을 차량의 물리적 액추에이터 명령(조향각, 가속 페달, 브레이크 압력)으로 변환하여 실제 차량 운동을 실현하는 기능이다. 제어 모듈은 차량 동역학 모델을 기반으로 목표 궤적과 실제 궤적 간의 오차를 최소화한다.

주요 제어 기법은 다음과 같다.

PID 제어(Proportional-Integral-Derivative Control): 비례, 적분, 미분 항의 선형 조합으로 제어 입력을 생성한다. 구현이 단순하나 비선형 차량 동역학에 대한 적응성이 제한적이다.
모델 예측 제어(Model Predictive Control, MPC): 유한 시간 구간에 대한 최적 제어 문제를 반복적으로 풀어 제어 입력을 생성한다. 차량 동역학 모델과 제약 조건을 명시적으로 반영할 수 있어 자율주행 제어에 널리 사용된다(Falcone et al., 2007).
순수 추적(Pure Pursuit): 목표 경로 상의 전방 주시점(Look-Ahead Point)을 향해 조향하는 기하학적 경로 추적 알고리즘이다. 횡방향 제어에 사용되며, 구현이 간결하고 직관적이다.
스탠리 제어기(Stanley Controller): 전륜 축의 횡방향 오차와 방향 오차를 동시에 고려하는 경로 추적 알고리즘이다. 2005년 DARPA Grand Challenge 우승 차량 Stanley에서 사용되었다(Thrun et al., 2006).

6. 핵심 기능 요소 간의 정보 흐름

위의 다섯 가지 기능 요소는 다음과 같은 순차적 정보 흐름을 형성한다.

$\text{센서 데이터} \rightarrow \text{인지} \rightarrow \text{예측} \rightarrow \text{판단} \rightarrow \text{제어} \rightarrow \text{액추에이터}$

측위는 인지 및 판단 모듈에 차량의 현재 위치와 자세 정보를 제공하며, 이 정보는 전역 좌표계에서의 환경 표현과 경로 계획에 필수적이다. 각 기능 요소의 출력 품질은 후속 모듈의 성능에 직접적인 영향을 미치므로, 전체 시스템의 성능은 개별 모듈의 성능뿐만 아니라 모듈 간 인터페이스의 설계에도 크게 의존한다.

7. 참고 문헌

Alahi, A., Goel, K., Ramanathan, V., Robicquet, A., Fei-Fei, L., & Savarese, S. (2016). Social LSTM: Human trajectory prediction in crowded spaces. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 961–971.
Besl, P. J., & McKay, N. D. (1992). A method for registration of 3-D shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 14(2), 239–256.
Biber, P., & Straßer, W. (2003). The normal distributions transform: A new approach to laser scan matching. Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2743–2748.
Falcone, P., Borrelli, F., Asgari, J., Tseng, H. E., & Hrovat, D. (2007). Predictive active steering control for autonomous vehicle systems. IEEE Transactions on Control Systems Technology, 15(3), 566–580.
Gao, J., Sun, C., Zhao, H., Shen, Y., Anguelov, D., Li, C., & Schmid, C. (2020). VectorNet: Encoding HD maps and agent dynamics from vectorized representation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 11525–11533.
Lang, A. H., Vora, S., Caesar, H., Zhou, L., Yang, J., & Beijbom, O. (2019). PointPillars: Fast encoders for object detection from point clouds. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 12697–12705.
Paden, B., Čáp, M., Yong, S. Z., Yershov, D., & Frazzoli, E. (2016). A survey of motion planning and control techniques adopted in self-driving vehicles. IEEE Transactions on Intelligent Vehicles, 1(1), 33–55.
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 779–788.
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems, 28, 91–99.
Thrun, S., Montemerlo, M., Dahlkamp, H., Stavens, D., Aron, A., Diebel, J., … & Mahoney, P. (2006). Stanley: The robot that won the DARPA Grand Challenge. Journal of Field Robotics, 23(9), 661–692.
Zhou, Z., Ye, L., Wang, J., Wu, K., & Lu, K. (2022). HiVT: Hierarchical vector transformer for multi-agent motion prediction. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8823–8833.

v1.0