5.4 행동 계획(Behavioral Planning)

1. 정의

행동 계획(Behavioral Planning)은 판단 모듈의 중간 계층으로, 현재 교통 상황에서 차량이 취해야 할 전술적 행동(Tactical Behavior)을 결정하는 과업이다. 경로 계획이 “어떤 도로를 따라갈 것인가“를 결정한다면, 행동 계획은 “현재 상황에서 어떤 행동을 취할 것인가“를 결정한다.

2. 행동 유형

자율주행에서 행동 계획이 결정하는 주요 행동 유형은 다음과 같다.

행동 범주	구체적 행동
차선 관련	차선 유지, 좌측 차선 변경, 우측 차선 변경
속도 관련	목표 속도 유지, 전방 차량 추종, 감속/정지
교차로 관련	직진, 좌회전, 우회전, 유턴
상호작용 관련	양보(Yield), 추월(Overtake), 합류(Merge)
비상 관련	긴급 정지, 갓길 정차

3. 행동 계획 방법론

3.1 유한 상태 기계 (Finite State Machine, FSM)

FSM은 행동 계획의 가장 전통적인 방법론이다. 시스템의 행동을 유한한 수의 상태(State)로 정의하고, 현재 상태와 입력 조건에 따라 상태 전이(State Transition)를 수행한다.

예를 들어, 고속도로 주행의 FSM은 다음과 같은 상태를 가질 수 있다.

차선 유지(Lane Following): 현재 차선을 유지하며 주행
차선 변경 준비(Prepare Lane Change): 차선 변경 가능 여부를 평가
차선 변경 실행(Execute Lane Change): 차선 변경 기동 수행
추월(Overtaking): 전방 저속 차량 추월

FSM의 장점은 설계와 구현이 직관적이고 해석 가능성이 높다는 점이다. 그러나 교통 상황의 복잡도가 증가하면 상태와 전이 규칙의 수가 급격히 증가하여 관리가 어려워지는 한계가 있다.

3.2 의사결정 트리 (Decision Tree)

의사결정 트리는 일련의 조건 분기를 통해 행동을 결정하는 방법론이다. 각 노드에서 교통 상황의 특정 조건을 평가하고, 조건의 참/거짓에 따라 분기하여 최종적으로 행동을 결정한다. FSM과 유사하게 해석 가능성이 높으나, 복잡한 상황에서의 유연성이 제한적이다.

3.3 부분 관측 가능 마르코프 결정 과정 (POMDP)

POMDP(Partially Observable Markov Decision Process)는 환경의 상태가 부분적으로만 관측 가능한 상황에서의 순차적 의사결정 프레임워크이다(Kaelbling et al., 1998). 인지와 예측의 불확실성을 확률적으로 모델링하여 최적의 행동 정책을 도출한다. 이론적으로 우수하나, 상태 공간과 행동 공간이 클 경우 계산 비용이 급격히 증가하는 문제가 있다.

3.4 강화 학습 (Reinforcement Learning) 기반 행동 계획

강화 학습은 보상 함수(Reward Function)를 통해 시행착오 방식으로 최적 정책을 학습하는 방법론이다. 시뮬레이션 환경에서 대규모 학습이 가능하며, 복잡한 상호작용 상황에서의 행동을 데이터 기반으로 학습할 수 있다. 그러나 보상 함수의 설계, 시뮬레이션과 실제 환경 간의 격차(Sim-to-Real Gap), 안전 보장의 어려움 등이 과제이다.

4. 행동 계획의 핵심 과제

4.1 다중 교통 참여자와의 상호작용

행동 계획의 가장 핵심적인 과제는 다른 교통 참여자와의 상호작용(Interaction) 모델링이다. 다른 차량의 행동은 자율주행 차량의 행동에 의해 영향을 받으며, 이 상호 의존적 관계를 적절히 고려하지 않으면 교착 상태(Deadlock)나 공격적(Aggressive)/수동적(Passive) 주행이 발생할 수 있다.

게임 이론(Game Theory) 기반의 접근법이 상호작용 모델링에 활용된다. 내시 균형(Nash Equilibrium), 스태켈버그 게임(Stackelberg Game) 등의 프레임워크를 통해 다중 교통 참여자의 전략적 상호작용을 분석한다(Schwarting et al., 2019).

4.2 양보와 적극성의 균형

행동 계획은 안전을 위한 양보와 효율적 주행을 위한 적극성 사이의 균형을 유지하여야 한다. 과도하게 보수적인 행동 계획은 다른 교통 참여자의 흐름을 방해하고 교통 효율을 저하시키며, 과도하게 적극적인 행동 계획은 안전을 위협한다.

5. 참고 문헌

Kaelbling, L. P., Littman, M. L., & Cassandra, A. R. (1998). Planning and acting in partially observable stochastic domains. Artificial Intelligence, 101(1–2), 99–134.
Schwarting, W., Pierson, A., Alonso-Mora, J., Karaman, S., & Rus, D. (2019). Social behavior for autonomous vehicles. Proceedings of the National Academy of Sciences, 116(50), 24972–24978.

v1.0