397.3 행동 계획 및 경로 계획과의 차이와 연관성
1. 개요
로봇 공학에서 계획(Planning)은 다양한 추상화 수준(Abstraction Level)에서 수행되며, 각 수준은 고유한 문제 정의, 해결 기법, 표현 방식을 갖는다. 임무 계획(Mission Planning), 행동 계획(Behavior Planning), 경로 계획(Path Planning)은 자율 로봇 시스템의 의사 결정 체계에서 서로 다른 역할을 수행하면서도 긴밀하게 연관되어 있다. 이 절에서는 세 가지 계획 유형 간의 개념적 차이를 명확히 하고, 이들 간의 상호 의존 관계와 통합 방법론을 분석한다.
2. 세 가지 계획 유형의 정의
2.1 임무 계획 (Mission Planning)
임무 계획은 로봇 시스템이 “무엇을(What)”, “언제(When)”, “어떤 자원으로(With what resources)” 수행할 것인지를 결정하는 최상위 수준의 계획이다. 임무 계획은 전체 임무의 목표 설정, 하위 작업의 구조화, 자원 배분, 시간 제약 관리 등을 포괄하며, 주로 이산적(Discrete) 또는 혼합(Hybrid) 상태 공간에서 운용된다 (Ghallab et al., 2004).
임무 계획의 출력은 고수준 행동 순서(High-Level Action Sequence)이며, 이는 다음과 같이 표현된다.
\sigma_M = \langle \tau_1, \tau_2, \ldots, \tau_n \rangle
여기서 \tau_i는 i번째 하위 작업(Sub-task)을 나타낸다.
2.2 행동 계획 (Behavior Planning)
행동 계획은 로봇이 “어떻게 행동할 것인지(How to behave)“를 결정하는 중간 수준의 계획이다. 행동 계획은 주어진 상황(Context)에서 로봇이 어떤 행동 양식(Behavior Pattern)을 선택하고 전환할 것인지를 결정한다. 행동 계획에서는 유한 상태 기계(Finite State Machine, FSM), 행동 트리(Behavior Tree, BT), 또는 반응적 아키텍처(Reactive Architecture)가 대표적인 구현 메커니즘으로 활용된다 (Colledanchise & Ögren, 2018).
행동 계획의 핵심은 상태-행동 매핑(State-Behavior Mapping)으로, 이는 다음과 같은 정책 함수(Policy Function)로 표현된다.
\pi_B: \mathcal{S}_{\text{context}} \rightarrow \mathcal{B}
여기서 \mathcal{S}_{\text{context}}는 상황 상태 공간(Contextual State Space), \mathcal{B}는 가용 행동 양식의 집합을 나타낸다.
2.3 경로 계획 (Path Planning)
경로 계획은 로봇이 “어디로 이동할 것인지(Where to move)“를 결정하는 최하위 수준의 계획이다. 경로 계획은 로봇의 현재 구성(Configuration) q_{\text{start}}에서 목표 구성 q_{\text{goal}}까지 장애물을 회피하는 기하학적 경로(Geometric Path)를 생성한다 (LaValle, 2006).
경로 계획 문제는 구성 공간(Configuration Space) \mathcal{C}에서 다음과 같이 정식화 된다.
\text{Find} \quad p: [0, 1] \rightarrow \mathcal{C}_{\text{free}}
\text{where} \quad p(0) = q_{\text{start}}, \quad p(1) = q_{\text{goal}}
여기서 \mathcal{C}_{\text{free}} = \mathcal{C} \setminus \mathcal{C}_{\text{obs}}는 자유 구성 공간(Free Configuration Space), \mathcal{C}_{\text{obs}}는 장애물이 차지하는 구성 공간을 나타낸다.
3. 세 가지 계획 유형의 비교 분석
3.1 추상화 수준의 차이
세 가지 계획 유형은 추상화 수준에서 명확한 계층 구조를 형성한다. 다음 표는 주요 차이점을 정리한 것이다.
| 비교 항목 | 임무 계획 | 행동 계획 | 경로 계획 |
|---|---|---|---|
| 추상화 수준 | 최상위 (High-Level) | 중간 (Mid-Level) | 최하위 (Low-Level) |
| 핵심 질문 | 무엇을, 언제, 어떤 자원으로? | 어떻게 행동할 것인가? | 어디로 이동할 것인가? |
| 상태 공간 | 이산적/혼합 | 이산적/연속적 | 연속적/이산화 |
| 시간 지평 | 장기 (Long-Horizon) | 중기 (Medium-Horizon) | 단기 (Short-Horizon) |
| 불확실성 처리 | MDP, POMDP | FSM 전이, BT 조건 | 확률적 로드맵, 재계획 |
| 출력 | 작업 순서, 자원 배분 | 행동 선택, 전환 규칙 | 기하학적 경로, 궤적 |
| 대표 기법 | PDDL, HTN, MILP | FSM, BT, Subsumption | RRT, PRM, A* |
| 계산 복잡도 | PSPACE-complete | 상태 수에 비례 | 구성 공간 차원에 의존 |
3.2 상태 표현의 차이
세 가지 계획 유형에서 사용하는 상태 표현(State Representation)은 근본적으로 다르다.
임무 계획에서의 상태는 논리적 명제(Logical Propositions)의 집합으로 표현되는 경우가 많다.
s_M = \{\text{at}(\text{robot}, \text{A}), \text{inspected}(\text{B}), \neg\text{delivered}(\text{C})\}
행동 계획에서의 상태는 현재 실행 중인 행동과 환경의 상황 정보를 포함한다.
s_B = (\text{current\_behavior}, \text{context\_variables})
경로 계획에서의 상태는 로봇의 기하학적 구성(Configuration)으로 표현된다.
s_P = q = (x, y, \theta) \in \mathbb{R}^2 \times SO(2)
3.3 목적 함수의 차이
각 계획 유형의 목적 함수는 최적화하고자 하는 대상이 상이하다.
임무 계획의 목적 함수는 임무 수준의 성능 지표를 최적화한다.
J_M = \sum_{i=1}^{n} w_i \cdot f_i(\sigma_M)
여기서 f_i는 임무 달성율, 자원 소비, 임무 수행 시간 등 다양한 성능 지표를 나타낸다.
행동 계획의 목적 함수는 행동 선택의 적절성을 평가한다.
J_B = \sum_{t=0}^{T} r(s_t, b_t)
여기서 b_t는 시각 t에서 선택된 행동, r(s_t, b_t)는 상태-행동 쌍에 대한 보상(Reward)이다.
경로 계획의 목적 함수는 경로의 기하학적 품질을 최적화한다.
J_P = \int_0^1 \|p'(\tau)\| d\tau + \lambda \int_0^1 \|p''(\tau)\|^2 d\tau
여기서 첫 번째 항은 경로 길이(Path Length), 두 번째 항은 경로의 곡률(Curvature)에 대한 벌칙 항이며, \lambda는 가중치이다.
4. 세 가지 계획 유형의 연관성
4.1 계층적 의존 관계
세 가지 계획 유형은 다음과 같은 계층적 의존 관계(Hierarchical Dependency)를 갖는다.
\text{Mission Planning} \xrightarrow{\text{generates}} \text{Task Sequence} \xrightarrow{\text{specifies}} \text{Behavior Selection} \xrightarrow{\text{triggers}} \text{Path Planning}
임무 계획이 생성한 작업 순서는 행동 계획의 입력으로 제공되고, 행동 계획이 선택한 행동은 경로 계획의 목표 지점과 경로 제약을 결정한다. 이러한 하향식(Top-Down) 정보 흐름과 더불어, 하위 수준에서 상위 수준으로의 상향식(Bottom-Up) 피드백도 존재한다. 경로 계획의 실패나 예상치 못한 장애물 발견은 행동 계획의 행동 전환을 유발하고, 이는 다시 임무 계획의 재계획(Replanning)을 촉발할 수 있다.
4.2 정보 흐름의 양방향성
세 가지 계획 유형 간의 정보 흐름은 단순한 단방향이 아닌 양방향(Bidirectional)이다.
하향식 정보 흐름 (Top-Down):
- 임무 계획 → 행동 계획: 수행할 작업과 그 순서, 시간 제약 전달
- 행동 계획 → 경로 계획: 목표 지점, 이동 제약, 회피 영역 전달
상향식 정보 흐름 (Bottom-Up):
- 경로 계획 → 행동 계획: 경로 실행 가능성(Feasibility), 예상 소요 시간, 장애물 정보 피드백
- 행동 계획 → 임무 계획: 작업 완료 상태, 예상치 못한 사건 보고, 자원 상태 갱신
이러한 양방향 정보 흐름은 시스템의 반응성(Reactivity)과 적응성(Adaptability)을 향상시킨다.
4.3 통합 계획 접근법
세 가지 계획 유형을 독립적으로 운용하는 전통적인 접근법의 한계를 극복하기 위하여, 계획 유형 간의 통합(Integration)을 추구하는 연구가 활발히 진행되고 있다.
**작업-동작 계획(Task and Motion Planning, TAMP)**은 작업 계획과 경로/동작 계획을 통합적으로 수행하는 대표적인 프레임워크이다 (Garrett et al., 2021). TAMP에서는 작업 수준의 논리적 계획과 동작 수준의 기하학적 실행 가능성을 동시에 고려하여, 논리적으로 유효하면서 기하학적으로 실현 가능한 계획을 생성한다.
TAMP의 일반적인 형식화는 다음과 같다.
\text{Find} \quad (\sigma, \mathbf{p})
\text{such that} \quad \sigma = \langle a_1, \ldots, a_n \rangle \text{ is logically valid}
\text{and} \quad \mathbf{p} = \langle p_1, \ldots, p_n \rangle \text{ is geometrically feasible}
여기서 \sigma는 행동 순서, \mathbf{p}는 각 행동에 대응하는 경로 또는 동작의 순서이다.
행동 트리 기반 통합은 행동 트리의 구조적 특성을 활용하여 임무 계획과 행동 선택을 단일 프레임워크 내에서 통합하는 방법이다 (Colledanchise & Ögren, 2018). 행동 트리의 상위 노드가 임무 수준의 구조를 반영하고, 하위 노드가 구체적인 행동과 경로 계획을 캡슐화함으로써 자연스러운 계층적 통합이 가능하다.
강화 학습 기반 통합은 심층 강화 학습(Deep Reinforcement Learning)을 활용하여 다양한 추상화 수준의 계획을 단일 정책 네트워크(Policy Network) 내에서 학습하는 접근법이다. 옵션 프레임워크(Options Framework)나 계층적 강화 학습(Hierarchical Reinforcement Learning, HRL)이 대표적인 기법으로, 고수준 정책과 저수준 정책을 동시에 학습한다 (Nachum et al., 2018).
\pi_{\text{high}}(o \mid s) \cdot \pi_{\text{low}}(a \mid s, o) \rightarrow \text{Unified Policy}
여기서 o \in \mathcal{O}는 옵션(고수준 행동), \pi_{\text{high}}은 고수준 정책, \pi_{\text{low}}는 저수준 정책이다.
5. 실제 시스템에서의 계획 간 상호작용
실제 자율 로봇 시스템에서는 세 가지 계획 유형 간의 상호작용이 비동기적(Asynchronous)으로 이루어지는 경우가 많다. 임무 계획은 비교적 긴 주기(수 초에서 수 분)로 갱신되는 반면, 행동 계획은 중간 주기(수百 밀리초에서 수 초)로, 경로 계획은 짧은 주기(수십 밀리초)로 갱신된다. 이러한 시간적 분리(Temporal Decoupling)는 각 계획 모듈이 독립적으로 작동하면서도 전체적인 일관성(Consistency)을 유지할 수 있게 한다.
f_{\text{mission}} \ll f_{\text{behavior}} \ll f_{\text{path}}
여기서 f_{\text{mission}}, f_{\text{behavior}}, f_{\text{path}}는 각각 임무 계획, 행동 계획, 경로 계획의 갱신 주파수(Update Frequency)를 나타낸다.
6. 참고 문헌
- Ghallab, M., Nau, D., & Traverso, P. (2004). Automated Planning: Theory and Practice. Elsevier.
- Colledanchise, M., & Ögren, P. (2018). Behavior Trees in Robotics and AI: An Introduction. CRC Press.
- LaValle, S. M. (2006). Planning Algorithms. Cambridge University Press.
- Garrett, C. R., Lozano-Pérez, T., & Kaelbling, L. P. (2021). Integrated task and motion planning. Annual Review of Control, Robotics, and Autonomous Systems, 4, 265-293.
- Nachum, O., Gu, S., Lee, H., & Levine, S. (2018). Data-efficient hierarchical reinforcement learning. Advances in Neural Information Processing Systems (NeurIPS), 31.
버전: 2026-03-24 v1.0