행동 순서의 최적화 가능성 (Optimization Potential of Action Sequencing)

1. 개요

자율 계획의 중요한 장점 중 하나는 계획기가 비용 함수에 기반하여 최적 또는 준최적의 행동 순서를 자동으로 탐색할 수 있다는 것이다. 하드코딩 방식에서는 개발자의 직관에 의해 행동 순서가 결정되므로, 복잡한 다단계 임무에서 최적성을 보장하기 어렵다.

목표를 달성하는 데 필요한 행동의 수를 최소화한다.

$\pi^* = \arg\min_{\pi} |\pi|, \quad \text{subject to } \gamma(s_0, \pi) \in G$

각 행동에 비용이 할당된 경우, 총 비용을 최소화하는 계획을 탐색한다.

$\pi^* = \arg\min_{\pi} \sum_{a \in \pi} \text{cost}(a)$

시간적 계획에서 병렬 실행 가능한 행동을 식별하여 총 소요 시간을 최소화한다.

5개 물품을 다른 위치로 배달하는 임무에서:

자율 계획기는 비용 함수(이동 거리)를 고려하여 더 효율적인 순서를 자동으로 탐색한다.

여러 부품을 조립하는 작업에서, 부품 간 의존성(부품 A를 먼저 장착해야 부품 B 장착 가능)을 고려한 최적 순서를 자동 탐색한다.

최적 계획의 탐색은 계산 비용이 높다. 실시간 요구가 있는 경우 준최적(satisficing) 계획기를 사용하여 계산 시간을 단축한다.

비용 함수가 실제 비용을 정확히 반영하지 못하면, “최적” 계획이 실제로는 최적이 아닐 수 있다.

Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.
Helmert, M. (2006). “The Fast Downward Planning System.” JAIR, 26, 191-246.

버전	날짜	변경 사항
v0.1	2026-04-05	초안 작성