AI 플래닝과 기계 학습의 융합 (Convergence of AI Planning and Machine Learning)

1. 개요

AI 플래닝과 기계 학습(Machine Learning, ML)의 융합은 양 분야의 상호 보완적 강점을 결합하여, 계획 시스템의 효율성과 적용 범위를 확장하는 활발한 연구 방향이다. 기계 학습은 도메인 모델의 자동 획득, 휴리스틱 함수의 학습, 계획기 선택의 자동화 등에 기여하며, 플래닝은 기계 학습의 구조적 추론 능력과 해석 가능성을 보완한다.

2. 기계 학습이 플래닝에 기여하는 방향

2.1 도메인 모델의 학습

로봇의 행동 관측 데이터로부터 PDDL 도메인 모델(행동의 전제 조건과 효과)을 자동으로 학습한다. 수작업 도메인 모델링의 비용과 오류를 줄인다.

학습 대상	방법	대표 연구
행동 전제 조건	상태 전이 관측에서 귀납적 학습	ARMS (Yang et al., 2007)
행동 효과	행동 전후 상태 차이 분석	LOCM (Cresswell et al., 2013)
완전한 PDDL 도메인	관측 시퀀스에서 학습	ASCoL (Aineto et al., 2019)

2.2 휴리스틱 함수의 학습

계획 문제의 구조적 특성으로부터 도메인 특화 휴리스틱을 학습한다. 삭제 완화 등의 도메인 독립 휴리스틱보다 더 정확한 비용 추정이 가능하다.

$h_{\text{learned}}(s) = f_\theta(s, G)$

여기서 $f_\theta$ 는 상태 $s$ 와 목표 $G$ 를 입력으로 받아 목표까지의 추정 비용을 출력하는 학습된 함수(신경망 등)이다.

계획기 선택의 자동화

문제의 특성에 따라 최적의 계획기를 자동으로 선택하는 알고리즘 포트폴리오(algorithm portfolio) 기법이다. IPC 벤치마크 데이터로부터 문제 특징과 계획기 성능의 관계를 학습한다.

계획 탐색 전략의 학습

강화 학습을 통해 계획 탐색의 노드 선택 전략(어떤 상태를 먼저 확장할 것인가)을 학습한다.

플래닝이 기계 학습에 기여하는 방향

강화 학습의 탐색 효율 개선

플래닝의 상태 공간 탐색 기법을 강화 학습에 적용하여, 탐색 효율을 높인다. AlphaGo(Silver et al., 2016)의 몬테카를로 트리 탐색(MCTS)이 대표적 사례이다.

기호적 추론 능력 제공

신경망의 연속적 표현에 기호적 추론(symbolic reasoning) 능력을 추가하여, 해석 가능하고 일반화 가능한 의사 결정을 구현한다.

안전 보장

기계 학습 기반 정책의 안전성을 플래닝의 형식적 검증 기법으로 사전에 검증하거나, 실행 시 안전 제약을 보장한다.

주요 융합 접근

신경-기호 플래닝 (Neuro-Symbolic Planning)

신경망과 기호적 계획기를 결합하여, 센서 입력으로부터 기호적 상태를 추출하고 계획을 생성한다.

[센서 데이터] → [신경망: 상태 인식] → [기호적 상태] → [PDDL 계획기] → [계획]

대규모 언어 모델과 플래닝

LLM(Large Language Model)의 세계 지식을 플래닝에 활용하여, PDDL 도메인을 자동 생성하거나 자연어 목표를 PDDL 목표로 변환한다.

접근	설명
LLM → PDDL	LLM이 자연어 명령을 PDDL로 변환
LLM as Planner	LLM이 행동 순서를 직접 생성
LLM + Verifier	LLM 생성 계획을 PDDL 검증기로 검증

모방 학습과 플래닝

전문가의 시연(demonstration)으로부터 태스크 분해 전략을 학습하여, HTN 메서드를 자동으로 생성한다.

현재의 한계와 전망

한계	전망
학습된 모델의 정확도 미보장	온라인 학습에 의한 점진적 개선
학습 데이터의 대량 요구	시뮬레이션 기반 데이터 생성
안전성 보장의 어려움	형식 검증과의 통합
LLM의 환각(hallucination)	계획 검증기에 의한 필터링

참고 문헌

Jiménez, S., et al. (2012). “A Review of Machine Learning for Automated Planning.” Knowledge Engineering Review, 27(4), 433-467.
Yang, Q., Wu, K., & Jiang, Y. (2007). “Learning Action Models from Plan Examples Using Weighted MAX-SAT.” Artificial Intelligence, 171(2-3), 107-143.
Silver, D., et al. (2016). “Mastering the Game of Go with Deep Neural Networks and Tree Search.” Nature, 529, 484-489.
Huang, W., et al. (2022). “Language Models as Zero-Shot Planners.” ICML 2022.
Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.

버전	날짜	변경 사항
v0.1	2026-04-05	초안 작성