마르코프 결정 과정과 플래닝 (Markov Decision Processes and Planning)

1. 개요

마르코프 결정 과정(Markov Decision Process, MDP)은 확률적 계획의 형식적 프레임워크로, 확률적 전이와 보상 함수를 기반으로 최적 정책을 도출한다.

$\text{MDP} = \langle S, A, P, R, \gamma \rangle$

최적 정책 $\pi^*$ 는 기대 누적 보상을 최대화한다.

$\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t, \pi(s_t))\right]$

$V_{k+1}(s) = \max_a \left[R(s,a) + \gamma \sum_{s'} P(s' \mid s,a) V_k(s')\right]$

파지 성공 확률, 이동 오차, 센서 잡음 등의 불확실성을 MDP로 모델링하여 강건한 행동 정책을 도출한다.

Puterman, M. L. (1994). Markov Decision Processes. Wiley.
Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.

버전	날짜	변경 사항
v0.1	2026-04-05	초안 작성