마르코프 결정 과정과 플래닝 (Markov Decision Processes and Planning)

마르코프 결정 과정과 플래닝 (Markov Decision Processes and Planning)

1. 개요

마르코프 결정 과정(Markov Decision Process, MDP)은 확률적 계획의 형식적 프레임워크로, 확률적 전이와 보상 함수를 기반으로 최적 정책을 도출한다.

2. MDP의 형식적 정의

\text{MDP} = \langle S, A, P, R, \gamma \rangle

요소설명
S상태 집합
A행동 집합
P(s' \mid s, a)전이 확률
R(s, a)보상 함수
\gamma할인 인자 (0 \leq \gamma < 1)

최적 정책

최적 정책 \pi^*는 기대 누적 보상을 최대화한다.

\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t, \pi(s_t))\right]

3. 해법

3.1 가치 반복 (Value Iteration)

V_{k+1}(s) = \max_a \left[R(s,a) + \gamma \sum_{s'} P(s' \mid s,a) V_k(s')\right]

정책 반복 (Policy Iteration)

  1. 정책 평가: 현재 정책의 가치 함수 계산
  2. 정책 개선: 가치 함수에 기반하여 정책 갱신

로봇 공학에서의 MDP

파지 성공 확률, 이동 오차, 센서 잡음 등의 불확실성을 MDP로 모델링하여 강건한 행동 정책을 도출한다.

참고 문헌

  • Puterman, M. L. (1994). Markov Decision Processes. Wiley.
  • Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.

버전날짜변경 사항
v0.12026-04-05초안 작성