마르코프 결정 과정과 플래닝 (Markov Decision Processes and Planning)
1. 개요
마르코프 결정 과정(Markov Decision Process, MDP)은 확률적 계획의 형식적 프레임워크로, 확률적 전이와 보상 함수를 기반으로 최적 정책을 도출한다.
2. MDP의 형식적 정의
\text{MDP} = \langle S, A, P, R, \gamma \rangle
| 요소 | 설명 |
|---|---|
| S | 상태 집합 |
| A | 행동 집합 |
| P(s' \mid s, a) | 전이 확률 |
| R(s, a) | 보상 함수 |
| \gamma | 할인 인자 (0 \leq \gamma < 1) |
최적 정책
최적 정책 \pi^*는 기대 누적 보상을 최대화한다.
\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R(s_t, \pi(s_t))\right]
3. 해법
3.1 가치 반복 (Value Iteration)
V_{k+1}(s) = \max_a \left[R(s,a) + \gamma \sum_{s'} P(s' \mid s,a) V_k(s')\right]
정책 반복 (Policy Iteration)
- 정책 평가: 현재 정책의 가치 함수 계산
- 정책 개선: 가치 함수에 기반하여 정책 갱신
로봇 공학에서의 MDP
파지 성공 확률, 이동 오차, 센서 잡음 등의 불확실성을 MDP로 모델링하여 강건한 행동 정책을 도출한다.
참고 문헌
- Puterman, M. L. (1994). Markov Decision Processes. Wiley.
- Ghallab, M., Nau, D., & Traverso, P. (2016). Automated Planning and Acting. Cambridge University Press.
| 버전 | 날짜 | 변경 사항 |
|---|---|---|
| v0.1 | 2026-04-05 | 초안 작성 |