부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Processes)
1. 개요
부분 관측 마르코프 결정 과정(POMDP)은 MDP를 확장하여, 에이전트가 현재 상태를 직접 관측할 수 없고 확률적 관측만을 받는 환경을 모델링한다. 센서 제한이 있는 로봇 환경에서의 계획에 적합하다.
2. POMDP의 형식적 정의
\text{POMDP} = \langle S, A, P, R, \Omega, O, \gamma \rangle
MDP에 관측 집합 \Omega와 관측 확률 O(o \mid s', a)가 추가된다.
신뢰 상태 (Belief State)
현재 상태에 대한 확률 분포 b(s) = P(s \mid \text{history})를 유지하며, 이 신뢰 상태에 기반하여 행동을 결정한다.
해법의 어려움
POMDP의 최적 해는 2-EXPTIME-complete로 매우 어렵다. 근사 해법(point-based methods, online solvers)이 실무에서 사용된다.
참고 문헌
- Kaelbling, L. P., et al. (1998). “Planning and Acting in Partially Observable Stochastic Domains.” AI, 101, 99-134.
| 버전 | 날짜 | 변경 사항 |
|---|---|---|
| v0.1 | 2026-04-05 | 초안 작성 |