부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Processes)

1. 개요

부분 관측 마르코프 결정 과정(POMDP)은 MDP를 확장하여, 에이전트가 현재 상태를 직접 관측할 수 없고 확률적 관측만을 받는 환경을 모델링한다. 센서 제한이 있는 로봇 환경에서의 계획에 적합하다.

$\text{POMDP} = \langle S, A, P, R, \Omega, O, \gamma \rangle$

MDP에 관측 집합 $\Omega$ 와 관측 확률 $O(o \mid s', a)$ 가 추가된다.

현재 상태에 대한 확률 분포 $b(s) = P(s \mid \text{history})$ 를 유지하며, 이 신뢰 상태에 기반하여 행동을 결정한다.

POMDP의 최적 해는 2-EXPTIME-complete로 매우 어렵다. 근사 해법(point-based methods, online solvers)이 실무에서 사용된다.

Kaelbling, L. P., et al. (1998). “Planning and Acting in Partially Observable Stochastic Domains.” AI, 101, 99-134.

버전	날짜	변경 사항
v0.1	2026-04-05	초안 작성