부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Processes)

부분 관측 마르코프 결정 과정 (Partially Observable Markov Decision Processes)

1. 개요

부분 관측 마르코프 결정 과정(POMDP)은 MDP를 확장하여, 에이전트가 현재 상태를 직접 관측할 수 없고 확률적 관측만을 받는 환경을 모델링한다. 센서 제한이 있는 로봇 환경에서의 계획에 적합하다.

2. POMDP의 형식적 정의

\text{POMDP} = \langle S, A, P, R, \Omega, O, \gamma \rangle

MDP에 관측 집합 \Omega와 관측 확률 O(o \mid s', a)가 추가된다.

신뢰 상태 (Belief State)

현재 상태에 대한 확률 분포 b(s) = P(s \mid \text{history})를 유지하며, 이 신뢰 상태에 기반하여 행동을 결정한다.

해법의 어려움

POMDP의 최적 해는 2-EXPTIME-complete로 매우 어렵다. 근사 해법(point-based methods, online solvers)이 실무에서 사용된다.

참고 문헌

  • Kaelbling, L. P., et al. (1998). “Planning and Acting in Partially Observable Stochastic Domains.” AI, 101, 99-134.

버전날짜변경 사항
v0.12026-04-05초안 작성