8.95 로봇 의사 결정을 위한 확률 모델

1. 확률론적 의사 결정의 필요성

로봇 시스템은 불확실성이 만연한 환경에서 행동해야 한다. 센서 잡음, 모델 불확실성, 환경의 예측 불가능성, 다른 에이전트의 행동 등이 의사 결정 과정에 불확실성을 야기한다. 확률 모델에 기반한 의사 결정은 이러한 불확실성을 체계적으로 처리하여, 기대값 관점에서 최적의 행동을 선택한다.

2. 의사 결정 이론의 기본 틀

2.1 구성 요소

상태 집합 $\mathcal{S}$ : 가능한 세계 상태의 집합
행동 집합 $\mathcal{A}$ : 에이전트가 선택 가능한 행동의 집합
전이 모델 $P(s' \vert s, a)$ : 상태와 행동에 따른 다음 상태의 분포
보상 함수 $R(s, a)$ 또는 $R(s, a, s')$ : 행동의 직접적 가치
정책 $\pi: \mathcal{S} \to \mathcal{A}$ (또는 $\pi(a \vert s)$ ): 상태에서 행동으로의 사상

2.2 기대 효용 최대화(Expected Utility Maximization)

합리적 의사 결정의 기본 원리는 기대 효용을 최대화하는 것이다.

$\pi^* = \arg\max_\pi \mathbb{E}^\pi[U]$

여기서 $U$ 는 효용(utility) 또는 누적 보상이다.

3. 마르코프 결정 과정(MDP)

3.1 정식화

완전 관측 가능한 환경에서의 순차적 의사 결정 문제이다. 할인된 누적 보상을 최대화한다.

$\max_\pi \mathbb{E}^\pi\left[\sum_{t=0}^{\infty}\gamma^t R(s_t, a_t)\right]$

3.2 가치 함수

상태 가치 함수:

$V^\pi(s) = \mathbb{E}^\pi[G_t \vert s_t = s]$

행동 가치 함수(Q-함수):

$Q^\pi(s, a) = \mathbb{E}^\pi[G_t \vert s_t = s, a_t = a]$

3.3 최적 정책

$\pi^*(s) = \arg\max_a Q^*(s, a)$

4. 부분 관측 마르코프 결정 과정(POMDP)

4.1 정의

상태를 직접 관측할 수 없고, 관측 모델 $O(o \vert s, a)$ 를 통해 상태의 부분 정보만 얻는 경우이다. 로봇 공학의 현실적 상황을 더 정확히 반영한다.

4.2 믿음 상태(Belief State)

POMDP에서 에이전트는 상태 대신 상태에 대한 확률 분포(믿음)를 유지한다.

$b(s) = p(s \vert h)$

여기서 $h$ 는 지금까지의 행동과 관측 이력이다. 믿음은 베이즈 필터에 의해 갱신된다.

4.3 믿음 MDP

POMDP는 믿음 공간에서의 MDP로 변환될 수 있다. 상태가 연속(믿음 확률)이므로 계산적으로 도전적이지만, 이론적으로 잘 정의된 프레임워크이다.

$V^*(b) = \max_a\left[\mathbb{E}_{s \sim b}[R(s, a)] + \gamma \int P(b' \vert b, a)V^*(b') \, db'\right]$

5. 근사 POMDP 해법

5.1 격자 기반 방법

믿음 공간을 이산 격자로 근사하고 각 격자점에서 가치 함수를 저장한다.

5.2 점 기반 가치 반복(Point-Based Value Iteration, PBVI)

대표적인 믿음 집합에서 가치 함수를 유지하여 차원의 저주를 완화한다.

5.3 몬테카를로 트리 탐색(MCTS)

믿음 공간에서 온라인 탐색을 수행하는 POMCP, DESPOT 등의 알고리즘이 대규모 POMDP에 적용된다.

6. 확률적 동적 계획법(Stochastic Dynamic Programming)

벨만 방정식의 확률론적 버전이다.

$V^*(s) = \max_a\mathbb{E}_{s' \sim P(\cdot \vert s, a)}[R(s, a, s') + \gamma V^*(s')]$

가치 반복(value iteration)과 정책 반복(policy iteration)이 기본 해법이다.

7. 확률적 경로 계획

7.1 불확실성 하의 경로 계획

환경 또는 로봇 상태의 불확실성을 고려한 경로 계획 문제이다. 확률적 로드맵(PRM), RRT* 등의 샘플링 기반 방법과 POMDP 기반 방법이 사용된다.

7.2 확률적 충돌 회피

기회 제약(chance constraint) 기반 경로 계획에서 충돌 확률이 사전 설정 임계값 이하인 궤적을 찾는다.

$\min_u J(u), \quad \text{s.t.} \quad P(\text{collision}) \leq \delta$

8. 다중 에이전트 확률 의사 결정

8.1 분산 POMDP(Dec-POMDP)

다수의 에이전트가 부분 관측하에서 협력적으로 행동하는 모델이다. 상호 작용의 복잡성으로 인해 일반적으로 NEXP-완전 문제이다.

8.2 확률적 게임 이론

다수의 에이전트가 상충적 또는 협력적 관계를 가질 때 적용된다. 로봇-인간 상호 작용, 자율 주행 차량의 다른 에이전트와의 상호 작용 등에 활용된다.

9. 로봇 공학에서의 응용

자율 주행: POMDP 기반 자율 주행 의사 결정은 다른 차량과 보행자의 의도 불확실성을 모델링한다.

보조 로봇: 인간-로봇 상호작용에서 인간의 의도를 부분 관측하는 POMDP로 정식화한다.

수색 및 구조: 표적 탐색에서 표적 위치의 확률 분포를 추적하고 정보 이득이 가장 큰 영역을 탐색한다.

환경 모니터링: 확률 모델에 기반한 센서 네트워크의 활성화와 데이터 수집 의사 결정이다.

10. 참고 문헌

Kochenderfer, M. J. (2015). Decision Making Under Uncertainty: Theory and Application. MIT Press.
Puterman, M. L. (2014). Markov Decision Processes: Discrete Stochastic Dynamic Programming. Wiley.
Kaelbling, L. P., Littman, M. L., & Cassandra, A. R. (1998). “Planning and Acting in Partially Observable Stochastic Domains.” Artificial Intelligence, 101(1-2), 99–134.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.

version: 1.0