396.92 불확실성 환경에서의 임무 의사 결정 프레임워크

1. 개요

로봇이 실제 환경에서 임무를 수행할 때, 환경의 상태, 행동의 결과, 센서의 관측 등 다양한 요소에 불확실성이 존재한다. 이러한 불확실성을 무시한 결정론적 의사 결정은 임무 실패나 안전 사고로 이어질 수 있다. 본 절에서는 불확실성을 체계적으로 처리하는 대표적 의사 결정 프레임워크를 분류하고, 각 프레임워크의 수학적 기반, 특성, 그리고 로봇 임무 관리에서의 적용을 분석한다.

2. 불확실성의 분류와 원천

2.1 불확실성의 유형

로봇 임무 관리에서 다루어야 할 불확실성은 다음과 같이 분류된다.

유형	정의	원천	처리 방법
인식론적 불확실성(Epistemic)	지식 부족에 의한 불확실성	제한된 관측, 불완전한 모델	추가 정보 수집으로 감소 가능
변동적 불확실성(Aleatoric)	현상의 본질적 무작위성	환경 변동, 행동 결과의 확률적 산포	감소 불가, 확률적 모델링
모델 불확실성(Model)	수학적 모델의 부정확성	간소화된 전이 모델, 보상 함수의 부정확	견고 최적화, 모델 학습
상대방 불확실성(Adversarial)	적대적 또는 비협조적 행위자의 행동	비협조적 에이전트, 의도적 간섭	게임 이론적 접근

2.2 불확실성의 전파

의사 결정 과정에서 불확실성은 인식 단계에서 판단 단계로, 판단 단계에서 행동 단계로 전파된다. 불확실성 전파(uncertainty propagation)의 정확한 모델링은 의사 결정의 질을 결정하는 핵심 요소이다. 선형 시스템에서 불확실성의 전파는 공분산의 전파로 표현되며, 비선형 시스템에서는 무향 변환(Unscented Transform)이나 몬테카를로 시뮬레이션이 사용된다.

3. 확률적 의사 결정 프레임워크

3.1 기대값 최적화(Expected Value Optimization)

가장 기본적인 확률적 의사 결정 기준은 기대 효용(expected utility)의 최대화이다.

$a^* = \arg\max_{a \in \mathcal{A}} \mathbb{E}_{s' \sim T(\cdot \mid s, a)}[U(s')]$

이 기준은 위험 중립적(risk-neutral) 의사 결정에 해당한다. 장기적으로 반복되는 의사 결정에서는 최적 전략이지만, 치명적 결과가 발생할 수 있는 일회적 임무에서는 위험 관리가 불충분할 수 있다.

3.2 위험 인식 의사 결정(Risk-Aware Decision Making)

3.2.1 최악 경우 최적화(Worst-Case Optimization)

불확실성 집합 $\mathcal{U}$ 내의 모든 가능한 시나리오에 대해 최악 경우의 결과를 최적화하는 보수적 접근이다.

$a^* = \arg\max_{a \in \mathcal{A}} \min_{s' \in \mathcal{U}} U(s', a)$

이 접근은 최대 안전 보장을 제공하지만, 과도하게 보수적인 결정을 유도하여 임무 수행 효율이 저하될 수 있다.

3.2.2 조건부 가치 기대(Conditional Value at Risk, CVaR)

Rockafellar와 Uryasev(2000)가 제안한 CVaR은 기대값 최적화와 최악 경우 최적화의 중간 지점을 제공하는 위험 지표이다. 신뢰 수준 $\alpha \in (0, 1]$ 에서의 CVaR은 하위 $\alpha$ 비율의 최악 결과에 대한 기대값으로 정의된다.

$\text{CVaR}_\alpha(X) = \frac{1}{\alpha} \int_0^\alpha \text{VaR}_u(X) \, du$

여기서 $\text{VaR}_u(X) = \inf\{x : P(X \leq x) \geq u\}$ 는 가치 기대(Value at Risk)이다. $\alpha = 1$ 이면 기대값과 동일하고, $\alpha \to 0$ 이면 최악 경우에 수렴한다.

CVaR 기반 임무 의사 결정은 다음과 같이 정식화된다.

$a^* = \arg\max_{a \in \mathcal{A}} \text{CVaR}_\alpha \left[ \sum_{t=0}^{H} \gamma^t R(s_t, a_t) \right]$

3.2.3 찬스 제약 최적화(Chance-Constrained Optimization)

장애물 충돌이나 비행 금지 구역 침범과 같은 안전 제약은 확률적으로 표현될 수 있다. 찬스 제약 최적화는 위반 확률이 허용 수준 $\delta$ 이하가 되도록 보장하면서 목적 함수를 최적화한다.

$\max_{a} \quad \mathbb{E}[U(a)] \quad \text{subject to} \quad P(\text{constraint violation} \mid a) \leq \delta$

이 접근은 안전성과 성능 사이의 균형을 명시적으로 조절할 수 있으며, Blackmore, Ono, Williams(2011)의 연구가 로봇 경로 계획에의 적용을 선도하였다.

4. 견고 의사 결정 프레임워크

4.1 견고 MDP(Robust MDP)

견고 MDP(Iyengar, 2005; Nilim & El Ghaoui, 2005)는 전이 확률이 정확히 알려지지 않고, 불확실성 집합 $\mathcal{P}$ 내의 임의의 모델이 참 모델일 수 있다고 가정한다. 최적 정책은 최악 모델에 대해 최적화된다.

$V^*(s) = \max_{a \in \mathcal{A}} \min_{T \in \mathcal{P}} \left[ R(s, a) + \gamma \sum_{s'} T(s' \mid s, a) V^*(s') \right]$

불확실성 집합 $\mathcal{P}$ 는 일반적으로 다음의 형태로 정의된다.

구간 모델(Interval Model): 각 전이 확률이 구간 $[T_{\min}(s' \mid s, a), T_{\max}(s' \mid s, a)]$ 내에 있다.
Kullback-Leibler 발산 기반: 명목 모델(nominal model) $\hat{T}$ 로부터의 KL 발산이 상한 이내인 모델의 집합이다.
Wasserstein 거리 기반: 명목 분포로부터의 Wasserstein 거리가 상한 이내인 분포의 집합이다.

4.2 분배적 견고 최적화(Distributionally Robust Optimization, DRO)

분배적 견고 최적화는 확률 분포 자체의 불확실성을 다루며, 모호성 집합(ambiguity set) 내의 최악 분포에 대해 최적화한다. 이 접근은 데이터 기반 모델에서 분포 추정의 오류를 체계적으로 반영할 수 있다는 장점을 갖는다.

$\max_{a} \min_{P \in \mathcal{D}} \mathbb{E}_P[U(s, a)]$

여기서 $\mathcal{D}$ 는 참 분포를 포함할 가능성이 높은 분포의 집합이다.

5. 적응적 의사 결정 프레임워크

5.1 베이즈 적응 MDP(Bayes-Adaptive MDP, BAMDP)

BAMDP(Duff, 2002)는 환경 모델에 대한 사전 신념(prior belief)을 유지하고, 상호 작용을 통해 모델에 대한 신념을 갱신하면서 동시에 최적 행동을 결정하는 프레임워크이다. 상태 공간을 환경 상태와 모델 매개변수에 대한 신념의 곱 공간으로 확장한다.

$\tilde{s} = (s, \phi)$

여기서 $\phi$ 는 전이 모델의 매개변수에 대한 사후 분포이다. BAMDP는 탐색-활용 딜레마(exploration-exploitation dilemma)를 명시적으로 다루며, 정보 수집 행동의 가치를 자동으로 추론한다.

5.2 온라인 적응 전략

실제 임무 수행 중 환경 변화에 적응하는 전략으로, 다음의 접근법이 사용된다.

슬라이딩 윈도우 모델 갱신: 최근 $W$ 개의 관측으로부터 전이 모델과 관측 모델을 재추정한다.
변화점 탐지(Change Point Detection): 환경의 통계적 특성이 급변하는 시점을 탐지하고, 탐지 시 모델을 재초기화한다.
문맥 밴딧(Contextual Bandit): 환경 특성(문맥)에 따라 최적 행동을 학습하는 프레임워크로, 비정상(non-stationary) 환경에의 적응에 활용된다.

6. 다기준 의사 결정(Multi-Criteria Decision Making)

6.1 파레토 최적 접근

임무 관리에서는 다수의 상충하는 목적(성공 확률, 소요 시간, 에너지 소비, 위험도 등)을 동시에 고려해야 한다. 파레토 최적(Pareto optimality) 관점에서, 어떤 행동이 모든 목적에 대해 다른 행동보다 열위하지 않으면서 적어도 하나의 목적에서 우위하면 파레토 지배(Pareto dominance)를 갖는다.

$a_1 \succ_P a_2 \iff \forall k: f_k(a_1) \geq f_k(a_2) \land \exists k: f_k(a_1) > f_k(a_2)$

파레토 최적 행동의 집합은 파레토 전선(Pareto front)을 형성하며, 최종 행동 선택은 운용자의 선호 함수(preference function)에 의해 결정된다.

6.2 가중합 접근

다수의 목적 함수를 가중합으로 통합하는 가장 단순한 다기준 접근이다.

$a^* = \arg\max_{a \in \mathcal{A}} \sum_{k=1}^{K} w_k \cdot f_k(a)$

여기서 $w_k > 0$ 이고 $\sum_k w_k = 1$ 이다. 가중치 $w_k$ 는 임무의 특성과 운용자의 우선순위에 따라 결정된다. 이 접근은 볼록 파레토 전선에서만 모든 최적 해를 도출할 수 있다는 한계가 있다.

6.3 사전적 우선순위 접근(Lexicographic Ordering)

목적 함수에 엄격한 우선순위를 부여하여, 상위 우선순위의 목적을 먼저 최적화하고, 동률인 경우에만 하위 목적을 고려하는 방식이다. 안전 관련 목적을 최우선으로 설정하는 임무 관리에 적합하다.

$a^* = \text{lex}\arg\max_{a} (f_1(a), f_2(a), \ldots, f_K(a))$

7. 정보 가치(Value of Information) 기반 결정

7.1 정보 가치의 정의

불확실성 환경에서 추가 정보를 획득하면 의사 결정의 질이 향상될 수 있다. 정보의 가치(Value of Information, VoI)는 정보 획득 전후의 기대 효용 차이로 정의된다.

$\text{VoI}(z) = \mathbb{E}_z\left[\max_a \mathbb{E}[U(a) \mid z]\right] - \max_a \mathbb{E}[U(a)]$

VoI가 양수이면 해당 정보의 획득이 의사 결정을 개선하며, VoI가 정보 획득 비용보다 크면 정보 수집이 합리적이다.

7.2 완전 정보의 기대 가치(EVPI)와 샘플 정보의 기대 가치(EVSI)

EVPI(Expected Value of Perfect Information): 모든 불확실성이 해소될 경우의 기대 효용 증가분이다. EVPI는 추가 정보 수집에 투입할 최대 비용의 상한을 제공한다.
EVSI(Expected Value of Sample Information): 특정 센서나 관측으로부터 얻을 수 있는 불완전 정보의 기대 가치이다.

임무 관리에서 VoI 분석은 “추가 탐색을 수행할 것인가, 현재 정보로 행동을 결정할 것인가“라는 근본적 질문에 대한 정량적 답을 제공한다.

8. 통합 프레임워크 설계 지침

8.1 프레임워크 선택 기준

환경 특성	권장 프레임워크	근거
완전 관측, 정확한 모델	MDP	계산 효율적, 최적 정책 도출 가능
부분 관측, 정확한 모델	POMDP	관측 불확실성의 체계적 처리
완전 관측, 불확실한 모델	견고 MDP / BAMDP	모델 불확실성 처리
부분 관측, 불확실한 모델	견고 POMDP / 베이즈 적응 POMDP	이중 불확실성 처리
안전 최우선	CC-MDP / CVaR-MDP	확률적 안전 보장
다목적 최적화	파레토 최적 / 가중합	상충 목적 간 균형

8.2 계층적 불확실성 처리

실용적 임무 관리 시스템에서는 단일 프레임워크로 모든 수준의 불확실성을 처리하기 어렵다. 계층적 접근에서는 각 계층에 적합한 프레임워크를 적용한다.

반응 계층: 빠른 응답이 필요하므로 규칙 기반 또는 단순 MDP를 적용한다.
실행 계층: POMDP 기반 온라인 계획을 적용한다.
숙의 계층: 견고 최적화 또는 다기준 최적화를 적용한다.

9. 참고 문헌

Rockafellar, R. T., & Uryasev, S. (2000). “Optimization of Conditional Value-at-Risk.” The Journal of Risk, 2(3), 21–41.
Iyengar, G. N. (2005). “Robust Dynamic Programming.” Mathematics of Operations Research, 30(2), 257–280.
Nilim, A., & El Ghaoui, L. (2005). “Robust Control of Markov Decision Processes with Uncertain Transition Matrices.” Operations Research, 53(5), 780–798.
Duff, M. O. (2002). Optimal Learning: Computational Procedures for Bayes-Adaptive Markov Decision Processes. Ph.D. Dissertation, University of Massachusetts Amherst.
Blackmore, L., Ono, M., & Williams, B. C. (2011). “Chance-Constrained Optimal Path Planning with Obstacles.” IEEE Transactions on Robotics, 27(6), 1080–1094.
Majumdar, A., & Pavone, M. (2020). “How Should a Robot Assess Risk? Towards an Axiomatic Theory of Risk in Robotics.” Robotics Research, Springer, 75–84.

본 절의 내용은 2025년 기준 불확실성 환경에서의 의사 결정 이론과 로봇 임무 관리 적용을 반영하였다.