6.21 확률적 추론 체계와 불확실성 하의 의사 결정 한계

1. 확률적 추론의 인식론적 위상

확률적 추론(probabilistic reasoning)은 불확실성(uncertainty) 하에서 합리적 판단을 형식화하는 수학적 체계이다. 연역적 추론이 참과 거짓의 이진적 진리값을 다루는 것과 달리, 확률적 추론은 $[0, 1]$ 구간의 연속적 확신도(degree of belief)를 다룬다. 이 전환은 형식 논리의 엄격한 이분법에서 벗어나, 부분적 지식과 불완전한 정보를 체계적으로 처리하는 프레임워크를 제공한다.

콜모고로프(Kolmogorov, 1933)의 공리적 확률론은 확률의 수학적 기초를 확립하였다. 확률 공간 $(\Omega, \mathcal{F}, P)$ 에서 $\Omega$ 는 표본 공간, $\mathcal{F}$ 는 시그마 대수(sigma-algebra), $P$ 는 확률 측도이다. 확률 측도는 다음의 세 공리를 만족한다.

$P(\Omega) = 1, \quad P(A) \geq 0, \quad P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \text{ (상호 배타적 사건)}$

이 공리적 기반 위에서, 확률적 추론은 증거에 기반한 확신도의 갱신을 베이즈 정리(Bayes’ theorem)를 통해 수행한다.

$P(H \mid E) = \frac{P(E \mid H) \cdot P(H)}{P(E)}$

여기서 $P(H)$ 는 사전 확률(prior probability), $P(E \mid H)$ 는 우도(likelihood), $P(H \mid E)$ 는 사후 확률(posterior probability)이다.

2. 확률적 추론과 연역적 추론의 구조적 차이

확률적 추론은 연역적 추론과 여러 근본적 차원에서 구별된다.

첫째, 보장의 성격이다. 연역적 추론에서 전제가 참이면 결론은 필연적으로 참이다. 확률적 추론에서 증거는 가설의 확률을 변화시킬 뿐, 가설의 진리를 확정하지 않는다. 아무리 강력한 증거도 사후 확률을 1로 만들지 못하는 경우가 일반적이다(사전 확률이 0 또는 1이 아닌 한).

둘째, 단조성의 여부이다. 연역적 추론은 단조적이나, 확률적 추론은 비단조적이다. 새로운 증거 $E'$ 의 관찰에 의해 $P(H \mid E, E')$ 는 $P(H \mid E)$ 보다 높아질 수도, 낮아질 수도 있다. 확률적 추론은 증거의 축적에 따라 확신도가 양방향으로 변동한다.

셋째, 완전성의 의미이다. 연역적 체계에서 완전성은 모든 의미론적으로 유효한 문장이 구문론적으로 증명 가능함을 의미한다. 확률적 추론 체계에서는 이에 대응하는 완전성 개념이 다른 형태를 취한다. 콕스 정리(Cox’s theorem, 1946)는 합리적 확신도 갱신이 만족해야 하는 공리로부터 확률론의 규칙을 유도하며, 이는 확률적 추론의 일종의 “완전성“을 제공한다.

3. 베이즈 네트워크와 확률적 그래프 모형

베이즈 네트워크(Bayesian network)는 확률 변수 간의 조건부 독립 관계를 방향성 비순환 그래프(directed acyclic graph, DAG)로 표현하는 확률적 그래프 모형(probabilistic graphical model)이다. Pearl(1988)이 체계화한 이 프레임워크에서, 결합 확률 분포는 그래프 구조에 따라 인수 분해된다.

$P(X_1, \ldots, X_n) = \prod_{i=1}^{n} P(X_i \mid \text{Pa}(X_i))$

여기서 $\text{Pa}(X_i)$ 는 그래프에서 $X_i$ 의 부모 노드 집합이다. 이 인수 분해는 조건부 독립 가정에 기반하며, 결합 분포의 표현과 추론을 계산적으로 효율화한다.

베이즈 네트워크에서의 추론—관찰된 증거가 주어졌을 때 질의 변수의 사후 확률 계산—은 일반적으로 NP-어렵다(Cooper, 1990). 이 계산 복잡도는 정확한 추론이 대규모 네트워크에서 실용적으로 불가능할 수 있음을 의미하며, 근사 추론 방법—마르코프 연쇄 몬테카를로(Markov chain Monte Carlo, MCMC), 변분 추론(variational inference)—이 실천적 대안으로 사용된다.

4. 확률적 추론의 계산적 한계

확률적 추론 체계의 한계는 여러 차원에서 드러난다.

정확한 추론의 난해성. 베이즈 네트워크에서의 정확한 확률 계산은 일반적으로 #P-어렵이며, 이는 NP-어렵보다 엄격히 어려운 복잡도 클래스이다. 특히, 확률의 정확한 값을 계산하는 것은 해의 존재 여부를 판정하는 것보다 더 어렵다. 이 복잡도 결과는 확률적 추론의 정확한 수행이 일반적인 경우에 계산적으로 다루기 어려움을 의미한다.

근사 추론의 한계. 근사 추론 역시 이론적 한계에 직면한다. Dagum과 Luby(1993)는 베이즈 네트워크에서 확률의 근사 계산조차 NP-어려움을 보였다. MCMC 방법은 마르코프 연쇄의 정상 분포(stationary distribution)로의 수렴을 보장하나, 수렴에 필요한 반복 횟수에 대한 일반적 상한을 제공하기 어렵다. 혼합 시간(mixing time)의 추정은 특정 분포 구조에 의존하며, 다봉 분포(multimodal distribution)에서는 수렴이 극히 느릴 수 있다.

모형 선택의 문제. 확률 모형의 구조 학습(structure learning)—데이터로부터 베이즈 네트워크의 그래프 구조를 학습하는 문제—은 NP-어렵이다(Chickering, 1996). 최적의 모형 구조 탐색이 계산적으로 불가능한 경우가 일반적이며, 이는 확률적 추론의 기반 자체에 불확실성을 도입한다.

5. 불확실성 하의 의사 결정 이론

확률적 추론과 결합된 의사 결정 이론(decision theory)은 불확실성 하에서의 합리적 행동 선택을 형식화한다. 기대 효용 이론(expected utility theory)은 각 행동 $a$ 의 가치를 가능한 결과의 효용(utility)과 그 확률의 가중 합으로 정의한다.

$EU(a) = \sum_{s} P(s) \cdot U(a, s)$

여기서 $P(s)$ 는 상태 $s$ 의 확률, $U(a, s)$ 는 상태 $s$ 에서 행동 $a$ 의 효용이다. 합리적 행동자는 기대 효용을 최대화하는 행동을 선택한다.

폰 노이만과 모르겐슈테른(von Neumann and Morgenstern, 1944)은 합리적 선호 관계가 만족해야 하는 공리—완전성, 이행성, 연속성, 독립성—로부터 기대 효용 표현의 존재를 증명하였다. 새비지(Savage, 1954)는 이를 주관적 확률 체계로 확장하여, 합리적 의사 결정자의 행동으로부터 주관적 확률과 효용 함수를 동시에 유도할 수 있음을 보였다.

6. 의사 결정 이론의 근본적 한계

기대 효용 이론은 합리적 의사 결정의 규범적(normative) 프레임워크로서 강력하나, 여러 근본적 한계를 갖는다.

확률 할당의 불확정성. 기대 효용의 계산은 상태의 확률 분포를 전제로 하나, 많은 실제적 상황에서 확률을 정확하게 할당하는 것이 불가능하다. 나이트(Knight, 1921)는 확률적으로 규정할 수 있는 위험(risk)과 확률 자체가 알려지지 않은 불확실성(uncertainty, 또는 나이트 불확실성)을 구분하였다. 엘스버그 역설(Ellsberg paradox, 1961)은 인간의 의사 결정이 나이트 불확실성에 민감하며, 기대 효용 이론의 독립성 공리를 체계적으로 위반함을 보였다.

계산적 합리성의 제약. 최적의 의사 결정은 모든 가능한 행동과 결과를 열거하고 기대 효용을 계산하는 것을 요구한다. 그러나 현실적 의사 결정 문제에서 행동 공간과 결과 공간은 방대하거나 무한하며, 최적 해의 계산은 대부분의 경우 NP-어려운 최적화 문제에 해당한다. 사이먼(Simon, 1955)의 제한된 합리성(bounded rationality) 개념은 이 계산적 제약을 인정하고, 최적화 대신 만족화(satisficing)—충분히 좋은 해의 탐색—를 합리적 전략으로 제안하였다.

순차적 의사 결정의 저주. 마르코프 결정 과정(Markov decision process, MDP)과 부분 관측 마르코프 결정 과정(partially observable MDP, POMDP)은 순차적 의사 결정을 형식화한다. POMDP에서 최적 정책의 계산은 PSPACE-어렵이며(Papadimitriou and Tsitsiklis, 1987), 이는 NP-어려움보다 엄격히 더 어렵다고 추정되는 복잡도 클래스이다. 상태 공간, 행동 공간, 시간 지평(time horizon)이 증가함에 따라 문제의 계산적 난이도는 급격히 상승한다.

7. 불완전성 정리와 확률적 추론 체계의 교차점

확률적 추론 체계와 불완전성 정리의 관계는 직접적 적용의 관계가 아니라, 개념적 유비와 간접적 제약의 관계이다.

첫째, 확률적 추론은 불완전성 정리가 적용되는 연역적 형식 체계와는 다른 인식론적 기반 위에 서 있다. 확률적 추론은 참/거짓의 확정적 판단 대신 확신도의 갱신을 수행하며, 괴델의 불완전성 정리가 전제하는 형식 체계의 구조—공리, 추론 규칙, 증명 가능성—를 직접적으로 갖추지 않는다. 이 의미에서 확률적 추론은 불완전성 정리의 직접적 적용 대상이 아니다.

둘째, 그러나 확률적 추론을 형식화하는 메타이론—확률론의 공리 체계, 기대 효용 이론의 공리적 기초—은 수학적 형식 체계이며, 이 형식 체계가 페아노 산술을 포함하는 한 불완전성 정리의 제약을 받는다. 확률적 추론의 정당성에 대한 형식적 증명은, 그 증명이 이루어지는 형식 체계의 불완전성에 의해 한계를 갖는다.

셋째, 확률적 추론 체계는 자체적인 내재적 한계를 갖는다. 이 한계는 불완전성 정리의 한계와 구조적으로 유비적이다. 불완전성 정리가 “모든 참인 명제를 증명할 수 있는 단일 형식 체계“의 불가능성을 보이듯, 확률적 추론 이론에서는 “모든 상황에서 정확한 확률 추정을 보장하는 단일 알고리즘“의 불가능성이 계산 복잡도 결과에 의해 확립된다. 두 경우 모두 보편적으로 완전한 체계의 불가능성을 각각의 영역에서 보여 준다.

8. 인공지능에서 확률적 추론의 실천적 한계

인공지능 시스템이 확률적 추론을 수행할 때의 실천적 한계는 다음과 같이 정리된다.

모형 오명세(model misspecification). 확률적 추론의 결론은 채택된 확률 모형의 정확성에 의존한다. 모형이 현실을 부정확하게 반영하면, 형식적으로는 올바른 추론이 실질적으로 잘못된 결론에 도달할 수 있다. Box(1976)의 경구—“모든 모형은 틀리지만, 일부는 유용하다(All models are wrong, but some are useful)”—는 이 한계를 포착한다.

차원의 저주(curse of dimensionality). 확률 변수의 수가 증가함에 따라 결합 확률 분포의 복잡도가 지수적으로 증가한다. $n$ 개의 이진 확률 변수의 결합 분포를 완전히 기술하려면 $2^n - 1$ 개의 파라미터가 필요하다. 이 지수적 증가는 고차원 확률적 추론을 근본적으로 제약한다.

분포 이동에 대한 취약성. 확률 모형이 학습된 분포와 실제 분포 사이의 괴리는 확률적 추론의 신뢰성을 훼손한다. 사후 확률의 보정(calibration)—모형이 $p$ 의 확률을 부여한 사건이 실제로 비율 $p$ 로 발생하는지—은 분포 이동 하에서 보장되지 않는다.

이러한 분석은 확률적 추론이 불확실성을 체계적으로 다루는 강력한 프레임워크이면서도, 계산적, 인식론적, 실천적 차원에서 고유한 한계를 갖는다는 것을 확인한다. 이 한계들은 불완전성 정리가 연역적 추론에 부과하는 한계와 구조적으로 유비적이며, 인공지능의 추론 능력에 대한 다층적 제약 구조를 구성한다.