6.22 베이지안 모형의 사전 확률 설정에서의 주관성 문제

1. 사전 확률의 역할과 인식론적 지위

베이지안 추론(Bayesian inference)에서 사전 확률(prior probability) $P(H)$ 는 데이터를 관찰하기 이전에 가설 $H$ 에 대해 갖는 확신도를 정량적으로 표현한다. 베이즈 정리에 의한 사후 확률 갱신은 사전 확률에 본질적으로 의존한다.

$P(H \mid D) = \frac{P(D \mid H) \cdot P(H)}{P(D)}$

동일한 데이터 $D$ 와 우도 함수 $P(D \mid H)$ 가 주어지더라도, 사전 확률 $P(H)$ 의 선택에 따라 사후 확률 $P(H \mid D)$ 는 상이한 값을 가진다. 사전 확률은 베이지안 추론의 출발점이며, 추론 결과에 대한 구조적 영향력을 행사한다. 이 영향력이 사전 확률의 주관성 문제의 핵심이다.

빈도주의(frequentism)는 확률을 무한 반복 시행에서의 상대 빈도의 극한으로 정의하며, 사전 확률의 설정을 필요로 하지 않는다. 이 관점에서 사전 확률은 과학적 객관성을 훼손하는 주관적 요소이다. 반면, 주관적 베이지안주의(subjective Bayesianism)는 확률을 합리적 행위자의 확신도로 해석하며, 사전 확률의 주관성을 인식론적 정직성의 표현으로 본다. 드 피네티(de Finetti, 1937)는 확률의 주관적 해석을 공리적으로 정당화하였으며, 주관적 확률이 네덜란드 책(Dutch book)—확실한 손해를 초래하는 도박 조합—을 방지하기 위해 확률론의 공리를 만족해야 함을 보였다.

2. 사전 확률 선택의 비유일성

사전 확률의 주관성 문제는 동일한 문제에 대해 합리적이라고 간주될 수 있는 서로 다른 사전 확률이 다수 존재한다는 비유일성(non-uniqueness)에서 비롯된다.

연속 파라미터 $\theta$ 에 대한 베이지안 추론을 고려하자. 두 연구자가 동일한 데이터를 관찰하되 서로 다른 사전 분포 $\pi_1(\theta)$ 와 $\pi_2(\theta)$ 를 사용하면, 각각 상이한 사후 분포 $\pi_1(\theta \mid D)$ 와 $\pi_2(\theta \mid D)$ 를 얻는다. 데이터의 양이 충분하면 사후 분포는 사전 분포에 무관하게 수렴하는 경향이 있으나(번스타인-폰 미제스 정리, Bernstein-von Mises theorem), 이 수렴은 무한 데이터의 극한에서 성립하는 점근적(asymptotic) 결과이며, 유한한 데이터에서는 사전 확률의 영향이 잔존한다.

특히, 데이터가 희소하거나 사전 확률이 강한 정보를 담는 경우(informative prior), 사후 확률에 대한 사전 확률의 영향은 지배적일 수 있다. 이 상황은 인공지능 시스템에서 특히 문제적이다. 학습 데이터가 부족한 영역에서의 의사 결정이나, 극단적 사건(rare event)에 대한 확률 추정에서 사전 확률의 선택이 결과를 실질적으로 결정하기 때문이다.

3. 무정보 사전 확률의 시도와 한계

사전 확률의 주관성을 제거하려는 시도로 무정보 사전 확률(non-informative prior, 또는 객관적 사전 확률)이 제안되었다. 핵심 아이디어는 데이터에 대해 최소한의 사전 정보를 부과하는 사전 분포를 구성하는 것이다.

**라플라스의 불충분 이유 원리(principle of insufficient reason)**는 가설들을 구분할 이유가 없을 때 균등 분포를 부여하는 것이다. 유한한 가설 집합 $\{H_1, \ldots, H_n\}$ 에 대해 $P(H_i) = 1/n$ 으로 설정한다. 그러나 이 원리는 파라미터화에 의존하는 심각한 문제를 갖는다. 파라미터 $\theta$ 에 대한 균등 분포는 $\theta$ 의 비선형 변환 $\phi = g(\theta)$ 에 대해 균등하지 않다. 따라서 어떤 파라미터화를 선택하느냐에 따라 “균등“의 의미가 달라지며, 이는 주관성을 제거하려는 시도가 파라미터화의 선택이라는 새로운 주관적 요소를 도입함을 의미한다.

**제프리스 사전 확률(Jeffreys prior)**은 파라미터 재매개변수화(reparameterization)에 불변인 사전 분포를 제공한다. 피셔 정보 행렬(Fisher information matrix) $I(\theta)$ 에 기반하여 다음과 같이 정의된다.

$\pi_J(\theta) \propto \sqrt{\det I(\theta)}$

여기서

$I(\theta)_{ij} = -E\left[\frac{\partial^2 \log P(D \mid \theta)}{\partial \theta_i \partial \theta_j}\right]$

이다. 제프리스 사전 확률은 재매개변수화 불변성이라는 중요한 속성을 갖지만, 다변량(multivariate) 경우에서 비정칙(improper)—적분값이 발산하는—사전 분포를 초래할 수 있으며, 이 경우 사후 분포의 적정성(propriety)이 보장되지 않는다.

**최대 엔트로피 사전 확률(maximum entropy prior)**은 주어진 제약 조건 하에서 정보 엔트로피를 최대화하는 분포를 사전 확률로 사용한다. Jaynes(1957)가 제안한 이 접근은 정보 이론적 관점에서 가장 “편향 없는” 분포를 선택하려는 시도이다. 그러나 제약 조건의 선택 자체가 주관적 판단을 요구하며, 이는 주관성을 완전히 제거하지 못한다.

4. 참조 사전 확률과 객관적 베이지안주의

Bernardo(1979)와 Berger(1985)로 대표되는 객관적 베이지안주의(objective Bayesianism)는 데이터와 사전 확률 사이의 정보 이론적 관계를 기반으로 참조 사전 확률(reference prior)을 구성한다. 참조 사전 확률은 사전 확률과 사후 확률 사이의 쿨백-라이블러 발산(Kullback-Leibler divergence)을 최대화하는 분포로 정의된다.

$\pi_R(\theta) = \arg\max_{\pi} E_D\left[D_{KL}(\pi(\theta \mid D) \| \pi(\theta))\right]$

이 정의의 직관은 데이터가 사전 확률에 대해 최대한의 정보를 제공하도록 사전 확률을 설정하는 것이다. 참조 사전 확률은 제프리스 사전 확률의 일반화이며, 누이슨스 파라미터(nuisance parameter)의 존재 하에서도 일관된 무정보 사전 확률을 제공한다.

그러나 객관적 베이지안주의에 대해서도 근본적 비판이 존재한다. “객관적” 사전 확률의 구성에 사용되는 기준—재매개변수화 불변성, 최대 엔트로피, 참조 원리—자체가 선택의 대상이며, 서로 다른 기준은 서로 다른 “객관적” 사전 확률을 산출한다. 이는 주관성이 제거된 것이 아니라, 사전 확률의 수준에서 기준 선택의 수준으로 이동한 것이라는 비판이 가능하다.

5. 경험적 베이즈와 계층적 베이즈 접근

경험적 베이즈(empirical Bayes) 방법은 사전 확률의 초모수(hyperparameter)를 데이터로부터 추정한다. 계층적 베이지안 모형(hierarchical Bayesian model)에서 파라미터 $\theta$ 의 사전 분포 $\pi(\theta \mid \alpha)$ 는 초모수 $\alpha$ 에 의해 파라미터화되며, $\alpha$ 에 대해 다시 초사전 분포(hyperprior) $\pi(\alpha)$ 를 부여한다.

$P(\theta \mid D) = \int P(\theta \mid D, \alpha) \cdot P(\alpha \mid D) \, d\alpha$

이 계층적 구조는 사전 확률의 주관성을 하위 수준에서 상위 수준으로 이전시킨다. 최상위 초사전 분포의 선택에는 여전히 주관적 판단이 개입하나, 그 영향은 계층의 깊이에 따라 희석된다. 데이터가 하위 수준의 파라미터에 직접 정보를 제공하고, 초모수에 간접적으로 정보를 제공하므로, 초사전 분포의 영향은 상대적으로 약화된다.

그러나 이 접근도 사전 확률 주관성의 근본적 해소는 아니다. 계층의 최상위에서는 여전히 주관적 선택이 필요하며, 계층 구조 자체—몇 단계의 계층을 사용할 것인지, 각 수준에서 어떤 분포 족(family)을 선택할 것인지—의 결정도 주관적이다.

6. 사전 확률의 주관성과 불완전성 정리의 구조적 유비

사전 확률의 주관성 문제와 불완전성 정리 사이에는 심층적 구조적 유비가 존재한다.

불완전성 정리에서 형식 체계의 공리는 체계의 출발점이며, 공리의 선택에 따라 도출 가능한 정리 집합이 결정된다. 공리 자체의 참은 체계 내부에서 증명될 수 없으며, 체계 외부의 메타수학적 정당화를 요구한다. 유사하게, 베이지안 추론에서 사전 확률은 추론의 출발점이며, 사전 확률의 선택에 따라 사후 확률이 결정된다. 사전 확률 자체의 “정확성“은 데이터에 의해 완전히 결정될 수 없으며, 추론 체계 외부의 판단을 요구한다.

두 경우 모두 체계의 기초가 체계 자체에 의해 완전히 정당화될 수 없다는 구조적 한계를 보여 준다. 형식 체계는 자신의 무모순성을 증명할 수 없고, 베이지안 추론은 자신의 사전 확률을 데이터만으로 완전히 결정할 수 없다. 이 유비는 정밀한 논리적 동치가 아니라 개념적 대응이지만, 인식론적 체계의 기초에 관한 일반적 원리를 반영한다.

7. 인공지능 시스템에서의 실천적 영향

사전 확률의 주관성은 인공지능 시스템의 설계와 운용에 직접적 실천적 영향을 미친다.

공정성과 편향. 인공지능 시스템의 사전 확률이 특정 집단에 대한 편향을 반영하면, 사후 확률에 의한 의사 결정도 편향된다. 형사 사법 시스템의 재범 예측, 신용 평가, 의료 진단 등에서 사전 확률의 편향은 사회적 불공정을 야기할 수 있다. 이 문제는 사전 확률의 “객관적” 설정이 불가능하다는 이론적 한계와 직결된다.

강건성(robustness). 사전 확률의 선택에 대한 추론 결과의 민감도 분석(sensitivity analysis)은 베이지안 강건성 이론(robust Bayesian analysis)의 핵심이다. 사전 확률의 합리적 범위를 사전 확률의 클래스(class of priors) $\mathcal{C}$ 로 표현하고, 이 클래스 내의 모든 사전 확률에 대해 사후 추론의 범위를 분석한다.

$\left\{\int f(\theta) \cdot \pi(\theta \mid D) \, d\theta : \pi \in \mathcal{C}\right\}$

이 범위가 좁으면 사전 확률의 선택이 결과에 크게 영향을 미치지 않으므로, 주관성의 문제가 실질적으로 완화된다. 반면 범위가 넓으면 사전 확률의 선택이 결과를 지배하며, 추론의 객관성이 심각하게 훼손된다.

베이지안 딥러닝. 신경망의 가중치에 사전 분포를 부여하는 베이지안 딥러닝(Bayesian deep learning)에서 사전 확률의 선택은 정규화(regularization) 효과와 불확실성 추정에 직접 영향을 미친다. 가우시안 사전 분포는 $L_2$ 정규화에 대응하고, 라플라스 사전 분포는 $L_1$ 정규화에 대응한다. 수백만에서 수십억 개의 파라미터에 대한 사전 분포의 설정은 실질적으로 강한 가정을 부과하며, 이 가정의 적절성은 경험적으로만 평가 가능하다.

8. 사전 확률 주관성의 불가피성과 학문적 대응

사전 확률의 주관성은 베이지안 추론 체계에 내재하는 불가피한 특성이다. 이 불가피성은 귀납적 추론 일반에 대한 흄(Hume)의 비판과 맥을 같이하며, 경험적 관찰만으로는 보편적 법칙을 논리적으로 정당화할 수 없다는 근본적 한계를 반영한다.

이 한계에 대한 학문적 대응은 사전 확률의 주관성을 제거하려는 시도에서, 주관성을 투명하게 드러내고 그 영향을 체계적으로 분석하는 방향으로 전환되어 왔다. Gelman 등(2013)이 강조하는 약정보 사전 확률(weakly informative prior)의 접근은, 완전한 무정보가 아니라 문제 영역에 대한 약한 사전 지식을 반영하되 데이터가 사후 분포를 지배하도록 하는 균형점을 추구한다.

이 전환은 불완전성 정리에 대한 수학 공동체의 반응과 구조적으로 유사하다. 불완전성 정리 이후 수학자들은 완전한 형식 체계의 구축을 포기하는 대신, 불완전성을 인정하면서도 유용한 형식 체계를 발전시켜 왔다. 마찬가지로, 베이지안 통계학은 사전 확률의 완전한 객관화를 포기하는 대신, 사전 확률의 선택을 투명하고 체계적으로 수행하며 그 영향을 정량적으로 평가하는 방법론을 발전시켜 왔다. 두 경우 모두 근본적 한계를 인정한 위에서 실천적 가치를 추구하는 성숙한 학문적 태도를 반영한다.