7.27 정보 이론과 확률적 추론의 연결: 베이지안 관점

1. 베이지안 추론의 기본 구조

1.1 베이즈 정리

베이지안 추론(Bayesian inference)의 핵심은 베이즈 정리(Bayes’ theorem)이다. 가설(hypothesis) $\theta$ 와 관측 데이터 $D$ 에 대해:

$p(\theta \vert D) = \frac{p(D \vert \theta) p(\theta)}{p(D)}$

여기서 $p(\theta)$ 는 사전 분포(prior distribution), $p(D \vert \theta)$ 는 우도(likelihood), $p(\theta \vert D)$ 는 사후 분포(posterior distribution), $p(D) = \int p(D \vert \theta) p(\theta) d\theta$ 는 증거(evidence) 또는 주변 우도(marginal likelihood)이다.

베이지안 추론은 관측 데이터에 의해 사전 분포가 사후 분포로 갱신되는 과정이며, 이 과정은 정보 이론적으로 “데이터가 가설에 대한 정보를 제공하여 불확실성을 감소시키는 것“으로 해석된다.

2. 정보론적 양과 베이지안 추론의 대응

2.1 사전 엔트로피와 사후 엔트로피

가설 $\theta$ 에 대한 사전 불확실성은 사전 분포의 엔트로피 $H(\theta) = -\int p(\theta) \log p(\theta) d\theta$ 로 측정된다. 데이터 $D$ 를 관측한 후의 불확실성은 사후 분포의 조건부 엔트로피 $H(\theta \vert D)$ 로 측정된다.

데이터 $D$ 의 관측에 의해 감소한 $\theta$ 에 대한 불확실성은:

$I(\theta; D) = H(\theta) - H(\theta \vert D)$

이는 $\theta$ 와 $D$ 사이의 상호 정보량이며, 데이터가 가설에 대해 제공하는 정보의 양이다.

2.2 기대 정보 이득

실험 설계(experimental design)에서, 아직 관측되지 않은 데이터 $D$ 에 대한 기대 정보 이득(expected information gain)은:

$E_D[I(\theta; D)] = I(\theta; D) = H(\theta) - E_D[H(\theta \vert D)]$

이 양은 실험이 가설에 대해 평균적으로 제공할 정보의 양을 측정하며, 최적 실험 설계에서 이 양을 최대화하는 실험을 선택한다. 이를 린들리(Dennis Lindley)의 정보 측도라 하며, 베이지안 최적 실험 설계(Bayesian optimal experimental design)의 기초이다.

3. 최대 엔트로피 원리와 사전 분포

3.1 무정보적 사전 분포로서의 최대 엔트로피

베이지안 추론에서 사전 분포의 선택은 핵심적 문제이다. 가설에 대한 사전 정보가 제한적일 때, 최대 엔트로피 원리에 의해 알려진 제약을 만족하면서 엔트로피가 최대인 분포를 사전 분포로 선택하는 것이 정당화된다.

에드윈 제인스(Edwin T. Jaynes)는 이 연결을 체계적으로 발전시켰다. 제인스의 관점에서, 베이지안 추론과 최대 엔트로피 원리는 불완전한 정보 하에서의 일관된 추론이라는 동일한 원리의 두 측면이다. 사전 분포는 데이터 관측 이전의 정보 상태를 최대 엔트로피 원리에 의해 부호화하고, 베이즈 정리는 새로운 데이터에 의한 정보 갱신을 수행한다.

3.2 제프리스 사전 분포

해롤드 제프리스(Harold Jeffreys)의 사전 분포는 피셔 정보 행렬(Fisher information matrix) $\mathcal{I}(\theta)$ 에 기반한다:

$p_J(\theta) \propto \sqrt{\det \mathcal{I}(\theta)}$

제프리스 사전 분포는 매개변수의 재매개변수화에 대해 불변(invariant)이라는 성질을 가진다. 정보 기하학적 관점에서, 이는 통계 다양체 위의 체적 형식(volume form)에 비례하는 분포이다.

4. KL 발산과 베이지안 갱신

4.1 베이지안 갱신의 정보론적 해석

사전 분포 $p(\theta)$ 에서 사후 분포 $p(\theta \vert D)$ 로의 갱신은 KL 발산의 관점에서 다음과 같이 해석된다:

$D_{\text{KL}}(p(\theta \vert D) \| p(\theta)) = \int p(\theta \vert D) \log \frac{p(\theta \vert D)}{p(\theta)} d\theta$

이 양은 데이터 $D$ 의 관측에 의해 사전 분포가 사후 분포로 변화한 정도를 측정하며, 베이지안 서프라이즈(Bayesian surprise)라 불린다. 데이터가 사전 기대와 크게 다를수록 이 값이 크다.

데이터에 대한 기대값을 취하면:

$E_D[D_{\text{KL}}(p(\theta \vert D) \| p(\theta))] = I(\theta; D)$

즉, 평균 베이지안 서프라이즈는 상호 정보량과 동일하다.

4.2 증거 하한과 변분 추론

베이지안 추론에서 증거(evidence) $p(D) = \int p(D \vert \theta) p(\theta) d\theta$ 의 계산은 일반적으로 난해(intractable)하다. 변분 추론(variational inference)은 근사 사후 분포 $q(\theta)$ 를 도입하여, 다음의 증거 하한(Evidence Lower Bound, ELBO)을 최대화한다:

$\log p(D) = \text{ELBO}(q) + D_{\text{KL}}(q(\theta) \| p(\theta \vert D))$

$\text{ELBO}(q) = E_q[\log p(D \vert \theta)] - D_{\text{KL}}(q(\theta) \| p(\theta))$

$D_{\text{KL}} \geq 0$ 이므로 $\text{ELBO} \leq \log p(D)$ 이며, 등호는 $q = p(\theta \vert D)$ 일 때 성립한다. ELBO의 최대화는 근사 사후 분포를 참 사후 분포에 KL 발산의 의미에서 가장 가깝게 만드는 것과 동치이다.

5. 피셔 정보와 크라메르-라오 하한

5.1 피셔 정보의 정의

매개변수 $\theta$ 에 대한 피셔 정보(Fisher information)는:

$\mathcal{I}(\theta) = E\left[\left(\frac{\partial \log p(X \vert \theta)}{\partial \theta}\right)^2\right] = -E\left[\frac{\partial^2 \log p(X \vert \theta)}{\partial \theta^2}\right]$

피셔 정보는 데이터 한 표본이 매개변수 $\theta$ 에 대해 전달하는 정보의 양을 측정한다.

5.2 크라메르-라오 하한

비편향 추정량(unbiased estimator) $\hat{\theta}$ 의 분산에 대해:

$\text{Var}(\hat{\theta}) \geq \frac{1}{n \mathcal{I}(\theta)}$

이 부등식은 피셔 정보가 클수록 매개변수를 더 정밀하게 추정할 수 있음을 의미하며, 추정의 근본적 한계를 규정한다.

5.3 상호 정보량과의 관계

국소적으로(무한소적 매개변수 변화에 대해), 상호 정보량과 피셔 정보 사이에 다음의 관계가 성립한다. $\theta$ 가 $\theta_0$ 근방에서 미세하게 변할 때:

$I(\theta; X) \approx \frac{1}{2} \mathcal{I}(\theta_0) \text{Var}(\theta)$

이는 상호 정보량이 피셔 정보와 사전 분산의 곱에 비례함을 보여주며, 두 정보 측도 사이의 국소적 동등성을 확립한다.

6. 최소 기술 길이와 베이지안 모형 선택

6.1 MDL과 베이지안 증거의 관계

최소 기술 길이(Minimum Description Length, MDL) 원리에서 데이터 $D$ 의 기술 길이는:

$L(D) = -\log p(D \vert \hat{\theta}) + \frac{k}{2}\log n + O(1)$

여기서 $\hat{\theta}$ 는 최대 우도 추정량, $k$ 는 매개변수 수, $n$ 은 표본 크기이다. 이는 베이지안 증거의 라플라스 근사(Laplace approximation)와 수학적으로 동일한 형태이며, 베이지안 정보 기준(Bayesian Information Criterion, BIC)으로 알려져 있다:

$\text{BIC} = -2\log p(D \vert \hat{\theta}) + k \log n$

이 연결은 정보 이론적 모형 선택(MDL)과 베이지안 모형 선택이 점근적으로 동등한 기준을 제공함을 보여준다.

7. 결론

정보 이론과 베이지안 추론은 불확실성 하에서의 추론이라는 공통 주제를 통해 깊이 연결된다. 상호 정보량은 데이터가 가설에 대해 제공하는 정보의 양을 측정하고, KL 발산은 사전 분포에서 사후 분포로의 갱신 정도를 정량화하며, 최대 엔트로피 원리는 무정보적 사전 분포의 선택을 안내한다. 피셔 정보는 추정의 근본적 한계를 규정하고, 변분 추론에서 ELBO는 KL 발산의 최소화로 정식화된다. 이러한 연결은 정보 이론이 단순한 통신 이론을 넘어, 확률적 추론의 일반적 기초를 제공하는 보편적 프레임워크임을 확인한다.