8.47 켤레 사전 분포의 원리와 유형

1. 켤레 사전의 정의

주어진 가능도 함수에 대해 사전 분포와 사후 분포가 동일한 분포족(distribution family)에 속하는 경우, 이 사전 분포를 켤레 사전(conjugate prior)이라 한다.

$p(\boldsymbol{\theta}) \in \mathcal{F} \quad \text{and} \quad p(\boldsymbol{\theta} \vert \mathbf{z}) \in \mathcal{F}$

켤레 사전의 핵심 이점은 사후 분포가 폐쇄형(closed-form)으로 해석적으로 계산되며, 분포의 매개변수만 갱신하면 된다는 점이다. 이는 베이지안 추론의 계산적 단순화와 순차적 갱신의 효율성을 제공한다.

2. 지수족과 켤레 사전

지수족(exponential family) 분포는 다음의 형태를 갖는다.

$p(\mathbf{z} \vert \boldsymbol{\theta}) = h(\mathbf{z})\exp(\boldsymbol{\eta}(\boldsymbol{\theta})^T\mathbf{T}(\mathbf{z}) - A(\boldsymbol{\theta}))$

여기서 $\boldsymbol{\eta}$ 는 자연 모수(natural parameter), $\mathbf{T}(\mathbf{z})$ 는 충분 통계량(sufficient statistics), $A$ 는 로그 분배 함수이다.

지수족 분포는 항상 켤레 사전이 존재한다.

$p(\boldsymbol{\theta}) \propto \exp(\boldsymbol{\nu}^T\boldsymbol{\eta}(\boldsymbol{\theta}) - \nu_0 A(\boldsymbol{\theta}))$

사후는 동일한 형태이며 매개변수가 $\boldsymbol{\nu} + \mathbf{T}(\mathbf{z})$ , $\nu_0 + 1$ 로 갱신된다.

3. 주요 켤레 쌍

3.1 베르누이/이항 가능도 → 베타 사전

가능도: $k \vert p \sim \text{Bin}(n, p)$ , 사전: $p \sim \text{Beta}(\alpha, \beta)$

사후: $p \vert k \sim \text{Beta}(\alpha + k, \beta + n - k)$

해석: $\alpha$ 가 가상의 성공 수, $\beta$ 가 가상의 실패 수에 해당한다.

3.2 다항 가능도 → 디리클레 사전

가능도: $\mathbf{x} \vert \boldsymbol{\pi} \sim \text{Mult}(n, \boldsymbol{\pi})$ , 사전: $\boldsymbol{\pi} \sim \text{Dir}(\boldsymbol{\alpha})$

사후: $\boldsymbol{\pi} \vert \mathbf{x} \sim \text{Dir}(\boldsymbol{\alpha} + \mathbf{x})$

3.3 포아송 가능도 → 감마 사전

가능도: $k \vert \lambda \sim \text{Pois}(\lambda)$ , 사전: $\lambda \sim \text{Gamma}(a, b)$

사후: $\lambda \vert k \sim \text{Gamma}(a + k, b + 1)$

$n$ 개 독립 관측 $k_1, \ldots, k_n$ 에 대해: $\lambda \vert \mathbf{k} \sim \text{Gamma}(a + \sum k_i, b + n)$

3.4 가우시안 가능도 (평균, 분산 알려짐) → 가우시안 사전

가능도: $z_i \vert \mu \sim \mathcal{N}(\mu, \sigma^2)$ , 사전: $\mu \sim \mathcal{N}(\mu_0, \sigma_0^2)$

사후: $\mu \vert \mathbf{z} \sim \mathcal{N}(\mu_n, \sigma_n^2)$

$\sigma_n^{-2} = \sigma_0^{-2} + n\sigma^{-2}, \quad \mu_n = \sigma_n^2(\sigma_0^{-2}\mu_0 + n\sigma^{-2}\bar{z})$

3.5 가우시안 가능도 (분산, 평균 알려짐) → 역감마 사전

가능도: $z_i \vert \sigma^2 \sim \mathcal{N}(\mu, \sigma^2)$ , 사전: $\sigma^2 \sim \text{InvGamma}(\alpha, \beta)$

사후: $\sigma^2 \vert \mathbf{z} \sim \text{InvGamma}\left(\alpha + \frac{n}{2}, \beta + \frac{1}{2}\sum(z_i - \mu)^2\right)$

3.6 다변량 가우시안 (평균과 공분산 모두 모름) → 정규-역위시르트 사전

다변량 가우시안 가능도에 대해 평균과 공분산의 결합 켤레 사전은 정규-역위시르트(Normal-Inverse-Wishart) 분포이다.

$(\boldsymbol{\mu}, \boldsymbol{\Sigma}) \sim \text{NIW}(\boldsymbol{\mu}_0, \kappa_0, \nu_0, \boldsymbol{\Psi}_0)$

사후도 동일한 분포족이며, 매개변수가 관측 데이터에 의해 갱신된다.

4. 켤레 사전의 장점

4.1 계산 효율성

사후가 폐쇄형이므로 수치 적분이나 샘플링이 필요 없다. 매개변수 갱신만으로 베이즈 추론이 완료된다.

4.2 순차적 갱신의 용이성

이전 사후가 다음 갱신의 사전이 되는 순차적 구조가 단순한 매개변수 갱신으로 구현된다. 이는 온라인 학습과 실시간 베이즈 필터링에 적합하다.

4.3 해석 가능성

켤레 사전의 매개변수는 “가상 관측“으로 해석될 수 있으며, 사전의 강도가 직관적이다. 예를 들어 베타 사전 $\text{Beta}(\alpha, \beta)$ 는 $\alpha + \beta$ 개의 가상 관측에 해당한다.

5. 켤레 사전의 한계

표현력의 제한: 켤레 사전은 특정 분포족에 제한되므로, 실제 사전 지식을 정확히 표현하지 못할 수 있다.

모델의 경직성: 켤레 관계가 성립하지 않는 복잡한 모델에서는 적용 불가능하다.

혼합 켤레(conjugate mixture): 단일 켤레 사전의 표현력을 확장하기 위해 다수의 켤레 사전의 혼합을 사용할 수 있다.

6. 로봇 공학에서의 켤레 사전 활용

베이즈 필터의 가우시안 구조: 칼만 필터는 가우시안 가능도와 가우시안 사전의 켤레 관계에 기반한다. 이 구조에 의해 순차적 갱신이 매개변수 갱신으로 구현된다.

점유 격자 지도: 이진 점유 상태에 대한 베타(또는 베르누이) 켤레 관계를 이용하여 점유 확률을 효율적으로 갱신한다. 로그 오즈 형식이 곱셈을 덧셈으로 변환하여 더욱 효율적이다.

성공률 추정: 로봇 과업의 성공/실패에 대한 베타-이항 켤레 관계를 이용한 온라인 성공률 갱신.

7. 참고 문헌

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.
DeGroot, M. H. (1970). Optimal Statistical Decisions. McGraw-Hill.

version: 1.0