8.45 사후 분포의 계산과 갱신

1. 사후 분포의 공식

베이즈 정리에 의해 사후 분포는 다음과 같이 계산된다.

$p(\boldsymbol{\theta} \vert \mathbf{z}) = \frac{p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})}{p(\mathbf{z})}$

분모의 증거(evidence)는 다음과 같다.

$p(\mathbf{z}) = \int p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta}) \, d\boldsymbol{\theta}$

증거는 $\boldsymbol{\theta}$ 에 무관한 정규화 상수이므로, 사후 분포의 형태를 결정할 때는 다음의 비례식이 주로 사용된다.

$p(\boldsymbol{\theta} \vert \mathbf{z}) \propto p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})$

2. 사후 분포의 계산 방법

2.1 해석적 계산(켤레 사전)

가능도와 사전이 켤레 관계에 있으면, 사후 분포가 동일한 분포족에 속하며 폐쇄형(closed-form)으로 계산된다.

가우시안 가능도 + 가우시안 사전: 평균에 대한 사후도 가우시안이다.

사전: $\theta \sim \mathcal{N}(\mu_0, \sigma_0^2)$
가능도: $z_i \vert \theta \sim \mathcal{N}(\theta, \sigma^2)$ , $i = 1, \ldots, n$
사후: $\theta \vert \mathbf{z} \sim \mathcal{N}(\mu_n, \sigma_n^2)$

$\sigma_n^{-2} = \sigma_0^{-2} + n\sigma^{-2}$

$\mu_n = \sigma_n^2(\sigma_0^{-2}\mu_0 + n\sigma^{-2}\bar{z})$

정밀도(분산의 역수)가 가산되고, 평균은 정밀도로 가중된 사전 평균과 표본 평균의 가중 평균이다.

베타 사전 + 이항 가능도: 사후는 베타 분포.

사전: $p \sim \text{Beta}(\alpha, \beta)$
가능도: $k \vert p \sim \text{Bin}(n, p)$
사후: $p \vert k \sim \text{Beta}(\alpha + k, \beta + n - k)$

2.2 수치적 계산

켤레 관계가 아닌 일반적인 경우, 사후 분포의 해석적 계산이 불가능하므로 수치 방법이 필요하다.

격자 근사(Grid Approximation): 모수 공간을 격자로 이산화하고 각 격자점에서 사후 확률을 계산한다. 저차원( $p \leq 3$ )에서만 실용적이다.

라플라스 근사(Laplace Approximation): 사후를 MAP 주위에서 2차 테일러 전개하여 가우시안으로 근사한다.

$p(\boldsymbol{\theta} \vert \mathbf{z}) \approx \mathcal{N}(\hat{\boldsymbol{\theta}}_{MAP}, \mathbf{H}^{-1})$

여기서 $\mathbf{H} = -\nabla^2\ln p(\boldsymbol{\theta}, \mathbf{z})\big\vert_{\hat{\boldsymbol{\theta}}_{MAP}}$ 는 로그 사후의 헤시안 행렬이다.

마르코프 체인 몬테카를로(MCMC): 메트로폴리스-헤이스팅스(Metropolis-Hastings), 해밀토니안 몬테카를로(HMC), 깁스 샘플링 등이 사후 분포로부터의 샘플을 생성한다.

변분 추론(Variational Inference): 사후를 매개변수화된 분포족 $q_\phi(\boldsymbol{\theta})$ 로 근사하고, KL 발산을 최소화하는 $\phi$ 를 최적화한다.

3. 순차적 베이즈 갱신

관측이 순차적으로 도착할 때, 베이즈 정리의 재귀적 적용으로 사후 분포를 갱신한다.

$p(\boldsymbol{\theta} \vert \mathbf{z}_{1:t+1}) \propto p(\mathbf{z}_{t+1} \vert \boldsymbol{\theta})p(\boldsymbol{\theta} \vert \mathbf{z}_{1:t})$

이전 사후 $p(\boldsymbol{\theta} \vert \mathbf{z}_{1:t})$ 가 다음 갱신의 사전 역할을 한다. 이 순차적 구조는 계산 효율성을 크게 향상시킨다.

3.1 칼만 필터의 갱신

선형 가우시안 시스템에서 칼만 필터가 순차적 베이즈 갱신을 정확히 구현한다.

예측 단계:

$\hat{\mathbf{x}}_t^- = \mathbf{F}\hat{\mathbf{x}}_{t-1}^+, \quad \mathbf{P}_t^- = \mathbf{F}\mathbf{P}_{t-1}^+\mathbf{F}^T + \mathbf{Q}$

갱신 단계:

$\mathbf{K}_t = \mathbf{P}_t^-\mathbf{H}^T(\mathbf{H}\mathbf{P}_t^-\mathbf{H}^T + \mathbf{R})^{-1}$

$\hat{\mathbf{x}}_t^+ = \hat{\mathbf{x}}_t^- + \mathbf{K}_t(\mathbf{z}_t - \mathbf{H}\hat{\mathbf{x}}_t^-)$

$\mathbf{P}_t^+ = (\mathbf{I} - \mathbf{K}_t\mathbf{H})\mathbf{P}_t^-$

4. 증거와 모델 선택

사후 분포의 분모인 증거 $p(\mathbf{z})$ 는 모수에 무관하므로 사후 분포의 형태를 결정할 때는 무시되지만, 모델 비교에서는 핵심적 역할을 한다.

$p(\mathbf{z} \vert M_k) = \int p(\mathbf{z} \vert \boldsymbol{\theta}, M_k)p(\boldsymbol{\theta} \vert M_k)d\boldsymbol{\theta}$

두 모델의 베이즈 인자(Bayes factor):

$K = \frac{p(\mathbf{z} \vert M_1)}{p(\mathbf{z} \vert M_2)}$

가 모델 선택의 기준이 된다. 베이즈 인자는 복잡도와 적합도의 자연스러운 균형을 내재한다(오컴의 면도날).

5. 로봇 공학에서의 사후 분포 갱신

베이즈 필터: 상태 추정의 핵심 도구로, 순차적 관측에 대한 사후 분포의 반복적 갱신이다.

SLAM: 로봇 궤적과 지도의 결합 사후 분포를 센서 데이터로부터 갱신한다.

온라인 학습: 로봇 파라미터의 사후 분포를 새로운 데이터에 대해 점진적으로 갱신한다.

능동 감지(Active Sensing): 사후 분포의 불확실성을 최소화하는 관측 행동을 선택한다. 정보 이득(information gain)이 기준이 된다.

6. 참고 문헌

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.

version: 1.0