8.46 최대 사후 확률 추정(MAP)

1. MAP 추정의 정의

최대 사후 확률(Maximum A Posteriori, MAP) 추정은 사후 분포를 최대화하는 모수 값을 선택하는 베이지안 점 추정 방법이다.

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}p(\boldsymbol{\theta} \vert \mathbf{z})$

베이즈 정리에 의해 $p(\boldsymbol{\theta} \vert \mathbf{z}) \propto p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})$ 이므로:

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}[p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})]$

사후 분포의 정규화 상수는 $\boldsymbol{\theta}$ 에 무관하므로 최적화에서 무시된다.

2. 로그 형태의 MAP

수치 계산의 편의를 위해 로그를 취한다.

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}[\ln p(\mathbf{z} \vert \boldsymbol{\theta}) + \ln p(\boldsymbol{\theta})]$

$\ln p(\mathbf{z} \vert \boldsymbol{\theta})$ 는 로그 가능도, $\ln p(\boldsymbol{\theta})$ 는 로그 사전이다.

3. MLE와의 비교

MAP 추정은 MLE에 사전 분포의 로그를 더한 것이다.

$\hat{\boldsymbol{\theta}}_{MLE} = \arg\max_{\boldsymbol{\theta}}\ln p(\mathbf{z} \vert \boldsymbol{\theta})$

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}[\ln p(\mathbf{z} \vert \boldsymbol{\theta}) + \ln p(\boldsymbol{\theta})]$

균일 사전 $p(\boldsymbol{\theta}) = \text{const.}$ 이면 MAP는 MLE와 일치한다. 사전 분포가 정보적이면 MAP가 사전 정보에 의해 MLE로부터 편향된다.

4. 정규화로서의 MAP

MAP는 로그 사전 항을 추가하는 정규화(regularization)로 해석될 수 있다.

4.1 가우시안 사전과 L2 정규화

가우시안 사전 $\boldsymbol{\theta} \sim \mathcal{N}(\mathbf{0}, \sigma_0^2\mathbf{I})$ 이면:

$\ln p(\boldsymbol{\theta}) = -\frac{1}{2\sigma_0^2}\lVert\boldsymbol{\theta}\rVert^2 + \text{const.}$

MAP는 다음을 최대화한다.

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}\left[\ln p(\mathbf{z} \vert \boldsymbol{\theta}) - \frac{1}{2\sigma_0^2}\lVert\boldsymbol{\theta}\rVert^2\right]$

이는 $\ell_2$ 정규화(릿지 회귀, ridge regression, Tikhonov regularization)에 해당한다. 정규화 강도 $\lambda = 1/\sigma_0^2$ 이 사전의 정밀도와 관련된다.

4.2 라플라스 사전과 L1 정규화

라플라스 사전 $p(\theta_i) \propto \exp(-\lvert\theta_i\rvert/b)$ 이면 $\ell_1$ 정규화(LASSO)에 해당한다.

$\ln p(\boldsymbol{\theta}) = -\frac{1}{b}\lVert\boldsymbol{\theta}\rVert_1 + \text{const.}$

희소 해(sparse solution)를 유도하는 효과가 있다.

5. 가우시안 분포에서의 MAP

가우시안 가능도와 가우시안 사전의 결합에서 MAP의 해석적 형태를 얻는다.

사전: $\theta \sim \mathcal{N}(\mu_0, \sigma_0^2)$
가능도: $z_i \vert \theta \sim \mathcal{N}(\theta, \sigma^2)$ , $i = 1, \ldots, n$

사후: $\theta \vert \mathbf{z} \sim \mathcal{N}(\mu_n, \sigma_n^2)$

$\sigma_n^{-2} = \sigma_0^{-2} + n\sigma^{-2}$

$\mu_n = \sigma_n^2(\sigma_0^{-2}\mu_0 + n\sigma^{-2}\bar{z})$

가우시안에서 사후 분포가 대칭이므로 MAP과 사후 평균(MMSE)이 일치한다.

$\hat{\theta}_{MAP} = \hat{\theta}_{MMSE} = \mu_n$

6. MAP의 성질

6.1 매개변수화 의존성

MAP은 매개변수화에 의존한다. $\eta = g(\theta)$ 로 변환하면 $\hat{\eta}_{MAP} \neq g(\hat{\theta}_{MAP})$ 이 될 수 있다. 이는 MLE의 불변성과 대조된다.

이는 사전 분포가 매개변수화에 의존하기 때문이다. 매개변수 변환에 의한 야코비안 인자가 사후의 최빈값 위치를 이동시킨다.

6.2 점근적 성질

$n \to \infty$ 에서 사전의 영향이 감소하고 MAP가 MLE에 수렴한다. 따라서 MAP도 점근적으로 일치하고 효율적이다.

7. 수치적 해법

MAP는 최적화 문제이므로, MLE와 유사한 수치 방법이 사용된다.

뉴턴-랩슨 방법: 로그 사후의 그래디언트와 헤시안을 이용한다.

기대-최대화(EM) 알고리즘: 잠재 변수가 있는 경우 사용된다.

경사 기반 방법: 고차원에서는 L-BFGS 등이 효율적이다.

8. 로봇 공학에서의 MAP 응용

8.1 정규화된 비선형 최소 제곱

SLAM이나 번들 조정에서 사전 정보를 포함한 MAP 추정이 사용된다.

$\hat{\mathbf{x}}_{MAP} = \arg\min_{\mathbf{x}}\left[\sum_i\lVert\mathbf{z}_i - \mathbf{h}_i(\mathbf{x})\rVert^2_{\boldsymbol{\Sigma}_i^{-1}} + \lVert\mathbf{x} - \mathbf{x}_0\rVert^2_{\boldsymbol{\Sigma}_0^{-1}}\right]$

사전 항이 정규화 역할을 하여 추정 문제의 조건을 개선한다.

8.2 칼만 필터의 해석

칼만 필터의 갱신 단계는 가우시안 가능도와 가우시안 사전의 결합에서의 MAP(사후 평균과 동일) 계산으로 해석된다.

8.3 희소 회복과 신호 처리

$\ell_1$ 정규화에 해당하는 라플라스 사전을 이용한 MAP가 압축 감지(compressed sensing)와 희소 해석에 사용된다.

9. 참고 문헌

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.

version: 1.0