8.43 베이지안 추정의 기본 원리

1. 베이지안 추정의 철학

베이지안 추정(Bayesian estimation)은 미지의 모수 $\boldsymbol{\theta}$ 를 확정적 미지값이 아닌 확률 분포로 취급한다. 관측 이전의 믿음(사전 분포, prior distribution)과 관측 데이터의 가능도(likelihood)를 결합하여, 관측 이후의 믿음(사후 분포, posterior distribution)을 베이즈 정리에 의해 계산한다.

이 접근법은 빈도론적(frequentist) 추정(MLE 등)과 근본적으로 다른 철학에 기반한다. 빈도론에서는 모수를 고정된 미지값으로 취급하고 추정량의 표집 분포(sampling distribution)를 분석하는 반면, 베이지안에서는 모수의 불확실성을 확률 분포로 직접 표현한다.

2. 베이지안 추론의 구성 요소

2.1 사전 분포(Prior Distribution)

관측 이전의 모수에 대한 믿음을 확률 분포로 표현한다.

$p(\boldsymbol{\theta})$

사전 지식, 전문가의 의견, 이전 실험의 결과, 또는 무지(ignorance)를 반영하는 비정보적(non-informative) 분포로 설정된다.

2.2 가능도(Likelihood)

주어진 모수에서 관측 데이터가 발생할 확률이다.

$p(\mathbf{z} \vert \boldsymbol{\theta})$

데이터 생성 모델에 의해 결정되며, MLE와 베이지안에서 공통으로 사용된다.

2.3 사후 분포(Posterior Distribution)

관측 데이터를 반영한 모수의 갱신된 분포이다.

$p(\boldsymbol{\theta} \vert \mathbf{z}) = \frac{p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})}{p(\mathbf{z})}$

분모의 증거(evidence) $p(\mathbf{z}) = \int p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}$ 는 정규화 상수이다.

3. 비례식 형태

증거는 $\boldsymbol{\theta}$ 에 무관한 정규화 상수이므로, 사후 분포는 다음과 같이 간략히 표현된다.

$p(\boldsymbol{\theta} \vert \mathbf{z}) \propto p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})$

이 비례 관계는 “사후 $\propto$ 가능도 $\times$ 사전“으로 요약되며, 베이지안 추론의 본질을 포착한다.

4. 베이지안 점 추정량

사후 분포로부터 단일 점 추정값을 도출하는 방법:

4.1 최대 사후 확률(MAP) 추정

$\hat{\boldsymbol{\theta}}_{MAP} = \arg\max_{\boldsymbol{\theta}}p(\boldsymbol{\theta} \vert \mathbf{z}) = \arg\max_{\boldsymbol{\theta}}[p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta})]$

사후 분포의 최빈값(mode)을 선택한다. 사전 분포가 균일이면 MAP는 MLE와 일치한다.

4.2 사후 평균(Posterior Mean, MMSE)

$\hat{\boldsymbol{\theta}}_{MMSE} = \mathbb{E}[\boldsymbol{\theta} \vert \mathbf{z}] = \int\boldsymbol{\theta} p(\boldsymbol{\theta} \vert \mathbf{z})d\boldsymbol{\theta}$

평균 제곱 오차를 최소화하는 베이즈 추정량이다.

4.3 사후 중앙값

$\hat{\theta}_{median}: \int_{-\infty}^{\hat{\theta}_{median}}p(\theta \vert \mathbf{z})d\theta = 0.5$

절대 오차 $\mathbb{E}[\lvert\theta - \hat{\theta}\rvert \vert \mathbf{z}]$ 를 최소화한다.

5. 손실 함수와 베이즈 추정량

일반적인 손실 함수 $L(\theta, \hat{\theta})$ 에 대한 베이즈 추정량은 조건부 기대 손실을 최소화한다.

$\hat{\theta}_{Bayes} = \arg\min_{\hat{\theta}}\mathbb{E}[L(\theta, \hat{\theta}) \vert \mathbf{z}]$

제곱 오차 손실 $L = (\theta - \hat{\theta})^2$ : MMSE (사후 평균)
절대 오차 손실 $L = \lvert\theta - \hat{\theta}\rvert$ : 사후 중앙값
0-1 손실 $L = \mathbb{1}[\theta \neq \hat{\theta}]$ : MAP (사후 최빈값)

6. 순차적 베이즈 갱신

관측이 순차적으로 도착할 때, 이전 사후가 다음 갱신의 사전이 된다.

$p(\boldsymbol{\theta} \vert \mathbf{z}_1, \mathbf{z}_2) \propto p(\mathbf{z}_2 \vert \boldsymbol{\theta})p(\boldsymbol{\theta} \vert \mathbf{z}_1)$

이 재귀적 구조가 베이즈 필터의 기반이며, 칼만 필터는 이 원리를 가우시안 분포에 특화한 것이다.

7. 불확실성의 명시적 표현

베이지안 추정의 핵심 이점은 단일 점 추정이 아닌 전체 사후 분포를 제공한다는 점이다. 사후 분포로부터 다음이 자연스럽게 도출된다.

신뢰 구간(Credible Interval): $\boldsymbol{\theta}$ 가 특정 구간 내에 있을 확률
불확실성 정량화: 사후 분산/공분산
예측 분포: 미래 관측에 대한 분포
모델 비교: 주변 가능도(marginal likelihood)의 비교

8. 베이지안과 빈도론의 비교

측면	빈도론	베이지안
모수	고정 미지값	확률 변수
확률	장기 상대 빈도	믿음의 정도
추정치	점 추정(MLE)	전체 사후 분포
사전 지식	사용 안 함	사전 분포로 통합
불확실성	신뢰 구간(표집 분포)	신뢰 구간(사후 분포)

9. 로봇 공학에서의 베이지안 추정

로봇 공학은 베이지안 접근법이 지배적인 분야이다. 불확실성이 핵심적이고, 순차적 관측이 자연스러우며, 사전 지식(지도, 모델)이 풍부하기 때문이다.

베이즈 필터: 칼만 필터, 확장 칼만 필터, 입자 필터, 히스토그램 필터 등 모든 상태 추정기가 베이지안 추정의 형태이다.

SLAM: 지도와 로봇 궤적의 결합 사후 분포를 추정한다.

POMDP: 부분 관측 환경에서의 의사결정이 상태 믿음(belief state)의 베이지안 갱신에 기반한다.

10. 참고 문헌

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.

version: 1.0