8.44 사전 분포의 선택과 무정보 사전 분포

1. 사전 분포의 역할

베이지안 추론에서 사전 분포(prior distribution) $p(\boldsymbol{\theta})$ 는 관측 이전의 모수에 대한 믿음을 표현한다. 사전 분포의 선택은 사후 분포의 형태와 추정 결과에 직접적인 영향을 미치므로, 체계적인 선택 기준이 필요하다.

2. 정보적 사전 분포(Informative Prior)

2.1 정의

도메인 지식, 이전 실험 결과, 물리적 제약 등에 기반하여 특정 모수 값을 선호하는 분포이다. 관측 데이터가 적을 때 사전 분포의 영향이 크며, 사전 지식을 효과적으로 활용할 수 있다.

2.2 예시

로봇 관절 각도의 물리적 범위에 기반한 구간 사전
이전 캘리브레이션 결과의 평균과 공분산에 기반한 가우시안 사전
질량과 같은 양의 물리량에 대한 감마 분포 사전

3. 무정보 사전 분포(Non-informative Prior)

사전 지식이 없거나 가능한 한 객관적인 추론을 수행하려 할 때 사용되는 분포이다. “편향되지 않은” 사전 분포를 설정하려는 시도이지만, 완전한 무정보성은 수학적으로 미묘한 문제를 포함한다.

3.1 균일 사전(Uniform Prior)

가장 단순한 형태로, 모수 공간의 모든 값에 동일한 밀도를 부여한다.

$p(\theta) = \text{const.}$

유계 공간에서는 정칙(proper) 분포이지만, 무계 공간(예: $\theta \in \mathbb{R}$ )에서는 정규화 불가능한 부정규(improper) 사전이 된다. 부정규 사전이라도 사후 분포가 정칙이면 베이지안 추론이 가능하다.

3.2 매개변수화 불변성의 문제

균일 사전은 매개변수화에 의존한다. $\theta$ 에 대한 균일 사전은 $\eta = g(\theta)$ 에 대해서는 균일이 아니다. 이 문제를 해결하기 위해 매개변수화 불변 사전이 제안되었다.

4. 제프리스 사전(Jeffreys Prior)

제프리스(Jeffreys, 1946)는 매개변수화에 불변인 사전 분포를 제안하였다.

$p_J(\theta) \propto \sqrt{I(\theta)}$

여기서 $I(\theta)$ 는 피셔 정보이다. 다변량의 경우:

$p_J(\boldsymbol{\theta}) \propto \sqrt{\det(\mathbf{I}(\boldsymbol{\theta}))}$

4.1 주요 예

정규 분포의 평균: $p_J(\mu) \propto 1$ (균일, $\sigma^2$ 알려진 경우)
정규 분포의 분산: $p_J(\sigma^2) \propto 1/\sigma^2$ ( $\mu$ 알려진 경우)
베르누이 분포의 $p$ : $p_J(p) \propto 1/\sqrt{p(1-p)}$ (베타 분포 $\text{Beta}(1/2, 1/2)$ )

4.2 장점과 한계

장점: 매개변수화 변환에 불변. 다음이 성립한다: $g$ 가 일대일 변환이면 $p_J(\eta) = p_J(\theta)\lvert d\theta/d\eta\rvert$ .

한계: 다변량 모수에서는 개별 모수의 제프리스 사전과 결합 제프리스 사전이 일치하지 않을 수 있다. 또한 부정규 사전인 경우가 많아 사후 분포의 정칙성을 확인해야 한다.

5. 참조 사전(Reference Prior)

Bernardo(1979)가 제안한 사전으로, 데이터가 모수에 대해 제공하는 정보를 최대화하는 사전을 선택한다. KL 발산을 기준으로 하며, 일부 경우 제프리스 사전과 일치한다.

6. 켤레 사전(Conjugate Prior)

가능도와 결합하여 동일한 분포족의 사후를 산출하는 사전 분포이다. 계산적 편의성이 주된 장점이며, 폐쇄형 사후 분포를 제공한다.

6.1 주요 켤레 쌍

가능도	켤레 사전	사후
베르누이/이항	베타	베타
포아송	감마	감마
가우시안 (평균, 분산 알려짐)	가우시안	가우시안
가우시안 (분산, 평균 알려짐)	역감마	역감마
가우시안 (평균, 분산 모두 모름)	정규-역감마	정규-역감마
다항	디리클레	디리클레

6.2 사전 파라미터의 해석

켤레 사전은 “가상 관측(pseudo-observation)“으로 해석할 수 있다. 예를 들어 베타 사전 $\text{Beta}(\alpha, \beta)$ 는 $\alpha$ 번의 가상 성공과 $\beta$ 번의 가상 실패에 해당한다. 이를 통해 사전의 “강도“를 직관적으로 이해할 수 있다.

7. 경험적 베이즈(Empirical Bayes)

사전 분포의 하이퍼파라미터(hyperparameter)를 데이터 자체에서 추정하는 방법이다.

$\hat{\boldsymbol{\alpha}} = \arg\max_{\boldsymbol{\alpha}}\int p(\mathbf{z} \vert \boldsymbol{\theta})p(\boldsymbol{\theta} \vert \boldsymbol{\alpha})d\boldsymbol{\theta}$

순수 베이지안 접근은 아니지만, 사전 지식이 없을 때 데이터 의존적 사전을 구성하는 실용적 방법이다.

8. 로봇 공학에서의 사전 분포 선택

물리적 제약: 로봇 파라미터는 물리적 의미를 가지므로(질량 > 0, 각도 범위 등) 사전 분포가 이를 반영해야 한다.

이전 캘리브레이션: 공장에서 제공된 명목 파라미터와 보수적 공분산이 사전 분포를 형성한다.

계층 모델: 여러 로봇에서의 공통 파라미터 분포를 상위 모수로 모델링하는 계층 베이지안 접근이 가능하다.

9. 참고 문헌

Jeffreys, H. (1946). “An Invariant Form for the Prior Probability in Estimation Problems.” Proceedings of the Royal Society A, 186(1007), 453–461.
Bernardo, J. M. (1979). “Reference Posterior Distributions for Bayesian Inference.” Journal of the Royal Statistical Society: Series B, 41(2), 113–147.
Gelman, A., et al. (2013). Bayesian Data Analysis (3rd ed.). CRC Press.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

version: 1.0