8.63 깁스 샘플링의 원리와 구현

1. 깁스 샘플링의 개요

깁스 샘플링(Gibbs Sampling)은 다변량 분포로부터 샘플을 생성하는 MCMC 방법으로, 각 성분을 다른 성분들이 주어진 조건부 분포에 따라 순차적으로 갱신한다. 기맨과 기맨(Geman & Geman, 1984)이 통계 물리학에서 영감을 받아 영상 복원에 도입한 후, 베이지안 통계에서 널리 사용되고 있다.

2. 기본 원리

다변량 확률 변수 $\mathbf{x} = (x_1, x_2, \ldots, x_d)$ 의 결합 분포 $p(\mathbf{x})$ 로부터 샘플을 생성한다. 깁스 샘플링은 각 성분 $x_i$ 를 조건부 분포 $p(x_i \vert \mathbf{x}_{-i})$ 로부터 샘플링한다. 여기서 $\mathbf{x}_{-i} = (x_1, \ldots, x_{i-1}, x_{i+1}, \ldots, x_d)$ 이다.

3. 알고리즘

초기화: $\mathbf{x}^{(0)} = (x_1^{(0)}, \ldots, x_d^{(0)})$ 설정

반복: $t = 0, 1, 2, \ldots$ 에 대해:

$x_1^{(t+1)} \sim p(x_1 \vert x_2^{(t)}, x_3^{(t)}, \ldots, x_d^{(t)})$

$x_2^{(t+1)} \sim p(x_2 \vert x_1^{(t+1)}, x_3^{(t)}, \ldots, x_d^{(t)})$

$\vdots$

$x_d^{(t+1)} \sim p(x_d \vert x_1^{(t+1)}, x_2^{(t+1)}, \ldots, x_{d-1}^{(t+1)})$

각 성분의 갱신에서 직전까지 갱신된 값을 사용하는 점이 핵심이다(순차적 갱신).

4. 메트로폴리스-헤이스팅스의 특수 경우

깁스 샘플링은 M-H의 특수한 경우로 해석할 수 있다. 각 성분의 갱신에서 제안 분포를 조건부 분포 $q(x_i' \vert \mathbf{x}) = p(x_i' \vert \mathbf{x}_{-i})$ 로 선택하면, 수락 확률이 항상 1이 된다.

$\alpha = \min\left(1, \frac{p(\mathbf{x}')p(x_i \vert \mathbf{x}_{-i}')}{p(\mathbf{x})p(x_i' \vert \mathbf{x}_{-i})}\right) = 1$

이 100% 수락률이 깁스 샘플링의 큰 이점이다.

5. 적용 조건

깁스 샘플링이 실용적이려면 각 조건부 분포 $p(x_i \vert \mathbf{x}_{-i})$ 로부터의 샘플링이 효율적이어야 한다. 다음의 경우에 유리하다.

결합 분포가 조건부로 표준 분포: 조건부 분포가 가우시안, 베타, 디리클레 등 알려진 분포로 표현되는 경우
베이즈 네트워크: 각 노드의 조건부 분포가 단순하게 표현되는 경우
계층 베이지안 모델: 하이퍼파라미터의 조건부 분포가 켤레 관계에 있는 경우

6. 블록 깁스 샘플링

성분을 개별적으로가 아니라 블록(block)으로 묶어 동시에 갱신하는 변형이다.

$\mathbf{x}_A^{(t+1)} \sim p(\mathbf{x}_A \vert \mathbf{x}_{-A}^{(t)})$

블록 크기의 선택은 “각 블록으로부터의 샘플링 용이성“과 “수렴 속도“의 상충 관계에 의해 결정된다. 상관이 높은 변수를 같은 블록에 묶으면 수렴이 가속된다.

7. 결합 가우시안에서의 깁스 샘플링

다변량 가우시안 $\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 에서 조건부 분포는 해석적으로 계산 가능한 가우시안이다.

$x_i \vert \mathbf{x}_{-i} \sim \mathcal{N}(\mu_{i \vert -i}, \sigma_{i \vert -i}^2)$

조건부 평균과 분산은 $\boldsymbol{\mu}$ , $\boldsymbol{\Sigma}$ 로부터 계산된다. 가우시안의 경우 직접 샘플링이 더 효율적이므로, 깁스 샘플링은 조건부 독립성이 강한 구조에서 주로 사용된다.

8. 잠재 변수 모델에서의 활용

8.1 혼합 모델

가우시안 혼합 모델(GMM)에서 각 데이터의 성분 할당과 모델 매개변수를 교대로 샘플링한다.

$z_i$ (성분 할당) $\sim p(z_i \vert \mathbf{x}_i, \boldsymbol{\theta})$
$\boldsymbol{\theta}$ (매개변수) $\sim p(\boldsymbol{\theta} \vert \mathbf{x}, \mathbf{z})$

8.2 잠재 디리클레 할당(LDA)

토픽 모델에서 토픽 할당과 단어 분포를 깁스 샘플링으로 추정한다.

9. 수렴 고려 사항

깁스 샘플링은 이론적으로 유효한 MCMC이지만, 변수 간 강한 상관이 있으면 수렴이 느릴 수 있다. 한 변수를 갱신할 때 다른 변수가 고정되므로, 대각 방향이 아닌 축 방향으로만 이동하게 된다. 이 “천천히 회전하는” 거동이 수렴을 지연시킨다.

상관 구조를 고려한 재매개변수화나 블록 갱신이 이를 완화한다.

10. 로봇 공학에서의 응용

베이지안 그래프 모델: 가우시안 마르코프 랜덤 필드(GMRF) 기반 SLAM에서 각 포즈와 랜드마크의 조건부 분포를 깁스 샘플링으로 샘플링한다.

이산-연속 혼합 모델: 접촉 모드(이산)와 접촉력(연속)이 혼합된 문제에서 각 범주의 조건부 분포를 교대로 샘플링한다.

계층 베이지안 캘리브레이션: 다수 로봇의 공통 분포에서 개별 파라미터를 추출하는 계층 모델에서 깁스 샘플링이 활용된다.

11. 참고 문헌

Geman, S., & Geman, D. (1984). “Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(6), 721–741.
Gelfand, A. E., & Smith, A. F. M. (1990). “Sampling-Based Approaches to Calculating Marginal Densities.” Journal of the American Statistical Association, 85(410), 398–409.
Robert, C. P., & Casella, G. (2004). Monte Carlo Statistical Methods (2nd ed.). Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.

version: 1.0