8.24 혼합 분포 모델과 가우시안 혼합 모델(GMM)

1. 혼합 분포 모델의 정의

혼합 분포 모델(mixture distribution model)은 다수의 성분 분포(component distribution)의 가중 합으로 구성된다.

$p(\mathbf{x}) = \sum_{k=1}^{K}\pi_k p_k(\mathbf{x})$

여기서 $K$ 는 성분의 수, $\pi_k$ 는 혼합 가중치(mixing weight)로 $\pi_k \geq 0$ , $\sum_{k=1}^{K}\pi_k = 1$ 을 만족하고, $p_k(\mathbf{x})$ 는 $k$ 번째 성분 분포이다. 혼합 모델은 전확률 정리의 직접적 응용으로, 잠재 변수 $Z \in \{1, \ldots, K\}$ ( $P(Z = k) = \pi_k$ )가 성분을 선택하고, 선택된 성분으로부터 데이터가 생성되는 생성 과정으로 해석된다.

2. 가우시안 혼합 모델(Gaussian Mixture Model, GMM)

2.1 정의

각 성분이 다변량 가우시안인 혼합 모델이다.

$p(\mathbf{x}) = \sum_{k=1}^{K}\pi_k \mathcal{N}(\mathbf{x} \vert \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)$

GMM의 매개변수는 $\boldsymbol{\theta} = \{\pi_k, \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k\}_{k=1}^{K}$ 이다. 성분 수 $K$ 와 각 성분의 평균, 공분산, 가중치가 모델을 완전히 정의한다.

2.2 표현력

GMM은 성분 수 $K$ 를 충분히 크게 설정하면 임의의 연속 확률 밀도를 임의의 정밀도로 근사할 수 있는 범용 근사기(universal approximator)이다. 이 유연성이 GMM의 핵심 이점이다.

3. EM 알고리즘에 의한 파라미터 추정

3.1 기대-최대화(Expectation-Maximization, EM) 알고리즘

GMM의 파라미터를 최대 가능도(maximum likelihood)로 추정하기 위해 EM 알고리즘이 사용된다. 잠재 변수(성분 소속)의 존재로 직접 최적화가 어려우므로, E 단계와 M 단계를 교대로 수행한다.

E 단계 (기대 단계): 현재 파라미터 $\boldsymbol{\theta}^{(t)}$ 에서 각 데이터 점 $\mathbf{x}_i$ 의 성분 $k$ 에 대한 사후 확률(책임도, responsibility)을 계산한다.

$r_{ik} = \frac{\pi_k \mathcal{N}(\mathbf{x}_i \vert \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)}{\sum_{j=1}^{K}\pi_j \mathcal{N}(\mathbf{x}_i \vert \boldsymbol{\mu}_j, \boldsymbol{\Sigma}_j)}$

M 단계 (최대 단계): 책임도를 이용하여 파라미터를 갱신한다.

$N_k = \sum_{i=1}^{N}r_{ik}$

$\boldsymbol{\mu}_k^{new} = \frac{1}{N_k}\sum_{i=1}^{N}r_{ik}\mathbf{x}_i$

$\boldsymbol{\Sigma}_k^{new} = \frac{1}{N_k}\sum_{i=1}^{N}r_{ik}(\mathbf{x}_i - \boldsymbol{\mu}_k^{new})(\mathbf{x}_i - \boldsymbol{\mu}_k^{new})^T$

$\pi_k^{new} = \frac{N_k}{N}$

EM 알고리즘은 로그 가능도를 단조 증가시키며, 국소 최적해에 수렴한다. 전역 최적을 보장하지 않으므로, 다중 초기화(multiple initialization)가 권장된다.

3.2 성분 수 $K$ 의 선택

BIC(Bayesian Information Criterion), AIC(Akaike Information Criterion) 등의 모델 선택 기준이 사용된다.

$\text{BIC} = -2\ln \hat{L} + d\ln N$

여기서 $\hat{L}$ 은 최대 가능도, $d$ 는 자유 매개변수의 수, $N$ 은 데이터 수이다. BIC를 최소화하는 $K$ 를 선택한다.

4. 로봇 공학에서의 GMM 응용

4.1 다봉 분포의 모델링

단일 가우시안으로 표현할 수 없는 다봉(multimodal) 분포를 GMM으로 모델링한다. 로봇 위치 추정에서 다수의 가설이 존재하는 경우(글로벌 위치 추정, 납치 로봇 문제), 각 가설이 하나의 가우시안 성분에 대응한다.

4.2 센서 모델의 혼합 표현

거리 센서의 관측 모델에서 정상 측정(가우시안), 최대 거리 측정(점질량), 무작위 측정(균일) 등이 혼합 모델로 표현된다.

4.3 운동 프리미티브의 인코딩

로봇의 동작 시범(demonstration)을 GMM으로 인코딩하는 가우시안 혼합 회귀(Gaussian Mixture Regression, GMR) 방법이 모방 학습에 사용된다. 시간-위치 쌍의 결합 분포를 GMM으로 학습하고, 시간이 주어지면 조건부 분포로부터 위치를 예측한다.

4.4 배경 제거와 이상 탐지

시각 센서에서 배경 모델을 각 픽셀별 GMM으로 유지하고, 새 관측이 모델에 맞지 않으면 전경(움직이는 물체)으로 분류한다.

4.5 밀도 추정과 클러스터링

GMM은 소프트 클러스터링(soft clustering)을 제공한다. 각 데이터 점이 확률적으로 다수의 성분에 소속되며, 하드 클러스터링(k-means)보다 유연한 분류가 가능하다. k-means는 GMM에서 공분산을 $\sigma^2\mathbf{I}$ 로 제한하고 $\sigma \to 0$ 인 극한에 해당한다.

5. 참고 문헌

Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
McLachlan, G. J., & Peel, D. (2000). Finite Mixture Models. Wiley.
Calinon, S. (2016). “A Tutorial on Task-Parameterized Movement Learning and Retrieval.” Intelligent Service Robotics, 9(1), 1–29.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). “Maximum Likelihood from Incomplete Data via the EM Algorithm.” Journal of the Royal Statistical Society: Series B, 39(1), 1–38.

version: 1.0