8.55 가우시안 과정(GP)의 정의와 성질
1. 가우시안 과정의 정의
가우시안 과정(Gaussian Process, GP)은 확률 과정의 한 종류로, 유한 개의 지점에서 추출한 확률 변수의 결합 분포가 항상 다변량 가우시안인 과정이다.
1.1 정식 정의
확률 과정 \{f(\mathbf{x}) : \mathbf{x} \in \mathcal{X}\}가 가우시안 과정이란, 임의의 유한 집합 \{\mathbf{x}_1, \ldots, \mathbf{x}_n\} \subset \mathcal{X}에 대해 확률 벡터 [f(\mathbf{x}_1), \ldots, f(\mathbf{x}_n)]^T가 다변량 가우시안 분포를 따르는 것이다.
가우시안 과정은 평균 함수 m(\mathbf{x})와 공분산 함수(커널) k(\mathbf{x}, \mathbf{x}')에 의해 완전히 기술된다.
m(\mathbf{x}) = \mathbb{E}[f(\mathbf{x})]
k(\mathbf{x}, \mathbf{x}') = \mathbb{E}[(f(\mathbf{x}) - m(\mathbf{x}))(f(\mathbf{x}') - m(\mathbf{x}'))]
표기: f \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))
2. 함수 공간에서의 가우시안 분포
가우시안 과정은 “함수에 대한 분포“로 해석된다. 유한 차원 가우시안 분포가 벡터의 확률 분포인 반면, GP는 함수의 확률 분포이다. 이는 비모수(non-parametric) 베이지안 회귀와 분류의 이론적 기반이다.
3. 공분산 함수(커널)
커널 k(\mathbf{x}, \mathbf{x}')는 두 입력 점의 출력 값 사이의 상관을 규정한다. 커널은 대칭 양의 반정치이어야 한다. 즉, 임의의 유한 집합의 입력에서 평가된 공분산 행렬이 양의 반정치이어야 한다.
3.1 주요 커널 함수
RBF(Radial Basis Function) 커널 / 제곱 지수 커널:
k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{\lVert\mathbf{x} - \mathbf{x}'\rVert^2}{2\ell^2}\right)
\ell은 길이 스케일(length scale), \sigma_f^2은 신호 분산이다. 매끄러운 함수를 모델링하며 가장 널리 사용된다.
마테른(Matérn) 커널: 매끄러움의 차수를 조절할 수 있는 커널이다.
k_\nu(r) = \frac{2^{1-\nu}}{\Gamma(\nu)}\left(\frac{\sqrt{2\nu}r}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2\nu}r}{\ell}\right)
여기서 r = \lVert\mathbf{x} - \mathbf{x}'\rVert, K_\nu는 수정된 베셀 함수이다. \nu \to \infty에서 RBF 커널로 수렴한다.
선형 커널: k(\mathbf{x}, \mathbf{x}') = \sigma_0^2 + \mathbf{x}^T\mathbf{x}', 선형 회귀에 대응한다.
주기 커널(Periodic Kernel):
k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{2\sin^2(\pi\lvert\mathbf{x} - \mathbf{x}'\rvert/p)}{\ell^2}\right)
주기 p를 갖는 주기 함수를 모델링한다.
4. GP의 성질
4.1 평균성(Stationarity)
k(\mathbf{x}, \mathbf{x}')이 \mathbf{x} - \mathbf{x}'에만 의존하면 정상(stationary) GP이다. RBF, 마테른 커널이 이에 해당한다.
4.2 등방성(Isotropy)
k가 \lVert\mathbf{x} - \mathbf{x}'\rVert에만 의존하면 등방성이다.
4.3 매끄러움
커널의 매끄러움이 표본 경로의 매끄러움을 결정한다. RBF 커널은 모든 차수로 미분 가능한 함수를, 마테른 커널 (\nu = 3/2)은 한 번 미분 가능한 함수를 모델링한다.
5. 사전 분포로서의 GP
GP는 함수에 대한 사전 분포를 정의한다. 관측 데이터 \{(\mathbf{x}_i, y_i)\}_{i=1}^{n}이 주어졌을 때, 새 입력 \mathbf{x}_*에서의 함수값 f(\mathbf{x}_*)의 사후 분포가 가우시안이며, 해석적으로 계산 가능하다.
6. 가우시안 과정 회귀(GP Regression)
관측 모델 y_i = f(\mathbf{x}_i) + \epsilon_i, \epsilon_i \sim \mathcal{N}(0, \sigma_n^2).
테스트 점 \mathbf{x}_*에서의 예측 분포는 가우시안이다.
f(\mathbf{x}_*) \vert \mathbf{X}, \mathbf{y}, \mathbf{x}_* \sim \mathcal{N}(\bar{f}_*, \sigma_*^2)
\bar{f}_* = \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y}
\sigma_*^2 = k(\mathbf{x}_*, \mathbf{x}_*) - \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{k}_*
여기서 \mathbf{K}_{ij} = k(\mathbf{x}_i, \mathbf{x}_j), [\mathbf{k}_*]_i = k(\mathbf{x}_i, \mathbf{x}_*)이다.
예측 분포는 평균(점 예측)과 분산(불확실성)을 모두 제공한다. 이는 GP의 핵심 이점이며, 데이터가 적은 영역에서 불확실성이 자동으로 증가한다.
7. 하이퍼파라미터 학습
커널의 하이퍼파라미터 \boldsymbol{\theta} (길이 스케일, 신호 분산 등)는 로그 주변 가능도를 최대화하여 학습한다.
\ln p(\mathbf{y} \vert \mathbf{X}, \boldsymbol{\theta}) = -\frac{1}{2}\mathbf{y}^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y} - \frac{1}{2}\ln\lvert\mathbf{K} + \sigma_n^2\mathbf{I}\rvert - \frac{n}{2}\ln(2\pi)
8. 계산 복잡도
GP 회귀의 계산 복잡도는 학습 시 O(n^3) (공분산 행렬의 분해), 예측 시 O(n) 또는 O(n^2)이다. 대규모 데이터에서는 희소 근사(sparse approximation), 변분 GP 등의 확장이 필요하다.
9. 로봇 공학에서의 GP
동역학 모델 학습: 미지의 비선형 동역학 함수 \mathbf{x}_{t+1} = f(\mathbf{x}_t, \mathbf{u}_t)를 GP로 학습한다. 불확실성 정량화가 모델 기반 강화 학습에서 중요하다.
지도 표현: GP 기반 점유 지도(GP Occupancy Map)가 연속 공간에서의 부드러운 지도 표현을 제공한다.
역기구학 학습: 관절 공간과 작업 공간 사이의 사상을 GP로 학습한다.
10. 참고 문헌
- Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Deisenroth, M. P., Fox, D., & Rasmussen, C. E. (2015). “Gaussian Processes for Data-Efficient Learning in Robotics and Control.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2), 408–423.
version: 1.0