8.55 가우시안 과정(GP)의 정의와 성질

1. 가우시안 과정의 정의

가우시안 과정(Gaussian Process, GP)은 확률 과정의 한 종류로, 유한 개의 지점에서 추출한 확률 변수의 결합 분포가 항상 다변량 가우시안인 과정이다.

1.1 정식 정의

확률 과정 $\{f(\mathbf{x}) : \mathbf{x} \in \mathcal{X}\}$ 가 가우시안 과정이란, 임의의 유한 집합 $\{\mathbf{x}_1, \ldots, \mathbf{x}_n\} \subset \mathcal{X}$ 에 대해 확률 벡터 $[f(\mathbf{x}_1), \ldots, f(\mathbf{x}_n)]^T$ 가 다변량 가우시안 분포를 따르는 것이다.

가우시안 과정은 평균 함수 $m(\mathbf{x})$ 와 공분산 함수(커널) $k(\mathbf{x}, \mathbf{x}')$ 에 의해 완전히 기술된다.

$m(\mathbf{x}) = \mathbb{E}[f(\mathbf{x})]$

$k(\mathbf{x}, \mathbf{x}') = \mathbb{E}[(f(\mathbf{x}) - m(\mathbf{x}))(f(\mathbf{x}') - m(\mathbf{x}'))]$

표기: $f \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))$

2. 함수 공간에서의 가우시안 분포

가우시안 과정은 “함수에 대한 분포“로 해석된다. 유한 차원 가우시안 분포가 벡터의 확률 분포인 반면, GP는 함수의 확률 분포이다. 이는 비모수(non-parametric) 베이지안 회귀와 분류의 이론적 기반이다.

3. 공분산 함수(커널)

커널 $k(\mathbf{x}, \mathbf{x}')$ 는 두 입력 점의 출력 값 사이의 상관을 규정한다. 커널은 대칭 양의 반정치이어야 한다. 즉, 임의의 유한 집합의 입력에서 평가된 공분산 행렬이 양의 반정치이어야 한다.

3.1 주요 커널 함수

RBF(Radial Basis Function) 커널 / 제곱 지수 커널:

$k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{\lVert\mathbf{x} - \mathbf{x}'\rVert^2}{2\ell^2}\right)$

$\ell$ 은 길이 스케일(length scale), $\sigma_f^2$ 은 신호 분산이다. 매끄러운 함수를 모델링하며 가장 널리 사용된다.

마테른(Matérn) 커널: 매끄러움의 차수를 조절할 수 있는 커널이다.

$k_\nu(r) = \frac{2^{1-\nu}}{\Gamma(\nu)}\left(\frac{\sqrt{2\nu}r}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2\nu}r}{\ell}\right)$

여기서 $r = \lVert\mathbf{x} - \mathbf{x}'\rVert$ , $K_\nu$ 는 수정된 베셀 함수이다. $\nu \to \infty$ 에서 RBF 커널로 수렴한다.

선형 커널: $k(\mathbf{x}, \mathbf{x}') = \sigma_0^2 + \mathbf{x}^T\mathbf{x}'$ , 선형 회귀에 대응한다.

주기 커널(Periodic Kernel):

$k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{2\sin^2(\pi\lvert\mathbf{x} - \mathbf{x}'\rvert/p)}{\ell^2}\right)$

주기 $p$ 를 갖는 주기 함수를 모델링한다.

4. GP의 성질

4.1 평균성(Stationarity)

$k(\mathbf{x}, \mathbf{x}')$ 이 $\mathbf{x} - \mathbf{x}'$ 에만 의존하면 정상(stationary) GP이다. RBF, 마테른 커널이 이에 해당한다.

4.2 등방성(Isotropy)

$k$ 가 $\lVert\mathbf{x} - \mathbf{x}'\rVert$ 에만 의존하면 등방성이다.

4.3 매끄러움

커널의 매끄러움이 표본 경로의 매끄러움을 결정한다. RBF 커널은 모든 차수로 미분 가능한 함수를, 마테른 커널 ( $\nu = 3/2$ )은 한 번 미분 가능한 함수를 모델링한다.

5. 사전 분포로서의 GP

GP는 함수에 대한 사전 분포를 정의한다. 관측 데이터 $\{(\mathbf{x}_i, y_i)\}_{i=1}^{n}$ 이 주어졌을 때, 새 입력 $\mathbf{x}_*$ 에서의 함수값 $f(\mathbf{x}_*)$ 의 사후 분포가 가우시안이며, 해석적으로 계산 가능하다.

6. 가우시안 과정 회귀(GP Regression)

관측 모델 $y_i = f(\mathbf{x}_i) + \epsilon_i$ , $\epsilon_i \sim \mathcal{N}(0, \sigma_n^2)$ .

테스트 점 $\mathbf{x}_*$ 에서의 예측 분포는 가우시안이다.

$f(\mathbf{x}_*) \vert \mathbf{X}, \mathbf{y}, \mathbf{x}_* \sim \mathcal{N}(\bar{f}_*, \sigma_*^2)$

$\bar{f}_* = \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y}$

$\sigma_*^2 = k(\mathbf{x}_*, \mathbf{x}_*) - \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{k}_*$

여기서 $\mathbf{K}_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ , $[\mathbf{k}_*]_i = k(\mathbf{x}_i, \mathbf{x}_*)$ 이다.

예측 분포는 평균(점 예측)과 분산(불확실성)을 모두 제공한다. 이는 GP의 핵심 이점이며, 데이터가 적은 영역에서 불확실성이 자동으로 증가한다.

7. 하이퍼파라미터 학습

커널의 하이퍼파라미터 $\boldsymbol{\theta}$ (길이 스케일, 신호 분산 등)는 로그 주변 가능도를 최대화하여 학습한다.

$\ln p(\mathbf{y} \vert \mathbf{X}, \boldsymbol{\theta}) = -\frac{1}{2}\mathbf{y}^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y} - \frac{1}{2}\ln\lvert\mathbf{K} + \sigma_n^2\mathbf{I}\rvert - \frac{n}{2}\ln(2\pi)$

8. 계산 복잡도

GP 회귀의 계산 복잡도는 학습 시 $O(n^3)$ (공분산 행렬의 분해), 예측 시 $O(n)$ 또는 $O(n^2)$ 이다. 대규모 데이터에서는 희소 근사(sparse approximation), 변분 GP 등의 확장이 필요하다.

9. 로봇 공학에서의 GP

동역학 모델 학습: 미지의 비선형 동역학 함수 $\mathbf{x}_{t+1} = f(\mathbf{x}_t, \mathbf{u}_t)$ 를 GP로 학습한다. 불확실성 정량화가 모델 기반 강화 학습에서 중요하다.

지도 표현: GP 기반 점유 지도(GP Occupancy Map)가 연속 공간에서의 부드러운 지도 표현을 제공한다.

역기구학 학습: 관절 공간과 작업 공간 사이의 사상을 GP로 학습한다.

10. 참고 문헌

Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Deisenroth, M. P., Fox, D., & Rasmussen, C. E. (2015). “Gaussian Processes for Data-Efficient Learning in Robotics and Control.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2), 408–423.

version: 1.0