8.55 가우시안 과정(GP)의 정의와 성질

1. 가우시안 과정의 정의

가우시안 과정(Gaussian Process, GP)은 확률 과정의 한 종류로, 유한 개의 지점에서 추출한 확률 변수의 결합 분포가 항상 다변량 가우시안인 과정이다.

1.1 정식 정의

확률 과정 \{f(\mathbf{x}) : \mathbf{x} \in \mathcal{X}\}가 가우시안 과정이란, 임의의 유한 집합 \{\mathbf{x}_1, \ldots, \mathbf{x}_n\} \subset \mathcal{X}에 대해 확률 벡터 [f(\mathbf{x}_1), \ldots, f(\mathbf{x}_n)]^T가 다변량 가우시안 분포를 따르는 것이다.

가우시안 과정은 평균 함수 m(\mathbf{x})와 공분산 함수(커널) k(\mathbf{x}, \mathbf{x}')에 의해 완전히 기술된다.

m(\mathbf{x}) = \mathbb{E}[f(\mathbf{x})]

k(\mathbf{x}, \mathbf{x}') = \mathbb{E}[(f(\mathbf{x}) - m(\mathbf{x}))(f(\mathbf{x}') - m(\mathbf{x}'))]

표기: f \sim \mathcal{GP}(m(\mathbf{x}), k(\mathbf{x}, \mathbf{x}'))

2. 함수 공간에서의 가우시안 분포

가우시안 과정은 “함수에 대한 분포“로 해석된다. 유한 차원 가우시안 분포가 벡터의 확률 분포인 반면, GP는 함수의 확률 분포이다. 이는 비모수(non-parametric) 베이지안 회귀와 분류의 이론적 기반이다.

3. 공분산 함수(커널)

커널 k(\mathbf{x}, \mathbf{x}')는 두 입력 점의 출력 값 사이의 상관을 규정한다. 커널은 대칭 양의 반정치이어야 한다. 즉, 임의의 유한 집합의 입력에서 평가된 공분산 행렬이 양의 반정치이어야 한다.

3.1 주요 커널 함수

RBF(Radial Basis Function) 커널 / 제곱 지수 커널:

k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{\lVert\mathbf{x} - \mathbf{x}'\rVert^2}{2\ell^2}\right)

\ell은 길이 스케일(length scale), \sigma_f^2은 신호 분산이다. 매끄러운 함수를 모델링하며 가장 널리 사용된다.

마테른(Matérn) 커널: 매끄러움의 차수를 조절할 수 있는 커널이다.

k_\nu(r) = \frac{2^{1-\nu}}{\Gamma(\nu)}\left(\frac{\sqrt{2\nu}r}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2\nu}r}{\ell}\right)

여기서 r = \lVert\mathbf{x} - \mathbf{x}'\rVert, K_\nu는 수정된 베셀 함수이다. \nu \to \infty에서 RBF 커널로 수렴한다.

선형 커널: k(\mathbf{x}, \mathbf{x}') = \sigma_0^2 + \mathbf{x}^T\mathbf{x}', 선형 회귀에 대응한다.

주기 커널(Periodic Kernel):

k(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{2\sin^2(\pi\lvert\mathbf{x} - \mathbf{x}'\rvert/p)}{\ell^2}\right)

주기 p를 갖는 주기 함수를 모델링한다.

4. GP의 성질

4.1 평균성(Stationarity)

k(\mathbf{x}, \mathbf{x}')\mathbf{x} - \mathbf{x}'에만 의존하면 정상(stationary) GP이다. RBF, 마테른 커널이 이에 해당한다.

4.2 등방성(Isotropy)

k\lVert\mathbf{x} - \mathbf{x}'\rVert에만 의존하면 등방성이다.

4.3 매끄러움

커널의 매끄러움이 표본 경로의 매끄러움을 결정한다. RBF 커널은 모든 차수로 미분 가능한 함수를, 마테른 커널 (\nu = 3/2)은 한 번 미분 가능한 함수를 모델링한다.

5. 사전 분포로서의 GP

GP는 함수에 대한 사전 분포를 정의한다. 관측 데이터 \{(\mathbf{x}_i, y_i)\}_{i=1}^{n}이 주어졌을 때, 새 입력 \mathbf{x}_*에서의 함수값 f(\mathbf{x}_*)의 사후 분포가 가우시안이며, 해석적으로 계산 가능하다.

6. 가우시안 과정 회귀(GP Regression)

관측 모델 y_i = f(\mathbf{x}_i) + \epsilon_i, \epsilon_i \sim \mathcal{N}(0, \sigma_n^2).

테스트 점 \mathbf{x}_*에서의 예측 분포는 가우시안이다.

f(\mathbf{x}_*) \vert \mathbf{X}, \mathbf{y}, \mathbf{x}_* \sim \mathcal{N}(\bar{f}_*, \sigma_*^2)

\bar{f}_* = \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y}

\sigma_*^2 = k(\mathbf{x}_*, \mathbf{x}_*) - \mathbf{k}_*^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{k}_*

여기서 \mathbf{K}_{ij} = k(\mathbf{x}_i, \mathbf{x}_j), [\mathbf{k}_*]_i = k(\mathbf{x}_i, \mathbf{x}_*)이다.

예측 분포는 평균(점 예측)과 분산(불확실성)을 모두 제공한다. 이는 GP의 핵심 이점이며, 데이터가 적은 영역에서 불확실성이 자동으로 증가한다.

7. 하이퍼파라미터 학습

커널의 하이퍼파라미터 \boldsymbol{\theta} (길이 스케일, 신호 분산 등)는 로그 주변 가능도를 최대화하여 학습한다.

\ln p(\mathbf{y} \vert \mathbf{X}, \boldsymbol{\theta}) = -\frac{1}{2}\mathbf{y}^T(\mathbf{K} + \sigma_n^2\mathbf{I})^{-1}\mathbf{y} - \frac{1}{2}\ln\lvert\mathbf{K} + \sigma_n^2\mathbf{I}\rvert - \frac{n}{2}\ln(2\pi)

8. 계산 복잡도

GP 회귀의 계산 복잡도는 학습 시 O(n^3) (공분산 행렬의 분해), 예측 시 O(n) 또는 O(n^2)이다. 대규모 데이터에서는 희소 근사(sparse approximation), 변분 GP 등의 확장이 필요하다.

9. 로봇 공학에서의 GP

동역학 모델 학습: 미지의 비선형 동역학 함수 \mathbf{x}_{t+1} = f(\mathbf{x}_t, \mathbf{u}_t)를 GP로 학습한다. 불확실성 정량화가 모델 기반 강화 학습에서 중요하다.

지도 표현: GP 기반 점유 지도(GP Occupancy Map)가 연속 공간에서의 부드러운 지도 표현을 제공한다.

역기구학 학습: 관절 공간과 작업 공간 사이의 사상을 GP로 학습한다.

10. 참고 문헌

  • Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  • Deisenroth, M. P., Fox, D., & Rasmussen, C. E. (2015). “Gaussian Processes for Data-Efficient Learning in Robotics and Control.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(2), 408–423.

version: 1.0