8.56 가우시안 과정의 커널 함수와 공분산 구조
1. 커널 함수의 역할
가우시안 과정(GP)의 핵심 구성 요소는 공분산 함수(covariance function), 즉 커널(kernel) k(\mathbf{x}, \mathbf{x}')이다. 커널은 두 입력 점에서의 함수값 사이의 상관 정도를 규정하며, GP가 표현할 수 있는 함수 공간의 구조(매끄러움, 주기성, 스케일 등)를 결정한다.
2. 커널의 필수 조건
2.1 대칭성
k(\mathbf{x}, \mathbf{x}') = k(\mathbf{x}', \mathbf{x})
2.2 양의 반정치성
임의의 유한 집합 \{\mathbf{x}_1, \ldots, \mathbf{x}_n\}에 대해 구성된 그람 행렬(Gram matrix) \mathbf{K} (K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j))가 양의 반정치이어야 한다.
\mathbf{a}^T\mathbf{K}\mathbf{a} \geq 0, \quad \forall \mathbf{a} \in \mathbb{R}^n
이 조건은 임의의 선형 결합 \sum_i a_i f(\mathbf{x}_i)의 분산이 비음수가 되도록 보장한다.
3. 주요 커널 계열
3.1 제곱 지수(RBF) 커널
k_{\text{RBF}}(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{\lVert\mathbf{x} - \mathbf{x}'\rVert^2}{2\ell^2}\right)
매개변수:
- \ell: 길이 스케일(length scale). 함수가 유의미하게 변하는 입력 거리.
- \sigma_f^2: 신호 분산.
성질: 무한히 미분 가능한 매끄러운 함수를 생성한다. 가장 널리 사용되지만, 실제 데이터에는 과도하게 매끄러울 수 있다.
3.2 마테른 커널
k_\nu(r) = \sigma_f^2\frac{2^{1-\nu}}{\Gamma(\nu)}\left(\frac{\sqrt{2\nu}r}{\ell}\right)^\nu K_\nu\left(\frac{\sqrt{2\nu}r}{\ell}\right)
여기서 r = \lVert\mathbf{x} - \mathbf{x}'\rVert, K_\nu는 수정된 베셀 함수이다.
특수한 경우:
- \nu = 1/2: k(r) = \sigma_f^2\exp(-r/\ell) (지수 커널, 미분 불가능)
- \nu = 3/2: k(r) = \sigma_f^2(1 + \sqrt{3}r/\ell)\exp(-\sqrt{3}r/\ell) (1회 미분 가능)
- \nu = 5/2: k(r) = \sigma_f^2(1 + \sqrt{5}r/\ell + 5r^2/(3\ell^2))\exp(-\sqrt{5}r/\ell) (2회 미분 가능)
- \nu \to \infty: RBF 커널
매끄러움의 차수 \nu를 조절할 수 있으며, 실제 데이터 모델링에서 RBF보다 유연하다.
3.3 주기 커널(Periodic Kernel)
k_{\text{per}}(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{2\sin^2(\pi\lvert\mathbf{x} - \mathbf{x}'\rvert/p)}{\ell^2}\right)
주기 p를 갖는 주기 함수를 모델링한다. 로봇의 반복적 운동, 시계열 데이터의 계절성 등에 유용하다.
3.4 선형 커널
k_{\text{lin}}(\mathbf{x}, \mathbf{x}') = \sigma_0^2 + \sigma_v^2\mathbf{x}^T\mathbf{x}'
선형 함수를 생성하며, 표준 베이지안 선형 회귀와 동치이다.
3.5 유리 이차(Rational Quadratic) 커널
k_{\text{RQ}}(\mathbf{x}, \mathbf{x}') = \sigma_f^2\left(1 + \frac{\lVert\mathbf{x} - \mathbf{x}'\rVert^2}{2\alpha\ell^2}\right)^{-\alpha}
\alpha \to \infty에서 RBF 커널로 수렴한다. 서로 다른 길이 스케일의 무한 혼합으로 해석된다.
4. 자동 관련성 결정(ARD)
다차원 입력 \mathbf{x} \in \mathbb{R}^D에서 각 차원에 독립적인 길이 스케일을 부여하면 자동 관련성 결정(Automatic Relevance Determination, ARD)이 된다.
k_{\text{ARD}}(\mathbf{x}, \mathbf{x}') = \sigma_f^2\exp\left(-\frac{1}{2}\sum_{d=1}^{D}\frac{(x_d - x_d')^2}{\ell_d^2}\right)
차원 d의 길이 스케일 \ell_d가 매우 크면 해당 차원의 영향이 작음을 의미하며, 특징 선택(feature selection)의 효과가 있다.
5. 커널 결합
5.1 합(Sum)
k = k_1 + k_2는 유효한 커널이다. 서로 다른 성질(장기 추세 + 주기성 등)을 중첩한다.
5.2 곱(Product)
k = k_1 \cdot k_2도 유효한 커널이다. 두 커널의 특성을 곱적으로 결합한다.
5.3 복합 커널의 예
선형 + 주기 커널은 장기 추세를 갖는 주기 함수를 모델링한다.
k(\mathbf{x}, \mathbf{x}') = k_{\text{lin}}(\mathbf{x}, \mathbf{x}') + k_{\text{per}}(\mathbf{x}, \mathbf{x}')
6. 커널의 해석
6.1 스펙트럼 밀도
정상 커널은 푸리에 변환에 의해 스펙트럼 밀도(spectral density)와 연결된다(보흐너 정리, Bochner’s theorem). 스펙트럼 혼합 커널(Spectral Mixture Kernel)은 이 관점에서 일반 커널의 근사를 제공한다.
6.2 재생 커널 힐베르트 공간(RKHS)
각 커널은 재생 커널 힐베르트 공간(Reproducing Kernel Hilbert Space, RKHS)과 연관되며, GP 회귀는 RKHS에서의 정규화된 최소 제곱 회귀와 쌍대 관계를 갖는다.
7. 로봇 공학에서의 커널 선택
매끄러운 동역학: 로봇의 연속적 동역학은 RBF 또는 마테른(\nu = 5/2) 커널로 모델링된다.
주기적 운동: 보행, 회전 운동 등 주기 운동은 주기 커널과 다른 커널의 결합으로 모델링된다.
고차원 입력: 관절 공간 등 고차원 입력에서는 ARD 커널이 차원별 중요도를 자동으로 학습한다.
8. 참고 문헌
- Rasmussen, C. E., & Williams, C. K. I. (2006). Gaussian Processes for Machine Learning. MIT Press.
- Duvenaud, D. (2014). Automatic Model Construction with Gaussian Processes. Ph.D. Thesis, University of Cambridge.
- Wilson, A. G., & Adams, R. P. (2013). “Gaussian Process Kernels for Pattern Discovery and Extrapolation.” Proceedings of ICML, 1067–1075.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
version: 1.0