8.31 공분산 행렬의 정의와 성질
1. 정의
n차원 확률 벡터 \mathbf{X} = [X_1, \ldots, X_n]^T의 공분산 행렬(covariance matrix) \boldsymbol{\Sigma} \in \mathbb{R}^{n \times n}은 다음과 같이 정의된다.
\boldsymbol{\Sigma} = \text{Cov}(\mathbf{X}) = \mathbb{E}[(\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T]
성분별로:
\Sigma_{ij} = \text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mu_i)(X_j - \mu_j)]
공분산 행렬은 확률 벡터의 2차 통계량을 완전히 기술하며, 가우시안 분포에서는 평균과 함께 분포를 완전히 특성화한다.
2. 핵심 성질
2.1 대칭성
\boldsymbol{\Sigma} = \boldsymbol{\Sigma}^T
\text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i)이므로 공분산 행렬은 항상 대칭이다.
2.2 양의 반정치(Positive Semi-Definiteness)
임의의 벡터 \mathbf{a} \in \mathbb{R}^n에 대해:
\mathbf{a}^T\boldsymbol{\Sigma}\mathbf{a} = \text{Var}(\mathbf{a}^T\mathbf{X}) \geq 0
분산이 항상 비음수이므로, 공분산 행렬은 양의 반정치(positive semi-definite, PSD)이다. 역으로, 모든 대칭 PSD 행렬은 어떤 확률 벡터의 공분산 행렬이 될 수 있다.
\boldsymbol{\Sigma}가 양정치(positive definite)이면 모든 \mathbf{a} \neq \mathbf{0}에 대해 \mathbf{a}^T\boldsymbol{\Sigma}\mathbf{a} > 0이고, 이는 어떤 비자명한 선형 결합도 상수가 아님을 의미한다. 양정치이면 \boldsymbol{\Sigma}의 역행렬이 존재하며 다변량 가우시안의 PDF가 정의된다.
2.3 대각 원소
\Sigma_{ii} = \text{Var}(X_i) \geq 0
대각 원소는 각 성분의 분산이므로 항상 비음수이다.
2.4 비대각 원소의 범위
\lvert\Sigma_{ij}\rvert \leq \sqrt{\Sigma_{ii}\Sigma_{jj}}
코시-슈바르츠 부등식에 의한 제한이다. \Sigma_{ij} = \pm\sqrt{\Sigma_{ii}\Sigma_{jj}}이면 X_i와 X_j 사이에 완전 선형 관계가 존재한다.
3. 선형 변환에서의 공분산
3.1 아핀 변환
\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b}이면:
\text{Cov}(\mathbf{Y}) = \mathbf{A}\boldsymbol{\Sigma}_X\mathbf{A}^T
이 공식은 로봇 공학에서 좌표 변환, 순방향 기구학, 센서 모델 등에 의한 불확실성 전파의 기본이다.
3.2 두 벡터의 합
\text{Cov}(\mathbf{X} + \mathbf{Y}) = \boldsymbol{\Sigma}_X + \boldsymbol{\Sigma}_Y + \boldsymbol{\Sigma}_{XY} + \boldsymbol{\Sigma}_{XY}^T
\mathbf{X}와 \mathbf{Y}가 독립이면 교차 공분산 \boldsymbol{\Sigma}_{XY} = \mathbf{0}이므로 \text{Cov}(\mathbf{X} + \mathbf{Y}) = \boldsymbol{\Sigma}_X + \boldsymbol{\Sigma}_Y이다.
4. 고유값 분해와 주성분
\boldsymbol{\Sigma} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^T
고유값 \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0은 주성분 방향의 분산이며, 대응하는 고유벡터 \mathbf{v}_i가 주성분 방향이다. 최대 고유값의 방향이 분포의 최대 분산 방향이다.
4.1 조건수
\kappa(\boldsymbol{\Sigma}) = \frac{\lambda_{\max}}{\lambda_{\min}}
조건수가 크면 분포가 한 방향으로 극단적으로 늘어난 타원체 형태이다. 칼만 필터에서 공분산 행렬의 조건수가 크면 수치적 불안정이 발생할 수 있다.
5. 정보 행렬(Information Matrix)
공분산 행렬의 역행렬 \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}을 정보 행렬(information matrix) 또는 정밀도 행렬(precision matrix)이라 한다.
가우시안 분포에서 정보 행렬의 비대각 원소 \Lambda_{ij}가 영이면 X_i와 X_j가 조건부 독립이다. 이는 공분산 행렬의 비대각 원소가 영인 것(비상관)과 다른 성질이다.
6. 수치적 고려 사항
6.1 양정치 보장
칼만 필터의 공분산 갱신에서 반올림 오차에 의해 공분산 행렬의 대칭성과 양정치성이 위반될 수 있다. 조셉(Joseph) 형식의 갱신이 수치적 안정성을 향상시킨다.
\mathbf{P}^+ = (\mathbf{I} - \mathbf{K}\mathbf{H})\mathbf{P}^-(\mathbf{I} - \mathbf{K}\mathbf{H})^T + \mathbf{K}\mathbf{R}\mathbf{K}^T
이 형식은 결과가 항상 대칭 PSD임을 구조적으로 보장한다.
6.2 촐레스키 분해를 이용한 표현
\boldsymbol{\Sigma} = \mathbf{L}\mathbf{L}^T (촐레스키 분해)를 사용하면 하삼각 행렬 \mathbf{L}로 공분산을 컴팩트하게 표현할 수 있다. 양정치 보장, 난수 생성(\mathbf{X} = \mathbf{L}\mathbf{Z} + \boldsymbol{\mu}, \mathbf{Z} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})), 로그 행렬식 계산에 유용하다.
7. 참고 문헌
- Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
- Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.
- Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
- Bar-Shalom, Y., Li, X. R., & Kirubarajan, T. (2001). Estimation with Applications to Tracking and Navigation. Wiley.
version: 1.0