8.31 공분산 행렬의 정의와 성질

1. 정의

n차원 확률 벡터 \mathbf{X} = [X_1, \ldots, X_n]^T의 공분산 행렬(covariance matrix) \boldsymbol{\Sigma} \in \mathbb{R}^{n \times n}은 다음과 같이 정의된다.

\boldsymbol{\Sigma} = \text{Cov}(\mathbf{X}) = \mathbb{E}[(\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T]

성분별로:

\Sigma_{ij} = \text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mu_i)(X_j - \mu_j)]

공분산 행렬은 확률 벡터의 2차 통계량을 완전히 기술하며, 가우시안 분포에서는 평균과 함께 분포를 완전히 특성화한다.

2. 핵심 성질

2.1 대칭성

\boldsymbol{\Sigma} = \boldsymbol{\Sigma}^T

\text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i)이므로 공분산 행렬은 항상 대칭이다.

2.2 양의 반정치(Positive Semi-Definiteness)

임의의 벡터 \mathbf{a} \in \mathbb{R}^n에 대해:

\mathbf{a}^T\boldsymbol{\Sigma}\mathbf{a} = \text{Var}(\mathbf{a}^T\mathbf{X}) \geq 0

분산이 항상 비음수이므로, 공분산 행렬은 양의 반정치(positive semi-definite, PSD)이다. 역으로, 모든 대칭 PSD 행렬은 어떤 확률 벡터의 공분산 행렬이 될 수 있다.

\boldsymbol{\Sigma}가 양정치(positive definite)이면 모든 \mathbf{a} \neq \mathbf{0}에 대해 \mathbf{a}^T\boldsymbol{\Sigma}\mathbf{a} > 0이고, 이는 어떤 비자명한 선형 결합도 상수가 아님을 의미한다. 양정치이면 \boldsymbol{\Sigma}의 역행렬이 존재하며 다변량 가우시안의 PDF가 정의된다.

2.3 대각 원소

\Sigma_{ii} = \text{Var}(X_i) \geq 0

대각 원소는 각 성분의 분산이므로 항상 비음수이다.

2.4 비대각 원소의 범위

\lvert\Sigma_{ij}\rvert \leq \sqrt{\Sigma_{ii}\Sigma_{jj}}

코시-슈바르츠 부등식에 의한 제한이다. \Sigma_{ij} = \pm\sqrt{\Sigma_{ii}\Sigma_{jj}}이면 X_iX_j 사이에 완전 선형 관계가 존재한다.

3. 선형 변환에서의 공분산

3.1 아핀 변환

\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b}이면:

\text{Cov}(\mathbf{Y}) = \mathbf{A}\boldsymbol{\Sigma}_X\mathbf{A}^T

이 공식은 로봇 공학에서 좌표 변환, 순방향 기구학, 센서 모델 등에 의한 불확실성 전파의 기본이다.

3.2 두 벡터의 합

\text{Cov}(\mathbf{X} + \mathbf{Y}) = \boldsymbol{\Sigma}_X + \boldsymbol{\Sigma}_Y + \boldsymbol{\Sigma}_{XY} + \boldsymbol{\Sigma}_{XY}^T

\mathbf{X}\mathbf{Y}가 독립이면 교차 공분산 \boldsymbol{\Sigma}_{XY} = \mathbf{0}이므로 \text{Cov}(\mathbf{X} + \mathbf{Y}) = \boldsymbol{\Sigma}_X + \boldsymbol{\Sigma}_Y이다.

4. 고유값 분해와 주성분

\boldsymbol{\Sigma} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^T

고유값 \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0은 주성분 방향의 분산이며, 대응하는 고유벡터 \mathbf{v}_i가 주성분 방향이다. 최대 고유값의 방향이 분포의 최대 분산 방향이다.

4.1 조건수

\kappa(\boldsymbol{\Sigma}) = \frac{\lambda_{\max}}{\lambda_{\min}}

조건수가 크면 분포가 한 방향으로 극단적으로 늘어난 타원체 형태이다. 칼만 필터에서 공분산 행렬의 조건수가 크면 수치적 불안정이 발생할 수 있다.

5. 정보 행렬(Information Matrix)

공분산 행렬의 역행렬 \boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}을 정보 행렬(information matrix) 또는 정밀도 행렬(precision matrix)이라 한다.

가우시안 분포에서 정보 행렬의 비대각 원소 \Lambda_{ij}가 영이면 X_iX_j조건부 독립이다. 이는 공분산 행렬의 비대각 원소가 영인 것(비상관)과 다른 성질이다.

6. 수치적 고려 사항

6.1 양정치 보장

칼만 필터의 공분산 갱신에서 반올림 오차에 의해 공분산 행렬의 대칭성과 양정치성이 위반될 수 있다. 조셉(Joseph) 형식의 갱신이 수치적 안정성을 향상시킨다.

\mathbf{P}^+ = (\mathbf{I} - \mathbf{K}\mathbf{H})\mathbf{P}^-(\mathbf{I} - \mathbf{K}\mathbf{H})^T + \mathbf{K}\mathbf{R}\mathbf{K}^T

이 형식은 결과가 항상 대칭 PSD임을 구조적으로 보장한다.

6.2 촐레스키 분해를 이용한 표현

\boldsymbol{\Sigma} = \mathbf{L}\mathbf{L}^T (촐레스키 분해)를 사용하면 하삼각 행렬 \mathbf{L}로 공분산을 컴팩트하게 표현할 수 있다. 양정치 보장, 난수 생성(\mathbf{X} = \mathbf{L}\mathbf{Z} + \boldsymbol{\mu}, \mathbf{Z} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})), 로그 행렬식 계산에 유용하다.

7. 참고 문헌

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
  • Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.
  • Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
  • Bar-Shalom, Y., Li, X. R., & Kirubarajan, T. (2001). Estimation with Applications to Tracking and Navigation. Wiley.

version: 1.0