6.140 공분산 행렬의 의미와 전파

1. 공분산 행렬의 정의

확률 벡터 \mathbf{x} \in \mathbb{R}^n의 공분산 행렬(covariance matrix) \mathbf{P}는 다음과 같이 정의한다.

\mathbf{P} = \text{Cov}(\mathbf{x}) = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T]

여기서 \boldsymbol{\mu} = E[\mathbf{x}]는 평균 벡터이다. 성분별로 전개하면

P_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \text{Cov}(x_i, x_j)

이다. 대각 원소 P_{ii} = \text{Var}(x_i)는 각 변수의 분산이고, 비대각 원소 P_{ij}(i \neq j)는 두 변수 간의 공분산이다.

2. 공분산 행렬의 선형대수학적 성질

2.1 대칭성

정의로부터 P_{ij} = P_{ji}이므로 \mathbf{P} = \mathbf{P}^T이다. 즉, 공분산 행렬은 항상 대칭 행렬이다.

2.2 양의 반정치성

임의의 벡터 \mathbf{a} \in \mathbb{R}^n에 대하여

\mathbf{a}^T \mathbf{P} \mathbf{a} = E[(\mathbf{a}^T(\mathbf{x} - \boldsymbol{\mu}))^2] = \text{Var}(\mathbf{a}^T \mathbf{x}) \geq 0

이므로 \mathbf{P} \succeq 0이다. 등호는 \mathbf{a}^T \mathbf{x}가 상수인 경우, 즉 확률 벡터의 성분들 사이에 완전 선형 종속 관계가 존재하는 경우에 성립한다. 이 경우 \mathbf{P}는 특이(singular)하다.

2.3 고유값 분해와 기하학적 해석

공분산 행렬의 고유값 분해는 다음과 같다.

\mathbf{P} = \mathbf{U} \boldsymbol{\Lambda} \mathbf{U}^T = \sum_{i=1}^{n} \lambda_i \mathbf{u}_i \mathbf{u}_i^T

여기서 \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0은 고유값이고, \mathbf{u}_i는 대응하는 직교 고유벡터이다. 기하학적으로 이 분해는 불확실성 타원체(uncertainty ellipsoid)를 정의한다.

\mathcal{E} = \{\mathbf{x} \mid (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{P}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \leq c^2\}

이 타원체의 주축 방향은 \mathbf{u}_i이고, 각 축의 반지름은 c\sqrt{\lambda_i}이다. c는 신뢰 수준에 따라 결정되며, n차원 가우시안 분포에서 c^2이 카이 제곱 분포를 따른다.

차원c^2 (95% 신뢰)c^2 (99% 신뢰)
25.9919.210
37.81511.345
612.59216.812

2.4 상관 행렬과의 관계

공분산 행렬 \mathbf{P}로부터 상관 행렬(correlation matrix) \boldsymbol{\rho}를 다음과 같이 계산한다.

\rho_{ij} = \frac{P_{ij}}{\sqrt{P_{ii} P_{jj}}}

행렬 형태로는

\boldsymbol{\rho} = \mathbf{D}^{-1} \mathbf{P} \mathbf{D}^{-1}

여기서 \mathbf{D} = \text{diag}(\sqrt{P_{11}}, \sqrt{P_{22}}, \dots, \sqrt{P_{nn}})이다. -1 \leq \rho_{ij} \leq 1이며, \rho_{ij} = \pm 1은 완전 선형 상관을 나타낸다.

3. 선형 변환에 의한 공분산 전파

3.1 기본 전파 법칙

확률 벡터 \mathbf{x}에 선형 변환 \mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}를 적용하면

E[\mathbf{y}] = \mathbf{A}\boldsymbol{\mu}_x + \mathbf{b}

\text{Cov}(\mathbf{y}) = \mathbf{A} \, \text{Cov}(\mathbf{x}) \, \mathbf{A}^T = \mathbf{A} \mathbf{P}_x \mathbf{A}^T

이다. 이 결과는 칼만 필터의 예측 단계에서 공분산 전파의 기초이다.

3.2 독립 잡음이 추가되는 경우

\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{w}이고, \mathbf{x}\mathbf{w}가 독립이면

\text{Cov}(\mathbf{y}) = \mathbf{A}\mathbf{P}_x \mathbf{A}^T + \mathbf{Q}

여기서 \mathbf{Q} = \text{Cov}(\mathbf{w})이다. 이는 칼만 필터 예측 단계의 공분산 전파 공식과 동일하다.

3.3 두 확률 벡터의 합

\mathbf{x}\mathbf{y}의 결합 공분산이

\text{Cov}\begin{pmatrix} \mathbf{x} \\ \mathbf{y} \end{pmatrix} = \begin{bmatrix} \mathbf{P}_{xx} & \mathbf{P}_{xy} \\ \mathbf{P}_{yx} & \mathbf{P}_{yy} \end{bmatrix}

일 때, \mathbf{z} = \mathbf{x} + \mathbf{y}의 공분산은

\text{Cov}(\mathbf{z}) = \mathbf{P}_{xx} + \mathbf{P}_{xy} + \mathbf{P}_{yx} + \mathbf{P}_{yy}

이다. \mathbf{x}\mathbf{y}가 독립이면 \mathbf{P}_{xy} = \mathbf{P}_{yx} = \mathbf{0}이므로 \text{Cov}(\mathbf{z}) = \mathbf{P}_{xx} + \mathbf{P}_{yy}가 된다.

4. 비선형 변환에서의 공분산 전파

4.1 차 근사(자코비안 전파)

비선형 함수 \mathbf{y} = \mathbf{h}(\mathbf{x})에 대하여, 평균 \boldsymbol{\mu}_x 근방에서 1차 테일러 전개를 적용하면

\mathbf{y} \approx \mathbf{h}(\boldsymbol{\mu}_x) + \mathbf{J}_h (\mathbf{x} - \boldsymbol{\mu}_x)

여기서 \mathbf{J}_h = \frac{\partial \mathbf{h}}{\partial \mathbf{x}}\big\vert_{\boldsymbol{\mu}_x}는 자코비안 행렬이다. 따라서

\text{Cov}(\mathbf{y}) \approx \mathbf{J}_h \mathbf{P}_x \mathbf{J}_h^T

이 근사는 확장 칼만 필터(EKF)에서 사용되는 공분산 전파 방법이다. 비선형성이 강하면 이 근사의 정확도가 크게 떨어질 수 있다.

4.2 차 근사

2차 테일러 전개를 포함하면 보다 정확한 근사를 얻는다. 스칼라 함수 y = h(\mathbf{x})의 경우

E[y] \approx h(\boldsymbol{\mu}_x) + \frac{1}{2} \text{tr}(\mathbf{H}_h \mathbf{P}_x)

\text{Var}(y) \approx \nabla h^T \mathbf{P}_x \nabla h + \frac{1}{2} \text{tr}(\mathbf{H}_h \mathbf{P}_x \mathbf{H}_h \mathbf{P}_x)

여기서 \mathbf{H}_hh의 헤시안 행렬이다. 벡터 함수에 대한 일반화는 텐서 연산을 필요로 하며 계산 비용이 크다.

4.3 무향 변환(Unscented Transform)

자코비안 계산 없이 공분산을 전파하는 방법이다. 평균 \boldsymbol{\mu}와 공분산 \mathbf{P}로부터 2n + 1개의 시그마 점(sigma point)을 생성한다.

\begin{aligned} \boldsymbol{\chi}_0 &= \boldsymbol{\mu} \\ \boldsymbol{\chi}_i &= \boldsymbol{\mu} + (\sqrt{(n + \kappa)\mathbf{P}})_i, \quad i = 1, \dots, n \\ \boldsymbol{\chi}_{n+i} &= \boldsymbol{\mu} - (\sqrt{(n + \kappa)\mathbf{P}})_i, \quad i = 1, \dots, n \end{aligned}

여기서 (\sqrt{(n+\kappa)\mathbf{P}})_i(n+\kappa)\mathbf{P}의 촐레스키 분해의 i번째 열이고, \kappa는 스케일링 파라미터이다. 각 시그마 점을 비선형 함수에 통과시킨 후, 변환된 점들의 가중 평균과 공분산을 계산한다.

\boldsymbol{\mu}_y \approx \sum_{i=0}^{2n} w_i \mathbf{h}(\boldsymbol{\chi}_i)

\mathbf{P}_y \approx \sum_{i=0}^{2n} w_i (\mathbf{h}(\boldsymbol{\chi}_i) - \boldsymbol{\mu}_y)(\mathbf{h}(\boldsymbol{\chi}_i) - \boldsymbol{\mu}_y)^T

이 방법은 3차 정확도(third-order accuracy)를 가지며, 무향 칼만 필터(UKF)의 기반이 된다.

5. 로봇공학에서의 공분산 전파 사례

5.1 로봇 위치 추정

이동 로봇의 2차원 위치와 방향 \mathbf{x} = [x, y, \theta]^T에 대한 공분산 행렬

\mathbf{P} = \begin{bmatrix} \sigma_x^2 & \sigma_{xy} & \sigma_{x\theta} \\ \sigma_{xy} & \sigma_y^2 & \sigma_{y\theta} \\ \sigma_{x\theta} & \sigma_{y\theta} & \sigma_\theta^2 \end{bmatrix}

은 위치와 방향의 불확실성뿐만 아니라 이들 간의 상관 관계도 나타낸다. 오도메트리(odometry) 기반 항법에서, 이 공분산은 시간에 따라 단조 증가하며, 특히 \sigma_\theta^2의 증가가 \sigma_x^2, \sigma_y^2의 증가를 가속시킨다.

5.2 센서 융합

서로 다른 센서 i = 1, \dots, k의 관측값 \mathbf{z}_i와 관측 행렬 \mathbf{H}_i, 관측 잡음 공분산 \mathbf{R}_i가 주어지면, 정보 행렬 형태의 융합은 다음과 같다.

\mathbf{P}_{\text{fused}}^{-1} = \mathbf{P}_{\text{prior}}^{-1} + \sum_{i=1}^{k} \mathbf{H}_i^T \mathbf{R}_i^{-1} \mathbf{H}_i

각 센서가 기여하는 정보량 \mathbf{H}_i^T \mathbf{R}_i^{-1} \mathbf{H}_i는 양의 반정치 행렬이므로, 센서를 추가할수록 정보 행렬이 증가하고 공분산(불확실성)이 감소한다. 이는 행렬 부등식 \mathbf{P}_{\text{fused}} \preceq \mathbf{P}_{\text{prior}}로 표현된다.

5.3 좌표 변환에서의 공분산 전파

로봇 좌표계에서 세계 좌표계로의 변환에서, 점 \mathbf{p}^R의 세계 좌표계 위치는

\mathbf{p}^W = \mathbf{R}(\theta)\mathbf{p}^R + \mathbf{t}

여기서 \mathbf{R}(\theta)는 회전 행렬, \mathbf{t} = [x, y]^T는 이동 벡터이다. 자코비안은

\mathbf{J} = \frac{\partial \mathbf{p}^W}{\partial (\mathbf{x}, \mathbf{p}^R)} = \begin{bmatrix} \mathbf{I}_2 & \frac{\partial \mathbf{R}}{\partial \theta}\mathbf{p}^R & \mathbf{R}(\theta) \end{bmatrix}

이며, 결합 공분산은

\mathbf{P}_{p^W} = \mathbf{J} \begin{bmatrix} \mathbf{P}_{\text{pose}} & \mathbf{0} \\ \mathbf{0} & \mathbf{P}_{p^R} \end{bmatrix} \mathbf{J}^T

이다. 여기서 로봇 자세의 불확실성과 관측의 불확실성이 모두 전파되는 것을 확인할 수 있다.

6. 참고 문헌

  • Bar-Shalom, Y., Li, X. R., & Kirubarajan, T. (2001). Estimation with Applications to Tracking and Navigation. Wiley.
  • Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
  • Simon, D. (2006). Optimal State Estimation: Kalman, H Infinity, and Nonlinear Approaches. Wiley.
  • Julier, S. J., & Uhlmann, J. K. (2004). Unscented filtering and nonlinear estimation. Proceedings of the IEEE, 92(3), 401–422.
  • Strang, G. (2019). Linear Algebra and Learning from Data. Wellesley-Cambridge Press.

v 0.1