6.140 공분산 행렬의 의미와 전파

1. 공분산 행렬의 정의

확률 벡터 $\mathbf{x} \in \mathbb{R}^n$ 의 공분산 행렬(covariance matrix) $\mathbf{P}$ 는 다음과 같이 정의한다.

$\mathbf{P} = \text{Cov}(\mathbf{x}) = E[(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T]$

여기서 $\boldsymbol{\mu} = E[\mathbf{x}]$ 는 평균 벡터이다. 성분별로 전개하면

$P_{ij} = E[(x_i - \mu_i)(x_j - \mu_j)] = \text{Cov}(x_i, x_j)$

이다. 대각 원소 $P_{ii} = \text{Var}(x_i)$ 는 각 변수의 분산이고, 비대각 원소 $P_{ij}$ ( $i \neq j$ )는 두 변수 간의 공분산이다.

2. 공분산 행렬의 선형대수학적 성질

2.1 대칭성

정의로부터 $P_{ij} = P_{ji}$ 이므로 $\mathbf{P} = \mathbf{P}^T$ 이다. 즉, 공분산 행렬은 항상 대칭 행렬이다.

2.2 양의 반정치성

임의의 벡터 $\mathbf{a} \in \mathbb{R}^n$ 에 대하여

$\mathbf{a}^T \mathbf{P} \mathbf{a} = E[(\mathbf{a}^T(\mathbf{x} - \boldsymbol{\mu}))^2] = \text{Var}(\mathbf{a}^T \mathbf{x}) \geq 0$

이므로 $\mathbf{P} \succeq 0$ 이다. 등호는 $\mathbf{a}^T \mathbf{x}$ 가 상수인 경우, 즉 확률 벡터의 성분들 사이에 완전 선형 종속 관계가 존재하는 경우에 성립한다. 이 경우 $\mathbf{P}$ 는 특이(singular)하다.

2.3 고유값 분해와 기하학적 해석

공분산 행렬의 고유값 분해는 다음과 같다.

$\mathbf{P} = \mathbf{U} \boldsymbol{\Lambda} \mathbf{U}^T = \sum_{i=1}^{n} \lambda_i \mathbf{u}_i \mathbf{u}_i^T$

여기서 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0$ 은 고유값이고, $\mathbf{u}_i$ 는 대응하는 직교 고유벡터이다. 기하학적으로 이 분해는 불확실성 타원체(uncertainty ellipsoid)를 정의한다.

$\mathcal{E} = \{\mathbf{x} \mid (\mathbf{x} - \boldsymbol{\mu})^T \mathbf{P}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \leq c^2\}$

이 타원체의 주축 방향은 $\mathbf{u}_i$ 이고, 각 축의 반지름은 $c\sqrt{\lambda_i}$ 이다. $c$ 는 신뢰 수준에 따라 결정되며, $n$ 차원 가우시안 분포에서 $c^2$ 이 카이 제곱 분포를 따른다.

차원	$c^2$ (95% 신뢰)	$c^2$ (99% 신뢰)
2	5.991	9.210
3	7.815	11.345
6	12.592	16.812

2.4 상관 행렬과의 관계

공분산 행렬 $\mathbf{P}$ 로부터 상관 행렬(correlation matrix) $\boldsymbol{\rho}$ 를 다음과 같이 계산한다.

$\rho_{ij} = \frac{P_{ij}}{\sqrt{P_{ii} P_{jj}}}$

행렬 형태로는

$\boldsymbol{\rho} = \mathbf{D}^{-1} \mathbf{P} \mathbf{D}^{-1}$

여기서 $\mathbf{D} = \text{diag}(\sqrt{P_{11}}, \sqrt{P_{22}}, \dots, \sqrt{P_{nn}})$ 이다. $-1 \leq \rho_{ij} \leq 1$ 이며, $\rho_{ij} = \pm 1$ 은 완전 선형 상관을 나타낸다.

3. 선형 변환에 의한 공분산 전파

3.1 기본 전파 법칙

확률 벡터 $\mathbf{x}$ 에 선형 변환 $\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}$ 를 적용하면

$E[\mathbf{y}] = \mathbf{A}\boldsymbol{\mu}_x + \mathbf{b}$

$\text{Cov}(\mathbf{y}) = \mathbf{A} \, \text{Cov}(\mathbf{x}) \, \mathbf{A}^T = \mathbf{A} \mathbf{P}_x \mathbf{A}^T$

이다. 이 결과는 칼만 필터의 예측 단계에서 공분산 전파의 기초이다.

3.2 독립 잡음이 추가되는 경우

$\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{w}$ 이고, $\mathbf{x}$ 와 $\mathbf{w}$ 가 독립이면

$\text{Cov}(\mathbf{y}) = \mathbf{A}\mathbf{P}_x \mathbf{A}^T + \mathbf{Q}$

여기서 $\mathbf{Q} = \text{Cov}(\mathbf{w})$ 이다. 이는 칼만 필터 예측 단계의 공분산 전파 공식과 동일하다.

3.3 두 확률 벡터의 합

$\mathbf{x}$ 와 $\mathbf{y}$ 의 결합 공분산이

$\text{Cov}\begin{pmatrix} \mathbf{x} \\ \mathbf{y} \end{pmatrix} = \begin{bmatrix} \mathbf{P}_{xx} & \mathbf{P}_{xy} \\ \mathbf{P}_{yx} & \mathbf{P}_{yy} \end{bmatrix}$

일 때, $\mathbf{z} = \mathbf{x} + \mathbf{y}$ 의 공분산은

$\text{Cov}(\mathbf{z}) = \mathbf{P}_{xx} + \mathbf{P}_{xy} + \mathbf{P}_{yx} + \mathbf{P}_{yy}$

이다. $\mathbf{x}$ 와 $\mathbf{y}$ 가 독립이면 $\mathbf{P}_{xy} = \mathbf{P}_{yx} = \mathbf{0}$ 이므로 $\text{Cov}(\mathbf{z}) = \mathbf{P}_{xx} + \mathbf{P}_{yy}$ 가 된다.

4. 비선형 변환에서의 공분산 전파

4.1 차 근사(자코비안 전파)

비선형 함수 $\mathbf{y} = \mathbf{h}(\mathbf{x})$ 에 대하여, 평균 $\boldsymbol{\mu}_x$ 근방에서 1차 테일러 전개를 적용하면

$\mathbf{y} \approx \mathbf{h}(\boldsymbol{\mu}_x) + \mathbf{J}_h (\mathbf{x} - \boldsymbol{\mu}_x)$

여기서 $\mathbf{J}_h = \frac{\partial \mathbf{h}}{\partial \mathbf{x}}\big\vert_{\boldsymbol{\mu}_x}$ 는 자코비안 행렬이다. 따라서

$\text{Cov}(\mathbf{y}) \approx \mathbf{J}_h \mathbf{P}_x \mathbf{J}_h^T$

이 근사는 확장 칼만 필터(EKF)에서 사용되는 공분산 전파 방법이다. 비선형성이 강하면 이 근사의 정확도가 크게 떨어질 수 있다.

4.2 차 근사

2차 테일러 전개를 포함하면 보다 정확한 근사를 얻는다. 스칼라 함수 $y = h(\mathbf{x})$ 의 경우

$E[y] \approx h(\boldsymbol{\mu}_x) + \frac{1}{2} \text{tr}(\mathbf{H}_h \mathbf{P}_x)$

$\text{Var}(y) \approx \nabla h^T \mathbf{P}_x \nabla h + \frac{1}{2} \text{tr}(\mathbf{H}_h \mathbf{P}_x \mathbf{H}_h \mathbf{P}_x)$

여기서 $\mathbf{H}_h$ 는 $h$ 의 헤시안 행렬이다. 벡터 함수에 대한 일반화는 텐서 연산을 필요로 하며 계산 비용이 크다.

4.3 무향 변환(Unscented Transform)

자코비안 계산 없이 공분산을 전파하는 방법이다. 평균 $\boldsymbol{\mu}$ 와 공분산 $\mathbf{P}$ 로부터 $2n + 1$ 개의 시그마 점(sigma point)을 생성한다.

$\begin{aligned} \boldsymbol{\chi}_0 &= \boldsymbol{\mu} \\ \boldsymbol{\chi}_i &= \boldsymbol{\mu} + (\sqrt{(n + \kappa)\mathbf{P}})_i, \quad i = 1, \dots, n \\ \boldsymbol{\chi}_{n+i} &= \boldsymbol{\mu} - (\sqrt{(n + \kappa)\mathbf{P}})_i, \quad i = 1, \dots, n \end{aligned}$

여기서 $(\sqrt{(n+\kappa)\mathbf{P}})_i$ 는 $(n+\kappa)\mathbf{P}$ 의 촐레스키 분해의 $i$ 번째 열이고, $\kappa$ 는 스케일링 파라미터이다. 각 시그마 점을 비선형 함수에 통과시킨 후, 변환된 점들의 가중 평균과 공분산을 계산한다.

$\boldsymbol{\mu}_y \approx \sum_{i=0}^{2n} w_i \mathbf{h}(\boldsymbol{\chi}_i)$

$\mathbf{P}_y \approx \sum_{i=0}^{2n} w_i (\mathbf{h}(\boldsymbol{\chi}_i) - \boldsymbol{\mu}_y)(\mathbf{h}(\boldsymbol{\chi}_i) - \boldsymbol{\mu}_y)^T$

이 방법은 3차 정확도(third-order accuracy)를 가지며, 무향 칼만 필터(UKF)의 기반이 된다.

5. 로봇공학에서의 공분산 전파 사례

5.1 로봇 위치 추정

이동 로봇의 2차원 위치와 방향 $\mathbf{x} = [x, y, \theta]^T$ 에 대한 공분산 행렬

$\mathbf{P} = \begin{bmatrix} \sigma_x^2 & \sigma_{xy} & \sigma_{x\theta} \\ \sigma_{xy} & \sigma_y^2 & \sigma_{y\theta} \\ \sigma_{x\theta} & \sigma_{y\theta} & \sigma_\theta^2 \end{bmatrix}$

은 위치와 방향의 불확실성뿐만 아니라 이들 간의 상관 관계도 나타낸다. 오도메트리(odometry) 기반 항법에서, 이 공분산은 시간에 따라 단조 증가하며, 특히 $\sigma_\theta^2$ 의 증가가 $\sigma_x^2, \sigma_y^2$ 의 증가를 가속시킨다.

5.2 센서 융합

서로 다른 센서 $i = 1, \dots, k$ 의 관측값 $\mathbf{z}_i$ 와 관측 행렬 $\mathbf{H}_i$ , 관측 잡음 공분산 $\mathbf{R}_i$ 가 주어지면, 정보 행렬 형태의 융합은 다음과 같다.

$\mathbf{P}_{\text{fused}}^{-1} = \mathbf{P}_{\text{prior}}^{-1} + \sum_{i=1}^{k} \mathbf{H}_i^T \mathbf{R}_i^{-1} \mathbf{H}_i$

각 센서가 기여하는 정보량 $\mathbf{H}_i^T \mathbf{R}_i^{-1} \mathbf{H}_i$ 는 양의 반정치 행렬이므로, 센서를 추가할수록 정보 행렬이 증가하고 공분산(불확실성)이 감소한다. 이는 행렬 부등식 $\mathbf{P}_{\text{fused}} \preceq \mathbf{P}_{\text{prior}}$ 로 표현된다.

5.3 좌표 변환에서의 공분산 전파

로봇 좌표계에서 세계 좌표계로의 변환에서, 점 $\mathbf{p}^R$ 의 세계 좌표계 위치는

$\mathbf{p}^W = \mathbf{R}(\theta)\mathbf{p}^R + \mathbf{t}$

여기서 $\mathbf{R}(\theta)$ 는 회전 행렬, $\mathbf{t} = [x, y]^T$ 는 이동 벡터이다. 자코비안은

$\mathbf{J} = \frac{\partial \mathbf{p}^W}{\partial (\mathbf{x}, \mathbf{p}^R)} = \begin{bmatrix} \mathbf{I}_2 & \frac{\partial \mathbf{R}}{\partial \theta}\mathbf{p}^R & \mathbf{R}(\theta) \end{bmatrix}$

이며, 결합 공분산은

$\mathbf{P}_{p^W} = \mathbf{J} \begin{bmatrix} \mathbf{P}_{\text{pose}} & \mathbf{0} \\ \mathbf{0} & \mathbf{P}_{p^R} \end{bmatrix} \mathbf{J}^T$

이다. 여기서 로봇 자세의 불확실성과 관측의 불확실성이 모두 전파되는 것을 확인할 수 있다.

6. 참고 문헌

Bar-Shalom, Y., Li, X. R., & Kirubarajan, T. (2001). Estimation with Applications to Tracking and Navigation. Wiley.
Thrun, S., Burgard, W., & Fox, D. (2005). Probabilistic Robotics. MIT Press.
Simon, D. (2006). Optimal State Estimation: Kalman, H Infinity, and Nonlinear Approaches. Wiley.
Julier, S. J., & Uhlmann, J. K. (2004). Unscented filtering and nonlinear estimation. Proceedings of the IEEE, 92(3), 401–422.
Strang, G. (2019). Linear Algebra and Learning from Data. Wellesley-Cambridge Press.

v 0.1