8.29 분산과 표준 편차의 정의

1. 분산의 정의

분산(variance)은 확률 변수가 기댓값으로부터 얼마나 퍼져 있는지를 측정하는 산포도(measure of dispersion)이다.

\text{Var}(X) = \mathbb{E}[(X - \mu_X)^2] = \int_{-\infty}^{\infty}(x - \mu_X)^2 f_X(x) \, dx

\sigma_X^2로도 표기한다. 분산은 항상 비음수이며, \text{Var}(X) = 0이면 X가 상수(확률 1로 \mu_X)임을 의미한다.

1.1 계산 공식

\text{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2

이 공식은 \mathbb{E}[X^2]\mathbb{E}[X]를 각각 계산하여 분산을 구하는 데 유용하다.

2. 표준 편차의 정의

표준 편차(standard deviation)는 분산의 양의 제곱근이다.

\sigma_X = \sqrt{\text{Var}(X)}

표준 편차는 원래 확률 변수와 동일한 단위(dimension)를 가지므로, 물리적 해석이 직관적이다. 로봇 센서의 잡음 수준이 “표준 편차 \sigma = 0.01 m“와 같이 표현된다.

3. 분산의 성질

3.1 상수 변환

\text{Var}(aX + b) = a^2 \text{Var}(X)

이동(shift) b는 분산에 영향을 미치지 않고, 스케일링 a는 분산을 a^2배 변화시킨다.

3.2 독립 확률 변수의 합

XY가 독립이면:

\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)

일반적으로(독립이 아닌 경우):

\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)

3.3 벡터 확률 변수의 공분산 행렬

n차원 확률 벡터 \mathbf{X}의 공분산 행렬:

\boldsymbol{\Sigma} = \text{Cov}(\mathbf{X}) = \mathbb{E}[(\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T]

대각 원소가 각 성분의 분산, 비대각 원소가 성분 간 공분산이다.

선형 변환: \mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b}이면

\text{Cov}(\mathbf{Y}) = \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^T

4. 체비셰프 부등식

분포의 형태에 무관하게, 기댓값과 분산으로부터 확률의 상한을 제공한다.

P(\lvert X - \mu \rvert \geq k\sigma) \leq \frac{1}{k^2}

k = 2이면 기댓값에서 2\sigma 이상 벗어날 확률이 최대 25%이다. 가우시안 분포에서는 약 4.6%로 훨씬 작으며, 체비셰프 부등식은 분포에 무관한 보수적 상한이다.

5. 고차 적률

5.1 n차 적률(Moment)

\mu_n' = \mathbb{E}[X^n] \quad (\text{원점 적률})

\mu_n = \mathbb{E}[(X - \mu)^n] \quad (\text{중심 적률})

\mu_1' = \mu (평균), \mu_2 = \sigma^2 (분산)

5.2 왜도(Skewness)

\gamma_1 = \frac{\mu_3}{\sigma^3} = \frac{\mathbb{E}[(X-\mu)^3]}{\sigma^3}

분포의 비대칭도를 측정한다. \gamma_1 > 0이면 오른쪽으로 치우침, \gamma_1 < 0이면 왼쪽으로 치우침, \gamma_1 = 0이면 대칭이다.

5.3 첨도(Kurtosis)

\gamma_2 = \frac{\mu_4}{\sigma^4} - 3

분포의 꼬리 두께를 측정한다(초과 첨도, excess kurtosis). 정규 분포의 초과 첨도는 0이다. \gamma_2 > 0이면 정규보다 두꺼운 꼬리(leptokurtic), \gamma_2 < 0이면 얇은 꼬리(platykurtic)이다.

6. 로봇 공학에서의 분산의 역할

센서 잡음 특성화: 센서의 정밀도(precision)가 측정값의 분산(또는 표준 편차)으로 정량화된다. 분산이 작을수록 정밀한 센서이다.

불확실성 표현: 상태 추정에서 추정치의 불확실성이 공분산 행렬로 표현된다. 칼만 필터의 \mathbf{P} 행렬이 상태의 공분산 행렬이다.

가중치 결정: 분산이 작은(정밀한) 관측에 큰 가중치를, 분산이 큰(부정밀한) 관측에 작은 가중치를 부여하는 것이 최적 추정의 핵심 원리이다. 칼만 이득이 이 원리를 구현한다.

7. 참고 문헌

  • Papoulis, A., & Pillai, S. U. (2002). Probability, Random Variables, and Stochastic Processes (4th ed.). McGraw-Hill.
  • Ross, S. M. (2014). A First Course in Probability (9th ed.). Pearson.
  • Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.

version: 1.0