8.74 최소 제곱법의 통계적 해석

1. 최소 제곱법의 개요

최소 제곱법(Least Squares, LS)은 관측 데이터에 모델을 적합시키는 고전적 방법으로, 관측값과 모델 예측값 사이의 제곱 오차의 합을 최소화한다. 가우스(Gauss)와 르장드르(Legendre)가 19세기 초에 정립한 이 방법은 회귀 분석, 파라미터 추정, 신호 처리의 기초이다.

2. 선형 최소 제곱 문제

선형 모델 $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$ 에서 최소 제곱 추정은 다음을 최소화한다.

$\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}}\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2$

정규 방정식을 풀면:

$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$

3. 최대 가능도 추정과의 관계

3.1 가우시안 잡음에서의 MLE

오차가 독립 정규 분포 $\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I})$ 를 따를 때, 로그 가능도는 다음과 같다.

$\ln p(\mathbf{y} \vert \boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\ln(2\pi\sigma^2) - \frac{1}{2\sigma^2}\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2$

$\boldsymbol{\beta}$ 에 대한 최대화는 $\lVert\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\rVert^2$ 의 최소화와 동치이다. 따라서:

가우시안 잡음하에서 최소 제곱 추정은 최대 가능도 추정(MLE)이다.

이 관계는 최소 제곱법의 통계적 정당성을 제공한다.

3.2 가중 최소 제곱(Weighted Least Squares)

관측 잡음의 분산이 서로 다른 경우 $\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})$ 이면, MLE는 가중 최소 제곱이다.

$\hat{\boldsymbol{\beta}}_{WLS} = \arg\min_{\boldsymbol{\beta}}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T\boldsymbol{\Sigma}^{-1}(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) = (\mathbf{X}^T\boldsymbol{\Sigma}^{-1}\mathbf{X})^{-1}\mathbf{X}^T\boldsymbol{\Sigma}^{-1}\mathbf{y}$

분산이 작은(정밀한) 관측에 큰 가중치, 분산이 큰 관측에 작은 가중치가 부여된다.

4. 가우스-마르코프 정리(Gauss-Markov Theorem)

정리: 선형 모델의 다음 가정이 만족되면, 최소 제곱 추정량은 모든 선형 불편 추정량 중 분산이 가장 작다(BLUE, Best Linear Unbiased Estimator).

선형성: 모델이 $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}$
비편향 오차: $\mathbb{E}[\boldsymbol{\epsilon}] = \mathbf{0}$
등분산성: $\text{Var}(\boldsymbol{\epsilon}) = \sigma^2\mathbf{I}$
비상관: $\text{Cov}(\epsilon_i, \epsilon_j) = 0$ , $i \neq j$

이 정리는 정규성 가정 없이 성립한다는 점이 중요하다. 잡음 분포가 가우시안이 아니더라도 OLS는 선형 불편 추정량 중 최적이다.

5. 추정량의 분포

5.1 가우시안 잡음

$\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2\mathbf{I})$ 이면:

$\hat{\boldsymbol{\beta}} \sim \mathcal{N}(\boldsymbol{\beta}, \sigma^2(\mathbf{X}^T\mathbf{X})^{-1})$

이로부터 신뢰 구간과 가설 검정이 가능하다.

5.2 점근적 정규성

가우시안이 아닌 잡음에서도 중심 극한 정리에 의해 $\hat{\boldsymbol{\beta}}$ 는 점근적으로 정규 분포를 따른다.

6. 잔차의 통계적 성질

잔차 $\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}$ 는 다음을 만족한다.

6.1 평균

$\mathbb{E}[\mathbf{e}] = \mathbf{0}$

6.2 공분산

$\text{Cov}(\mathbf{e}) = \sigma^2(\mathbf{I} - \mathbf{H})$

여기서 $\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$ 는 모자 행렬(hat matrix)이다. 잔차의 분산이 모든 $i$ 에서 동일하지 않음에 주의해야 한다.

6.3 잔차의 자유도

잔차의 자유도는 $n - p - 1$ (설계 행렬의 계수만큼 감소)이다. 이는 다음에 반영된다.

$\hat{\sigma}^2 = \frac{\lVert\mathbf{e}\rVert^2}{n - p - 1}$

7. 비선형 최소 제곱

모델이 파라미터에 대해 비선형인 경우:

$\hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}}\sum_{i=1}^{n}(y_i - f(\mathbf{x}_i, \boldsymbol{\beta}))^2$

폐쇄형 해가 없으므로 반복 최적화(가우스-뉴턴, 레벤버그-마쿼트)가 필요하다. 가우시안 잡음 가정하에서 MLE이며, 점근적 성질은 선형 경우와 유사하다.

8. 로봇 공학에서의 최소 제곱법 활용

8.1 센서 캘리브레이션

관측 데이터에 센서 모델을 적합시키는 데 가중 최소 제곱이 사용된다. 각 센서의 정밀도에 따른 가중치가 적용된다.

8.2 비선형 추정

SLAM, 번들 조정, 동역학 파라미터 식별 등 대부분의 로봇 공학 추정 문제가 비선형 최소 제곱으로 정식화된다.

8.3 칼만 필터와의 관계

칼만 필터의 최적 갱신은 가우시안 사전과 가우시안 가능도의 결합에서의 MAP 추정이며, 이는 가중 최소 제곱과 동치이다.

9. 참고 문헌

Gauss, C. F. (1809). Theoria Motus Corporum Coelestium. Perthes.
Seber, G. A. F., & Lee, A. J. (2003). Linear Regression Analysis (2nd ed.). Wiley.
Björck, Å. (1996). Numerical Methods for Least Squares Problems. SIAM.
Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.

version: 1.0