8.40 최대 우도 추정(MLE)의 원리와 유도
1. 최대 우도 추정의 원리
최대 우도 추정(Maximum Likelihood Estimation, MLE)은 관측 데이터가 발생할 확률(가능도)이 가장 큰 모수 값을 추정값으로 선택하는 방법이다. 피셔(Fisher)에 의해 20세기 초에 정립된 이 방법은 추정 이론의 가장 기본적이고 광범위하게 사용되는 접근법이다.
원리: “관측된 데이터가 가장 잘 설명되는 모수가 참 모수일 가능성이 가장 크다.”
2. 가능도 함수(Likelihood Function)
독립 동일 분포(i.i.d.) 관측 \mathbf{z} = (z_1, z_2, \ldots, z_n)이 분포 p(z; \theta)를 따를 때, 모수 \theta에 대한 가능도 함수는 다음과 같다.
L(\theta; \mathbf{z}) = p(\mathbf{z}; \theta) = \prod_{i=1}^{n}p(z_i; \theta)
가능도는 \mathbf{z}의 함수가 아니라 \theta의 함수로 해석되며, “주어진 \theta에서 이 데이터가 관측될 확률“을 나타낸다.
3. 로그 가능도(Log-Likelihood)
계산의 편의를 위해 로그 가능도가 주로 사용된다.
\ell(\theta; \mathbf{z}) = \ln L(\theta; \mathbf{z}) = \sum_{i=1}^{n}\ln p(z_i; \theta)
로그 변환은 곱을 합으로 바꾸며, 로그 함수가 단조 증가 함수이므로 최대점의 위치는 변하지 않는다.
4. MLE의 정의
\hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta}L(\theta; \mathbf{z}) = \arg\max_{\theta \in \Theta}\ell(\theta; \mathbf{z})
가능도 함수를 최대화하는 모수 값이 MLE이다. 미분 가능한 경우, 1차 최적성 조건(스코어 방정식):
\frac{\partial\ell(\theta; \mathbf{z})}{\partial\theta} = 0
을 풀어 구한다. 다변량 모수의 경우 그래디언트 \nabla_{\boldsymbol{\theta}}\ell = \mathbf{0}을 푼다.
5. MLE의 주요 예
5.1 가우시안 분포의 MLE
z_i \sim \mathcal{N}(\mu, \sigma^2) (i.i.d.)의 로그 가능도:
\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(z_i - \mu)^2
\mu에 대한 편미분을 영으로 놓으면:
\hat{\mu}_{MLE} = \frac{1}{n}\sum_{i=1}^{n}z_i = \bar{z}
\sigma^2에 대한 편미분을 영으로 놓으면:
\hat{\sigma}^2_{MLE} = \frac{1}{n}\sum_{i=1}^{n}(z_i - \bar{z})^2
\hat{\sigma}^2_{MLE}은 편향 추정량이다(분모가 n - 1이 아닌 n).
5.2 베르누이 분포의 MLE
z_i \sim \text{Bernoulli}(p)의 로그 가능도:
\ell(p) = k\ln p + (n - k)\ln(1 - p), \quad k = \sum z_i
\hat{p}_{MLE} = k/n, 즉 표본 비율이다.
6. MLE의 점근적 성질
정규성 조건하에서 MLE는 다음의 점근적 성질을 갖는다.
6.1 일치성(Consistency)
\hat{\theta}_{MLE} \xrightarrow{P} \theta_0
표본 수가 증가함에 따라 MLE가 참 모수 \theta_0에 확률 수렴한다.
6.2 점근적 정규성(Asymptotic Normality)
\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})
여기서 I_1은 단일 관측의 피셔 정보이다.
6.3 점근적 효율성(Asymptotic Efficiency)
MLE의 점근적 분산이 크라메르-라오 하한에 도달한다. 따라서 MLE는 점근적으로 가장 효율적인 추정량 중 하나이다.
6.4 불변성(Invariance)
모수 변환 \eta = g(\theta)에 대해 \hat{\eta}_{MLE} = g(\hat{\theta}_{MLE})이다. MLE는 매개변수화에 불변이다.
7. 수치적 해법
가능도 방정식이 해석적으로 풀리지 않는 경우 수치 최적화가 필요하다.
뉴턴-랩슨 방법: \hat{\theta}_{k+1} = \hat{\theta}_k - \left[\nabla^2\ell\right]^{-1}\nabla\ell
피셔 스코어링(Fisher Scoring): 헤시안 대신 피셔 정보 행렬을 사용한다.
\hat{\theta}_{k+1} = \hat{\theta}_k + \mathbf{I}(\hat{\theta}_k)^{-1}\mathbf{s}(\hat{\theta}_k)
EM 알고리즘: 잠재 변수가 있는 모델에서 E 단계와 M 단계를 교대 수행한다.
8. 로봇 공학에서의 MLE 응용
최소 제곱 추정: 가우시안 잡음 가정하에서 MLE는 최소 제곱 추정과 동치이다. 로봇 캘리브레이션, SLAM 번들 조정 등이 이에 해당한다.
\hat{\boldsymbol{\theta}}_{MLE} = \arg\min_{\boldsymbol{\theta}}\sum_{i=1}^{n}\lVert z_i - h_i(\boldsymbol{\theta})\rVert^2_{\boldsymbol{\Sigma}_i^{-1}}
동역학 파라미터 식별: 로봇 관절 토크와 가속도 데이터로부터 질량, 관성, 마찰 계수 등의 파라미터를 MLE로 추정한다.
확률적 동역학 모델 학습: 신경망으로 표현된 동역학 모델의 파라미터를 MLE(혹은 교차 엔트로피 최소화)로 학습한다.
9. 참고 문헌
- Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
- Fisher, R. A. (1922). “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society A, 222, 309–368.
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
- Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.
version: 1.0