8.40 최대 우도 추정(MLE)의 원리와 유도

8.40 최대 우도 추정(MLE)의 원리와 유도

1. 최대 우도 추정의 원리

최대 우도 추정(Maximum Likelihood Estimation, MLE)은 관측 데이터가 발생할 확률(가능도)이 가장 큰 모수 값을 추정값으로 선택하는 방법이다. 피셔(Fisher)에 의해 20세기 초에 정립된 이 방법은 추정 이론의 가장 기본적이고 광범위하게 사용되는 접근법이다.

원리: “관측된 데이터가 가장 잘 설명되는 모수가 참 모수일 가능성이 가장 크다.”

2. 가능도 함수(Likelihood Function)

독립 동일 분포(i.i.d.) 관측 \mathbf{z} = (z_1, z_2, \ldots, z_n)이 분포 p(z; \theta)를 따를 때, 모수 \theta에 대한 가능도 함수는 다음과 같다.

L(\theta; \mathbf{z}) = p(\mathbf{z}; \theta) = \prod_{i=1}^{n}p(z_i; \theta)

가능도는 \mathbf{z}의 함수가 아니라 \theta의 함수로 해석되며, “주어진 \theta에서 이 데이터가 관측될 확률“을 나타낸다.

3. 로그 가능도(Log-Likelihood)

계산의 편의를 위해 로그 가능도가 주로 사용된다.

\ell(\theta; \mathbf{z}) = \ln L(\theta; \mathbf{z}) = \sum_{i=1}^{n}\ln p(z_i; \theta)

로그 변환은 곱을 합으로 바꾸며, 로그 함수가 단조 증가 함수이므로 최대점의 위치는 변하지 않는다.

4. MLE의 정의

\hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta}L(\theta; \mathbf{z}) = \arg\max_{\theta \in \Theta}\ell(\theta; \mathbf{z})

가능도 함수를 최대화하는 모수 값이 MLE이다. 미분 가능한 경우, 1차 최적성 조건(스코어 방정식):

\frac{\partial\ell(\theta; \mathbf{z})}{\partial\theta} = 0

을 풀어 구한다. 다변량 모수의 경우 그래디언트 \nabla_{\boldsymbol{\theta}}\ell = \mathbf{0}을 푼다.

5. MLE의 주요 예

5.1 가우시안 분포의 MLE

z_i \sim \mathcal{N}(\mu, \sigma^2) (i.i.d.)의 로그 가능도:

\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(z_i - \mu)^2

\mu에 대한 편미분을 영으로 놓으면:

\hat{\mu}_{MLE} = \frac{1}{n}\sum_{i=1}^{n}z_i = \bar{z}

\sigma^2에 대한 편미분을 영으로 놓으면:

\hat{\sigma}^2_{MLE} = \frac{1}{n}\sum_{i=1}^{n}(z_i - \bar{z})^2

\hat{\sigma}^2_{MLE}은 편향 추정량이다(분모가 n - 1이 아닌 n).

5.2 베르누이 분포의 MLE

z_i \sim \text{Bernoulli}(p)의 로그 가능도:

\ell(p) = k\ln p + (n - k)\ln(1 - p), \quad k = \sum z_i

\hat{p}_{MLE} = k/n, 즉 표본 비율이다.

6. MLE의 점근적 성질

정규성 조건하에서 MLE는 다음의 점근적 성질을 갖는다.

6.1 일치성(Consistency)

\hat{\theta}_{MLE} \xrightarrow{P} \theta_0

표본 수가 증가함에 따라 MLE가 참 모수 \theta_0에 확률 수렴한다.

6.2 점근적 정규성(Asymptotic Normality)

\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})

여기서 I_1은 단일 관측의 피셔 정보이다.

6.3 점근적 효율성(Asymptotic Efficiency)

MLE의 점근적 분산이 크라메르-라오 하한에 도달한다. 따라서 MLE는 점근적으로 가장 효율적인 추정량 중 하나이다.

6.4 불변성(Invariance)

모수 변환 \eta = g(\theta)에 대해 \hat{\eta}_{MLE} = g(\hat{\theta}_{MLE})이다. MLE는 매개변수화에 불변이다.

7. 수치적 해법

가능도 방정식이 해석적으로 풀리지 않는 경우 수치 최적화가 필요하다.

뉴턴-랩슨 방법: \hat{\theta}_{k+1} = \hat{\theta}_k - \left[\nabla^2\ell\right]^{-1}\nabla\ell

피셔 스코어링(Fisher Scoring): 헤시안 대신 피셔 정보 행렬을 사용한다.

\hat{\theta}_{k+1} = \hat{\theta}_k + \mathbf{I}(\hat{\theta}_k)^{-1}\mathbf{s}(\hat{\theta}_k)

EM 알고리즘: 잠재 변수가 있는 모델에서 E 단계와 M 단계를 교대 수행한다.

8. 로봇 공학에서의 MLE 응용

최소 제곱 추정: 가우시안 잡음 가정하에서 MLE는 최소 제곱 추정과 동치이다. 로봇 캘리브레이션, SLAM 번들 조정 등이 이에 해당한다.

\hat{\boldsymbol{\theta}}_{MLE} = \arg\min_{\boldsymbol{\theta}}\sum_{i=1}^{n}\lVert z_i - h_i(\boldsymbol{\theta})\rVert^2_{\boldsymbol{\Sigma}_i^{-1}}

동역학 파라미터 식별: 로봇 관절 토크와 가속도 데이터로부터 질량, 관성, 마찰 계수 등의 파라미터를 MLE로 추정한다.

확률적 동역학 모델 학습: 신경망으로 표현된 동역학 모델의 파라미터를 MLE(혹은 교차 엔트로피 최소화)로 학습한다.

9. 참고 문헌

  • Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
  • Fisher, R. A. (1922). “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society A, 222, 309–368.
  • Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
  • Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.

version: 1.0