8.40 최대 우도 추정(MLE)의 원리와 유도

1. 최대 우도 추정의 원리

최대 우도 추정(Maximum Likelihood Estimation, MLE)은 관측 데이터가 발생할 확률(가능도)이 가장 큰 모수 값을 추정값으로 선택하는 방법이다. 피셔(Fisher)에 의해 20세기 초에 정립된 이 방법은 추정 이론의 가장 기본적이고 광범위하게 사용되는 접근법이다.

원리: “관측된 데이터가 가장 잘 설명되는 모수가 참 모수일 가능성이 가장 크다.”

2. 가능도 함수(Likelihood Function)

독립 동일 분포(i.i.d.) 관측 $\mathbf{z} = (z_1, z_2, \ldots, z_n)$ 이 분포 $p(z; \theta)$ 를 따를 때, 모수 $\theta$ 에 대한 가능도 함수는 다음과 같다.

$L(\theta; \mathbf{z}) = p(\mathbf{z}; \theta) = \prod_{i=1}^{n}p(z_i; \theta)$

가능도는 $\mathbf{z}$ 의 함수가 아니라 $\theta$ 의 함수로 해석되며, “주어진 $\theta$ 에서 이 데이터가 관측될 확률“을 나타낸다.

3. 로그 가능도(Log-Likelihood)

계산의 편의를 위해 로그 가능도가 주로 사용된다.

$\ell(\theta; \mathbf{z}) = \ln L(\theta; \mathbf{z}) = \sum_{i=1}^{n}\ln p(z_i; \theta)$

로그 변환은 곱을 합으로 바꾸며, 로그 함수가 단조 증가 함수이므로 최대점의 위치는 변하지 않는다.

4. MLE의 정의

$\hat{\theta}_{MLE} = \arg\max_{\theta \in \Theta}L(\theta; \mathbf{z}) = \arg\max_{\theta \in \Theta}\ell(\theta; \mathbf{z})$

가능도 함수를 최대화하는 모수 값이 MLE이다. 미분 가능한 경우, 1차 최적성 조건(스코어 방정식):

$\frac{\partial\ell(\theta; \mathbf{z})}{\partial\theta} = 0$

을 풀어 구한다. 다변량 모수의 경우 그래디언트 $\nabla_{\boldsymbol{\theta}}\ell = \mathbf{0}$ 을 푼다.

5. MLE의 주요 예

5.1 가우시안 분포의 MLE

$z_i \sim \mathcal{N}(\mu, \sigma^2)$ (i.i.d.)의 로그 가능도:

$\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(z_i - \mu)^2$

$\mu$ 에 대한 편미분을 영으로 놓으면:

$\hat{\mu}_{MLE} = \frac{1}{n}\sum_{i=1}^{n}z_i = \bar{z}$

$\sigma^2$ 에 대한 편미분을 영으로 놓으면:

$\hat{\sigma}^2_{MLE} = \frac{1}{n}\sum_{i=1}^{n}(z_i - \bar{z})^2$

$\hat{\sigma}^2_{MLE}$ 은 편향 추정량이다(분모가 $n - 1$ 이 아닌 $n$ ).

5.2 베르누이 분포의 MLE

$z_i \sim \text{Bernoulli}(p)$ 의 로그 가능도:

$\ell(p) = k\ln p + (n - k)\ln(1 - p), \quad k = \sum z_i$

$\hat{p}_{MLE} = k/n$ , 즉 표본 비율이다.

6. MLE의 점근적 성질

정규성 조건하에서 MLE는 다음의 점근적 성질을 갖는다.

6.1 일치성(Consistency)

$\hat{\theta}_{MLE} \xrightarrow{P} \theta_0$

표본 수가 증가함에 따라 MLE가 참 모수 $\theta_0$ 에 확률 수렴한다.

6.2 점근적 정규성(Asymptotic Normality)

$\sqrt{n}(\hat{\theta}_{MLE} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})$

여기서 $I_1$ 은 단일 관측의 피셔 정보이다.

6.3 점근적 효율성(Asymptotic Efficiency)

MLE의 점근적 분산이 크라메르-라오 하한에 도달한다. 따라서 MLE는 점근적으로 가장 효율적인 추정량 중 하나이다.

6.4 불변성(Invariance)

모수 변환 $\eta = g(\theta)$ 에 대해 $\hat{\eta}_{MLE} = g(\hat{\theta}_{MLE})$ 이다. MLE는 매개변수화에 불변이다.

7. 수치적 해법

가능도 방정식이 해석적으로 풀리지 않는 경우 수치 최적화가 필요하다.

뉴턴-랩슨 방법: $\hat{\theta}_{k+1} = \hat{\theta}_k - \left[\nabla^2\ell\right]^{-1}\nabla\ell$

피셔 스코어링(Fisher Scoring): 헤시안 대신 피셔 정보 행렬을 사용한다.

$\hat{\theta}_{k+1} = \hat{\theta}_k + \mathbf{I}(\hat{\theta}_k)^{-1}\mathbf{s}(\hat{\theta}_k)$

EM 알고리즘: 잠재 변수가 있는 모델에서 E 단계와 M 단계를 교대 수행한다.

8. 로봇 공학에서의 MLE 응용

최소 제곱 추정: 가우시안 잡음 가정하에서 MLE는 최소 제곱 추정과 동치이다. 로봇 캘리브레이션, SLAM 번들 조정 등이 이에 해당한다.

$\hat{\boldsymbol{\theta}}_{MLE} = \arg\min_{\boldsymbol{\theta}}\sum_{i=1}^{n}\lVert z_i - h_i(\boldsymbol{\theta})\rVert^2_{\boldsymbol{\Sigma}_i^{-1}}$

동역학 파라미터 식별: 로봇 관절 토크와 가속도 데이터로부터 질량, 관성, 마찰 계수 등의 파라미터를 MLE로 추정한다.

확률적 동역학 모델 학습: 신경망으로 표현된 동역학 모델의 파라미터를 MLE(혹은 교차 엔트로피 최소화)로 학습한다.

9. 참고 문헌

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Fisher, R. A. (1922). “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society A, 222, 309–368.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
Barfoot, T. D. (2017). State Estimation for Robotics. Cambridge University Press.

version: 1.0