8.41 최대 우도 추정의 점근적 성질
1. 점근적 성질의 의의
최대 우도 추정(MLE)의 이론적 기반은 점근적(asymptotic) 성질에 기반한다. 표본 크기 n이 충분히 클 때 MLE가 이상적인 추정량의 성질(일치성, 정규성, 효율성)을 모두 만족한다. 이 성질들은 유한 표본에서는 성립하지 않을 수 있지만, 대부분의 실용적 문제에서 MLE를 정당화하는 이론적 근거이다.
2. 정규성 조건(Regularity Conditions)
MLE의 점근적 성질이 성립하기 위한 조건들은 다음과 같다.
- 식별 가능성: 서로 다른 \theta_1 \neq \theta_2에 대해 p(z; \theta_1) \neq p(z; \theta_2)
- 개방 매개변수 공간: 참 모수 \theta_0가 \Theta의 내부에 위치
- 적분-미분 교환: 적분과 미분이 교환 가능
- 피셔 정보의 양정치성: I(\theta_0) > 0
- 로그 가능도의 3차 미분 가능성과 적절한 경계 조건
이 조건들이 만족되면 다음의 점근적 결과가 성립한다.
3. 점근적 일치성
\hat{\theta}_{MLE,n} \xrightarrow{P} \theta_0 \quad \text{as} \quad n \to \infty
MLE가 참 모수에 확률 수렴한다. 더 강한 결과로 거의 확실한 수렴(almost sure convergence)도 성립한다.
3.1 증명 개요
쿨백-라이블러(KL) 발산의 비음성을 이용한 증명이다. \theta \neq \theta_0이면 \mathbb{E}_{\theta_0}[\ln p(z; \theta) - \ln p(z; \theta_0)] = -D_{KL}(p_{\theta_0} \Vert p_\theta) < 0이다. 대수의 법칙에 의해:
\frac{1}{n}\ell_n(\theta) - \frac{1}{n}\ell_n(\theta_0) \xrightarrow{P} -D_{KL}(p_{\theta_0} \Vert p_\theta) < 0
따라서 \theta_0가 점근적으로 유일한 최대점이 되어 \hat{\theta}_{MLE,n} \to \theta_0이다.
4. 점근적 정규성
\sqrt{n}(\hat{\theta}_{MLE,n} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})
여기서 I_1(\theta_0)는 단일 관측의 피셔 정보이다.
4.1 증명 개요
스코어 방정식 \partial\ell_n/\partial\theta\vert_{\hat{\theta}} = 0을 \theta_0 주위에서 테일러 전개한다.
0 = \frac{\partial\ell_n}{\partial\theta}\bigg\vert_{\theta_0} + \frac{\partial^2\ell_n}{\partial\theta^2}\bigg\vert_{\theta^*}(\hat{\theta} - \theta_0)
\theta^*는 \hat{\theta}와 \theta_0 사이의 값이다. 정리하면:
\sqrt{n}(\hat{\theta} - \theta_0) = -\frac{\frac{1}{\sqrt{n}}\frac{\partial\ell_n}{\partial\theta}\big\vert_{\theta_0}}{\frac{1}{n}\frac{\partial^2\ell_n}{\partial\theta^2}\big\vert_{\theta^*}}
분자는 중심 극한 정리에 의해 \mathcal{N}(0, I_1(\theta_0))로 수렴하고, 분모는 -I_1(\theta_0)에 확률 수렴한다. 슬러츠키 정리(Slutsky’s theorem)에 의해 \sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})이다.
5. 점근적 효율성
MLE의 점근적 분산 I_1(\theta_0)^{-1}/n이 크라메르-라오 하한 I_n(\theta_0)^{-1} = (nI_1(\theta_0))^{-1}에 도달하므로, MLE는 점근적으로 효율적이다. 어떤 일치 추정량도 MLE보다 더 작은 점근적 분산을 가질 수 없다.
6. 델타 방법에 의한 변환
g가 미분 가능한 함수이면:
\sqrt{n}(g(\hat{\theta}_{MLE}) - g(\theta_0)) \xrightarrow{d} \mathcal{N}(0, (g'(\theta_0))^2 I_1(\theta_0)^{-1})
이는 MLE의 함수(예: 로봇의 순방향 기구학을 통한 작업 공간 위치)의 점근적 분포를 제공한다.
7. 다변량 경우
모수 벡터 \boldsymbol{\theta} \in \mathbb{R}^p에 대한 MLE도 유사한 성질을 갖는다.
\sqrt{n}(\hat{\boldsymbol{\theta}}_{MLE} - \boldsymbol{\theta}_0) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \mathbf{I}_1(\boldsymbol{\theta}_0)^{-1})
여기서 \mathbf{I}_1은 단일 관측의 피셔 정보 행렬이다.
8. 신뢰 구간의 구성
점근적 정규성으로부터 (1 - \alpha) 신뢰 구간을 구성한다.
\hat{\theta}_{MLE} \pm z_{\alpha/2}\sqrt{\frac{1}{nI_1(\hat{\theta}_{MLE})}}
피셔 정보를 참값 \theta_0 대신 추정치 \hat{\theta}_{MLE}에서 평가하여 실용적으로 사용한다.
9. 로봇 공학에서의 의미
점근적 최적성: 충분한 데이터가 있으면 MLE가 최적 추정량이며, CRLB로부터의 편차가 추정기의 비최적성을 나타낸다.
센서 캘리브레이션: 관측 수를 증가시키면 MLE의 표준 오차가 1/\sqrt{n}로 감소하며, 이는 실험 데이터 양의 결정에 지침을 제공한다.
파라미터 식별 가능성: 점근적 분산(FIM의 역행렬)이 무한대가 되는 방향은 식별 불가능한 모수를 나타낸다.
10. 점근적 성질의 한계
점근적 성질은 n \to \infty에서의 결과이므로, 유한 표본에서는 다음의 문제가 발생할 수 있다.
- 편향(유한 표본 편향, finite-sample bias)
- 비정규 분포(왜도, 두꺼운 꼬리)
- 수렴하지 않는 최적화(국소 최대, 평평한 가능도)
소표본에서는 베이즈 추정, 부트스트랩 등 대안적 방법이 사용된다.
11. 참고 문헌
- Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
- Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
- van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
version: 1.0