8.41 최대 우도 추정의 점근적 성질

1. 점근적 성질의 의의

최대 우도 추정(MLE)의 이론적 기반은 점근적(asymptotic) 성질에 기반한다. 표본 크기 $n$ 이 충분히 클 때 MLE가 이상적인 추정량의 성질(일치성, 정규성, 효율성)을 모두 만족한다. 이 성질들은 유한 표본에서는 성립하지 않을 수 있지만, 대부분의 실용적 문제에서 MLE를 정당화하는 이론적 근거이다.

2. 정규성 조건(Regularity Conditions)

MLE의 점근적 성질이 성립하기 위한 조건들은 다음과 같다.

식별 가능성: 서로 다른 $\theta_1 \neq \theta_2$ 에 대해 $p(z; \theta_1) \neq p(z; \theta_2)$
개방 매개변수 공간: 참 모수 $\theta_0$ 가 $\Theta$ 의 내부에 위치
적분-미분 교환: 적분과 미분이 교환 가능
피셔 정보의 양정치성: $I(\theta_0) > 0$
로그 가능도의 3차 미분 가능성과 적절한 경계 조건

이 조건들이 만족되면 다음의 점근적 결과가 성립한다.

3. 점근적 일치성

$\hat{\theta}_{MLE,n} \xrightarrow{P} \theta_0 \quad \text{as} \quad n \to \infty$

MLE가 참 모수에 확률 수렴한다. 더 강한 결과로 거의 확실한 수렴(almost sure convergence)도 성립한다.

3.1 증명 개요

쿨백-라이블러(KL) 발산의 비음성을 이용한 증명이다. $\theta \neq \theta_0$ 이면 $\mathbb{E}_{\theta_0}[\ln p(z; \theta) - \ln p(z; \theta_0)] = -D_{KL}(p_{\theta_0} \Vert p_\theta) < 0$ 이다. 대수의 법칙에 의해:

$\frac{1}{n}\ell_n(\theta) - \frac{1}{n}\ell_n(\theta_0) \xrightarrow{P} -D_{KL}(p_{\theta_0} \Vert p_\theta) < 0$

따라서 $\theta_0$ 가 점근적으로 유일한 최대점이 되어 $\hat{\theta}_{MLE,n} \to \theta_0$ 이다.

4. 점근적 정규성

$\sqrt{n}(\hat{\theta}_{MLE,n} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})$

여기서 $I_1(\theta_0)$ 는 단일 관측의 피셔 정보이다.

4.1 증명 개요

스코어 방정식 $\partial\ell_n/\partial\theta\vert_{\hat{\theta}} = 0$ 을 $\theta_0$ 주위에서 테일러 전개한다.

$0 = \frac{\partial\ell_n}{\partial\theta}\bigg\vert_{\theta_0} + \frac{\partial^2\ell_n}{\partial\theta^2}\bigg\vert_{\theta^*}(\hat{\theta} - \theta_0)$

$\theta^*$ 는 $\hat{\theta}$ 와 $\theta_0$ 사이의 값이다. 정리하면:

$\sqrt{n}(\hat{\theta} - \theta_0) = -\frac{\frac{1}{\sqrt{n}}\frac{\partial\ell_n}{\partial\theta}\big\vert_{\theta_0}}{\frac{1}{n}\frac{\partial^2\ell_n}{\partial\theta^2}\big\vert_{\theta^*}}$

분자는 중심 극한 정리에 의해 $\mathcal{N}(0, I_1(\theta_0))$ 로 수렴하고, 분모는 $-I_1(\theta_0)$ 에 확률 수렴한다. 슬러츠키 정리(Slutsky’s theorem)에 의해 $\sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} \mathcal{N}(0, I_1(\theta_0)^{-1})$ 이다.

5. 점근적 효율성

MLE의 점근적 분산 $I_1(\theta_0)^{-1}/n$ 이 크라메르-라오 하한 $I_n(\theta_0)^{-1} = (nI_1(\theta_0))^{-1}$ 에 도달하므로, MLE는 점근적으로 효율적이다. 어떤 일치 추정량도 MLE보다 더 작은 점근적 분산을 가질 수 없다.

6. 델타 방법에 의한 변환

$g$ 가 미분 가능한 함수이면:

$\sqrt{n}(g(\hat{\theta}_{MLE}) - g(\theta_0)) \xrightarrow{d} \mathcal{N}(0, (g'(\theta_0))^2 I_1(\theta_0)^{-1})$

이는 MLE의 함수(예: 로봇의 순방향 기구학을 통한 작업 공간 위치)의 점근적 분포를 제공한다.

7. 다변량 경우

모수 벡터 $\boldsymbol{\theta} \in \mathbb{R}^p$ 에 대한 MLE도 유사한 성질을 갖는다.

$\sqrt{n}(\hat{\boldsymbol{\theta}}_{MLE} - \boldsymbol{\theta}_0) \xrightarrow{d} \mathcal{N}(\mathbf{0}, \mathbf{I}_1(\boldsymbol{\theta}_0)^{-1})$

여기서 $\mathbf{I}_1$ 은 단일 관측의 피셔 정보 행렬이다.

8. 신뢰 구간의 구성

점근적 정규성으로부터 $(1 - \alpha)$ 신뢰 구간을 구성한다.

$\hat{\theta}_{MLE} \pm z_{\alpha/2}\sqrt{\frac{1}{nI_1(\hat{\theta}_{MLE})}}$

피셔 정보를 참값 $\theta_0$ 대신 추정치 $\hat{\theta}_{MLE}$ 에서 평가하여 실용적으로 사용한다.

9. 로봇 공학에서의 의미

점근적 최적성: 충분한 데이터가 있으면 MLE가 최적 추정량이며, CRLB로부터의 편차가 추정기의 비최적성을 나타낸다.

센서 캘리브레이션: 관측 수를 증가시키면 MLE의 표준 오차가 $1/\sqrt{n}$ 로 감소하며, 이는 실험 데이터 양의 결정에 지침을 제공한다.

파라미터 식별 가능성: 점근적 분산(FIM의 역행렬)이 무한대가 되는 방향은 식별 불가능한 모수를 나타낸다.

10. 점근적 성질의 한계

점근적 성질은 $n \to \infty$ 에서의 결과이므로, 유한 표본에서는 다음의 문제가 발생할 수 있다.

편향(유한 표본 편향, finite-sample bias)
비정규 분포(왜도, 두꺼운 꼬리)
수렴하지 않는 최적화(국소 최대, 평평한 가능도)

소표본에서는 베이즈 추정, 부트스트랩 등 대안적 방법이 사용된다.

11. 참고 문헌

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing: Estimation Theory. Prentice Hall.
Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.

version: 1.0