7.19 최대 엔트로피 분포의 유도: 라그랑주 승수법 적용

1. 최적화 문제의 정식화

1.1 일반적 설정

이산 확률 변수 $X$ 가 알파벳 $\mathcal{X} = \{x_1, x_2, \ldots, x_n\}$ 위에서 분포 $\mathbf{p} = (p_1, p_2, \ldots, p_n)$ 을 가진다. 다음의 제약 조건이 주어진다:

정규화 제약:

$\sum_{i=1}^{n} p_i = 1$

기댓값 제약 ( $m$ 개):

$\sum_{i=1}^{n} p_i f_r(x_i) = \alpha_r, \quad r = 1, 2, \ldots, m$

여기서 $f_r: \mathcal{X} \to \mathbb{R}$ 은 알려진 함수이고, $\alpha_r$ 은 알려진 기댓값이다. 추가로 $p_i \geq 0$ for all $i$ 이다.

목적 함수: 엔트로피를 최대화한다.

$\max_{\mathbf{p}} H(\mathbf{p}) = -\sum_{i=1}^{n} p_i \ln p_i$

여기서 자연 로그를 사용하며, 이는 계산의 편의를 위한 것이다 (밑의 변환은 상수 인수에 불과하므로 최적화 결과에 영향을 미치지 않는다).

2. 라그랑주 함수의 구성

2.1 라그랑주 승수의 도입

등식 제약 조건이 있는 최적화 문제에 라그랑주 승수법(method of Lagrange multipliers)을 적용한다. 라그랑주 함수(Lagrangian)를 다음과 같이 구성한다:

$\mathcal{L}(\mathbf{p}, \lambda_0, \lambda_1, \ldots, \lambda_m) = -\sum_{i=1}^{n} p_i \ln p_i + \lambda_0 \left(1 - \sum_{i=1}^{n} p_i\right) + \sum_{r=1}^{m} \lambda_r \left(\alpha_r - \sum_{i=1}^{n} p_i f_r(x_i)\right)$

여기서 $\lambda_0$ 는 정규화 제약에 대한 라그랑주 승수이고, $\lambda_1, \ldots, \lambda_m$ 은 기댓값 제약에 대한 라그랑주 승수이다.

3. 최적 조건의 유도

3.1 차 필요 조건

$\mathcal{L}$ 을 각 $p_i$ 에 대해 편미분하여 0으로 놓는다:

$\frac{\partial \mathcal{L}}{\partial p_i} = -\ln p_i - 1 - \lambda_0 - \sum_{r=1}^{m} \lambda_r f_r(x_i) = 0$

이를 $p_i$ 에 대해 풀면:

$\ln p_i = -1 - \lambda_0 - \sum_{r=1}^{m} \lambda_r f_r(x_i)$

$p_i^* = \exp\left(-1 - \lambda_0 - \sum_{r=1}^{m} \lambda_r f_r(x_i)\right)$

$C = \exp(-1 - \lambda_0)$ 로 놓으면:

$p_i^* = C \exp\left(-\sum_{r=1}^{m} \lambda_r f_r(x_i)\right)$

3.2 분배 함수에 의한 정규화

정규화 조건 $\sum_i p_i^* = 1$ 로부터:

$C \sum_{i=1}^{n} \exp\left(-\sum_{r=1}^{m} \lambda_r f_r(x_i)\right) = 1$

분배 함수(partition function) $Z(\boldsymbol{\lambda})$ 를 정의한다:

$Z(\boldsymbol{\lambda}) = \sum_{i=1}^{n} \exp\left(-\sum_{r=1}^{m} \lambda_r f_r(x_i)\right)$

그러면 $C = 1/Z(\boldsymbol{\lambda})$ 이고, 최대 엔트로피 분포는:

$p_i^* = \frac{1}{Z(\boldsymbol{\lambda})} \exp\left(-\sum_{r=1}^{m} \lambda_r f_r(x_i)\right)$

이 형태는 지수 족(exponential family) 분포이며, 볼츠만 분포(Boltzmann distribution)와 동일한 구조를 가진다.

4. 라그랑주 승수의 결정

4.1 쌍대 문제

라그랑주 승수 $\boldsymbol{\lambda} = (\lambda_1, \ldots, \lambda_m)$ 은 기댓값 제약을 만족하도록 결정된다:

$\sum_{i=1}^{n} p_i^*(\boldsymbol{\lambda}) f_r(x_i) = \alpha_r, \quad r = 1, \ldots, m$

이 조건은 분배 함수의 편미분으로 표현된다:

$-\frac{\partial \ln Z(\boldsymbol{\lambda})}{\partial \lambda_r} = \sum_{i=1}^{n} p_i^* f_r(x_i) = \alpha_r$

따라서 $\boldsymbol{\lambda}$ 는 다음의 쌍대 함수(dual function)를 최소화하는 것으로 결정된다:

$\Psi(\boldsymbol{\lambda}) = \ln Z(\boldsymbol{\lambda}) + \sum_{r=1}^{m} \lambda_r \alpha_r$

$\Psi$ 는 $\boldsymbol{\lambda}$ 에 대해 볼록하므로(분배 함수의 로그가 볼록이므로), 전역 최솟값이 존재하며 유일하다.

4.2 뉴턴법에 의한 수치적 해법

$\nabla_{\boldsymbol{\lambda}} \Psi = 0$ 을 만족하는 $\boldsymbol{\lambda}$ 는 일반적으로 해석적으로 구할 수 없으므로, 뉴턴법(Newton’s method) 또는 경사 하강법(gradient descent)에 의한 수치적 방법이 사용된다. 헤시안(Hessian) 행렬은:

$\frac{\partial^2 \Psi}{\partial \lambda_r \partial \lambda_s} = \text{Cov}_{p^*}[f_r, f_s]$

이는 $f_r$ 과 $f_s$ 의 공분산 행렬이며, 양의 반정치이므로 $\Psi$ 의 볼록성을 확인한다.

5. 구체적 사례

5.1 사례 1: 제약 없음 (균등 분포)

기댓값 제약이 없는 경우 ( $m = 0$ ), 최대 엔트로피 분포는:

$p_i^* = \frac{1}{Z} = \frac{1}{n}$

이는 $\mathcal{X}$ 위의 균등 분포이며, 아무런 사전 정보가 없을 때 모든 결과에 동일한 확률을 부여하는 라플라스의 불충분 이유 원리(principle of insufficient reason)와 일치한다.

5.2 사례 2: 평균 제약 (기하 분포)

비음 정수 $\mathcal{X} = \{0, 1, 2, \ldots\}$ 위에서 평균 $E[X] = \mu$ 가 주어진 경우. $f(x) = x$ , $\alpha = \mu$ 로 설정한다.

$p^*(x) = \frac{1}{Z(\lambda)} e^{-\lambda x}$

$Z(\lambda) = \sum_{x=0}^{\infty} e^{-\lambda x} = 1/(1 - e^{-\lambda})$ ( $\lambda > 0$ )이므로:

$p^*(x) = (1 - e^{-\lambda}) e^{-\lambda x}$

이는 기하 분포(geometric distribution)이다. $\lambda$ 는 $E[X] = e^{-\lambda}/(1 - e^{-\lambda}) = \mu$ 로부터 결정된다.

5.3 사례 3: 평균과 분산 제약 (가우시안 분포)

연속 확률 변수 $X \in \mathbb{R}$ 에서 $E[X] = \mu$ , $E[(X-\mu)^2] = \sigma^2$ 이 주어진 경우. 라그랑주 승수법을 연속 버전으로 적용하면:

$p^*(x) = \frac{1}{Z(\lambda_1, \lambda_2)} \exp(-\lambda_1 x - \lambda_2 x^2)$

정규화 조건과 제약으로부터 $\lambda_1$ 과 $\lambda_2$ 를 결정하면:

$p^*(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$

이는 가우시안 분포 $\mathcal{N}(\mu, \sigma^2)$ 이다. 따라서 평균과 분산만 알려진 연속 확률 변수에 대해, 최대 엔트로피 분포는 정규 분포이다. 이 결과는 정규 분포가 정보 이론에서 특별한 지위를 가지는 근거 중 하나이다.

5.4 사례 4: 구간 제약 (균등 분포)

$X \in [a, b]$ 이고 추가 기댓값 제약이 없는 경우, 최대 엔트로피 분포는 $[a, b]$ 위의 연속 균등 분포 $p^*(x) = 1/(b-a)$ 이다.

6. 최대 엔트로피 분포와 지수 족의 관계

6.1 일반적 대응

최대 엔트로피 분포의 일반 형태 $p^*(x) = (1/Z) \exp(-\sum_r \lambda_r f_r(x))$ 는 자연 매개변수(natural parameter) $\boldsymbol{\eta} = -\boldsymbol{\lambda}$ 와 충분 통계량(sufficient statistic) $\mathbf{f}(x) = (f_1(x), \ldots, f_m(x))$ 을 가지는 지수 족 분포이다:

$p^*(x) = h(x) \exp(\boldsymbol{\eta}^T \mathbf{f}(x) - A(\boldsymbol{\eta}))$

여기서 $h(x) = 1$ (이산 경우) 또는 르베그 측도에 대한 기저 측도이고, $A(\boldsymbol{\eta}) = \ln Z(-\boldsymbol{\eta})$ 는 로그 분배 함수(log-partition function) 또는 누적 함수(cumulant function)이다.

이 대응은 최대 엔트로피 원리에 의해 자연스럽게 도출되는 분포의 범주가 정확히 지수 족임을 보여준다. 지수 족은 통계학의 핵심적 분포 범주이며, 최대 우도 추정의 충분 통계량 존재, 켤레 사전 분포(conjugate prior)의 존재 등 우수한 통계적 성질을 가진다.

7. 차 충분 조건

라그랑주 함수의 2차 미분(헤시안)을 분석하여 극값이 실제로 최대인지 확인한다. 제약 조건을 만족하는 방향 $\delta \mathbf{p}$ ( $\sum_i \delta p_i = 0$ , $\sum_i \delta p_i f_r(x_i) = 0$ )에 대해:

$\frac{\partial^2 \mathcal{L}}{\partial p_i \partial p_j} = -\frac{\delta_{ij}}{p_i}$

이는 음의 정부호(negative definite)이므로 (각 대각 원소 $-1/p_i < 0$ ), 극값은 확실히 최대이다. 또한 엔트로피 함수가 순오목(strictly concave)이므로 전역 최대가 유일하다.

8. 결론

라그랑주 승수법의 적용에 의해, 기댓값 제약 하의 최대 엔트로피 분포가 지수 족 분포의 형태를 취함이 체계적으로 유도된다. 분배 함수에 의한 정규화, 쌍대 문제에 의한 라그랑주 승수 결정, 그리고 볼록 최적화에 의한 유일성 보장은 이 유도의 세 가지 핵심 요소이다. 구체적 제약 조건에 따라 균등 분포, 기하 분포, 가우시안 분포 등 통계학의 주요 분포들이 최대 엔트로피 분포로 자연스럽게 도출되며, 이는 이 분포들의 정보 이론적 정당성을 확립한다.