7.18 최대 엔트로피 원리(Maximum Entropy Principle)의 공리적 기초

1. 최대 엔트로피 원리의 진술

1.1 기본 원리

최대 엔트로피 원리(Maximum Entropy Principle, MaxEnt)는 주어진 제약 조건과 일치하는 모든 확률 분포 중에서, 엔트로피가 최대인 분포를 선택해야 한다는 추론 원리이다. 에드윈 제인스(Edwin T. Jaynes)가 1957년 두 편의 논문 “Information Theory and Statistical Mechanics“에서 체계적으로 제시하였다.

이 원리의 핵심적 동기는 다음과 같다: 알려진 사실(제약 조건)을 충실히 반영하면서, 알려지지 않은 사실에 대해 어떠한 추가적 가정도 하지 않는 가장 ‘정직한’ 분포를 선택하라. 엔트로피는 불확실성의 척도이므로, 엔트로피가 최대인 분포는 주어진 정보 이상의 구조를 가정하지 않는 분포이다.

1.2 형식적 정의

이산 확률 변수 $X$ 가 알파벳 $\mathcal{X} = \{x_1, \ldots, x_n\}$ 위에서 분포 $P = (p_1, \ldots, p_n)$ 을 가지고, $m$ 개의 기댓값 제약 조건이 주어졌다고 하자:

$\sum_{i=1}^{n} p_i f_r(x_i) = \langle f_r \rangle, \quad r = 1, 2, \ldots, m$

여기서 $f_r: \mathcal{X} \to \mathbb{R}$ 은 알려진 함수이고, $\langle f_r \rangle$ 은 알려진 기댓값이다. 정규화 조건 $\sum_i p_i = 1$ 과 비음 조건 $p_i \geq 0$ 이 추가된다.

최대 엔트로피 분포는 이 제약 하에서 $H(P) = -\sum_i p_i \log p_i$ 를 최대화하는 분포이다.

2. 제인스의 논증

2.1 정보론적 정당화

제인스는 최대 엔트로피 원리를 다음과 같이 정당화하였다. 확률 분포의 할당(assignment)은 이용 가능한 정보에 기반한 추론 행위이다. 제약 조건은 이용 가능한 정보를 표현하며, 이 정보와 일치하는 모든 분포 중에서 하나를 선택해야 한다. 엔트로피가 최대가 아닌 분포를 선택하는 것은, 제약 조건에 포함되지 않은 추가 정보를 암묵적으로 가정하는 것에 해당한다. 이러한 임의적 가정을 배제하기 위해, 엔트로피가 최대인 분포를 선택해야 한다.

2.2 통계역학에서의 적용

제인스의 원래 동기는 통계역학의 기초를 정보 이론적으로 재구성하는 것이었다. 미시 정준 앙상블의 등확률 가정과 정준 앙상블의 볼츠만 분포가 각각 서로 다른 제약 조건 하에서의 최대 엔트로피 분포임을 보였다:

미시 정준 앙상블: 제약 조건 없음(정규화만). 최대 엔트로피 분포는 균등 분포 $p_i = 1/W$ .
정준 앙상블: 에너지의 기댓값 $\langle E \rangle = U$ 가 주어짐. 최대 엔트로피 분포는 볼츠만 분포 $p_i \propto e^{-\beta E_i}$ .

이를 통해 통계역학의 평형 분포가 정보 이론적 원리로부터 자연스럽게 도출됨을 보였다.

3. 공리적 기초

3.1 쇼어-존슨 공리 체계

존 스코어(John Skilling)와 로저 존슨(Roger W. Johnson)은 최대 엔트로피 원리의 공리적 정당화를 제시하였다. 존슨(1979)과 쇼어-존슨(Shore-Johnson, 1980)의 공리 체계는 다음과 같다:

공리 1 (유일성): 주어진 제약 조건에 대한 추론 결과는 유일해야 한다.

공리 2 (불변성): 결과가 좌표 변환에 대해 불변이어야 한다. 확률 변수의 재배열(relabeling)이 추론 결과를 변화시켜서는 안 된다.

공리 3 (시스템 독립성): 독립적인 두 시스템에 대한 추론은, 각 시스템을 개별적으로 추론한 것과 동일해야 한다. 즉, 결합 분포의 추론이 주변 분포의 추론과 일관되어야 한다.

공리 4 (부분 집합 독립성): 제약 조건이 알파벳의 부분 집합에만 관련되면, 해당 부분 집합 밖의 확률 비율은 변화하지 않아야 한다.

3.2 쇼어-존슨 정리

정리 (Shore-Johnson, 1980): 공리 1~4를 만족하는 유일한 추론 방법은, 사전 분포(prior distribution) $Q$ 에 대한 쿨백-라이블러 발산을 최소화하는 것이다:

$P^* = \arg\min_P D_{\text{KL}}(P \| Q) \quad \text{subject to constraints}$

사전 분포 $Q$ 가 균등 분포일 때, $D_{\text{KL}}(P \| Q) = \log n - H(P)$ 이므로, $D_{\text{KL}}$ 의 최소화는 $H(P)$ 의 최대화와 동치이다. 따라서 최대 엔트로피 원리는 균등 사전 분포 하에서의 최소 KL 발산 원리의 특수한 경우이다.

이 정리의 의의는, 최대 엔트로피 원리가 단순한 직관적 제안이 아니라, 합리적 추론 행위가 만족해야 할 공리적 요구 조건의 유일한 귀결임을 증명한 것이다.

3.3 월리-타이어니 공리 체계

피터 월리(Peter Walley)와 루크 타이어니(Luke Tierney) 등도 대안적 공리 체계를 통해 최대 엔트로피의 정당성을 탐구하였다. 이들의 접근법은 특히 일관성(consistency) 조건에 초점을 맞추며, 제약 조건이 점진적으로 추가될 때 추론 결과가 논리적으로 일관되게 갱신되어야 한다는 요구를 중심으로 한다.

4. 농도 현상에 의한 정당화

4.1 조합론적 논증

최대 엔트로피 원리에 대한 또 다른 정당화는 대수의 법칙(law of large numbers)과 농도 현상(concentration phenomenon)에 기반한다. $N$ 개의 독립 동일 분포 표본이 분포 $P$ 로부터 생성될 때, 경험적 분포(empirical distribution)가 주어진 제약 조건을 만족하는 비율은 최대 엔트로피 분포의 엔트로피에 의해 결정된다.

구체적으로, 제약 조건을 만족하는 경험적 분포 $\hat{P}$ 들의 집합 $\mathcal{C}$ 중에서, $N$ 개 표본의 수열 $(x_1, \ldots, x_N)$ 이 경험적 분포 $\hat{P}$ 를 가질 수열의 수는 대략 $2^{NH(\hat{P})}$ 이다. 따라서 제약 집합 $\mathcal{C}$ 내에서 가장 많은 수열에 대응하는 경험적 분포는 엔트로피가 최대인 분포이다.

$N \to \infty$ 에서 경험적 분포의 대부분은 최대 엔트로피 분포에 집중된다. 이 조합론적 논증은 최대 엔트로피 분포가 “가장 많은 미시적 실현을 가지는 거시적 상태“라는 볼츠만의 아이디어와 직접 연결된다.

5. 최대 엔트로피 원리의 주요 결과

5.1 제약 없는 경우

유일한 제약이 정규화 $\sum_i p_i = 1$ 인 경우, 최대 엔트로피 분포는 균등 분포 $p_i = 1/n$ 이다. 이는 어떤 결과도 다른 결과보다 선호할 이유가 없을 때, 모든 결과에 동등한 확률을 부여하는 것이 정당함을 확인한다.

5.2 평균 제약이 있는 경우

$\sum_i p_i f(x_i) = \mu$ (평균 제약)가 추가되면, 최대 엔트로피 분포는 지수 족(exponential family)의 형태를 취한다:

$p_i^* = \frac{1}{Z(\lambda)} e^{\lambda f(x_i)}$

여기서 $Z(\lambda) = \sum_i e^{\lambda f(x_i)}$ 는 분배 함수(partition function)이고, $\lambda$ 는 제약 $\sum_i p_i^* f(x_i) = \mu$ 를 만족하도록 결정되는 라그랑주 승수이다.

5.3 평균과 분산 제약이 있는 연속 경우

연속 확률 변수에서 $E[X] = \mu$ 와 $E[(X-\mu)^2] = \sigma^2$ 이 주어지면, 최대 엔트로피 분포는 가우시안 분포 $\mathcal{N}(\mu, \sigma^2)$ 이다. 이 결과는 가우시안 분포의 정보 이론적 특수성을 설명한다: 가우시안 분포는 주어진 평균과 분산을 가지는 모든 분포 중에서 최대의 불확실성을 가진다.

6. 비판과 한계

6.1 사전 분포 선택의 문제

최대 엔트로피 원리는 균등 사전 분포를 암묵적으로 가정한다. 그러나 알파벳의 정의나 확률 변수의 매개변수화에 따라 ’균등’의 의미가 달라질 수 있다. 비균등 사전 분포가 자연스러운 상황에서는 최소 KL 발산 원리를 직접 사용하는 것이 적절하다.

6.2 제약 조건의 선택

최대 엔트로피 원리의 결과는 어떤 양의 기댓값을 제약으로 설정하느냐에 결정적으로 의존한다. 제약의 선택 자체는 원리에 의해 결정되지 않으며, 문제의 물리적 또는 통계적 맥락에서 결정되어야 한다. 잘못된 제약의 선택은 부적절한 분포를 산출한다.

7. 기계 학습에서의 활용

최대 엔트로피 원리는 자연어 처리에서 최대 엔트로피 모형(maximum entropy model), 즉 로지스틱 회귀(logistic regression)의 이론적 기초이다. 특징 함수(feature function) $f_r(\mathbf{x}, y)$ 에 대한 기댓값 제약 $E_P[f_r] = E_{\hat{P}}[f_r]$ 를 부과하면, 최대 엔트로피 분포는:

$P^*(y \vert \mathbf{x}) = \frac{1}{Z(\mathbf{x})} \exp\left(\sum_r \lambda_r f_r(\mathbf{x}, y)\right)$

이는 소프트맥스 형태의 조건부 분포이며, 로지스틱 회귀 모형과 동일하다. 최대 엔트로피 모형은 1990년대 후반에서 2000년대 초반까지 자연어 처리의 주요 모형으로 사용되었으며, 이후 신경망 기반 모형으로 대체되었으나, 그 이론적 원리는 현대 모형의 기초에 여전히 내재한다.

8. 결론

최대 엔트로피 원리는 불완전한 정보 하에서의 확률 분포 할당에 대한 일관되고 합리적인 방법론이다. 쇼어-존슨 공리 체계에 의해 유일성, 불변성, 시스템 독립성, 부분 집합 독립성이라는 합리적 요구 조건의 유일한 귀결임이 증명되었으며, 조합론적 농도 현상에 의한 추가적 정당화도 존재한다. 이 원리는 통계역학, 통계적 추론, 기계 학습을 관통하는 통합적 원리로서, 정보 이론이 확률론적 추론의 기초에 기여하는 대표적 사례이다.