7.16 교차 엔트로피(Cross-Entropy)의 정의와 최적 부호 연관성

1. 교차 엔트로피의 정의

1.1 이산 분포에 대한 정의

동일한 알파벳 $\mathcal{X}$ 위에 정의된 두 확률 분포 $P$ 와 $Q$ 에 대해, $P$ 에 대한 $Q$ 의 교차 엔트로피(cross-entropy) $H(P, Q)$ 는 다음과 같이 정의된다:

$H(P, Q) = -\sum_{x \in \mathcal{X}} P(x) \log_2 Q(x)$

여기서 기댓값은 참 분포(true distribution) $P$ 에 대해 취해지고, 로그 안의 확률은 모형 분포(model distribution) $Q$ 의 것이다. $P(x) > 0$ 이고 $Q(x) = 0$ 인 $x$ 가 존재하면 $H(P, Q) = +\infty$ 이다.

1.2 연속 분포에 대한 정의

확률 밀도 함수 $p(x)$ 와 $q(x)$ 에 대해:

$H(p, q) = -\int_{-\infty}^{\infty} p(x) \log_2 q(x) \, dx$

1.3 엔트로피 및 KL 발산과의 관계

교차 엔트로피는 엔트로피와 쿨백-라이블러 발산의 합으로 분해된다:

$H(P, Q) = H(P) + D_{\text{KL}}(P \| Q)$

이 분해에서 $H(P)$ 는 참 분포 $P$ 의 고유한 불확실성(감소시킬 수 없는 최소 부호 길이)이고, $D_{\text{KL}}(P \| Q)$ 는 잘못된 분포 $Q$ 를 사용함으로 인한 추가적 비용이다.

$D_{\text{KL}}(P \| Q) \geq 0$ 이므로:

$H(P, Q) \geq H(P)$

등호는 $P = Q$ 일 때에만 성립한다. 따라서 교차 엔트로피는 엔트로피 이상이며, 참 분포가 모형 분포와 일치할 때에만 최소에 도달한다.

2. 부호화론적 해석

2.1 최적 부호와 교차 엔트로피

정보원의 참 분포가 $P$ 이고, 부호 설계자가 분포를 $Q$ 로 잘못 가정하여 $Q$ 에 최적인 부호를 설계하였다고 하자. $Q$ 에 최적인 부호의 부호어 길이는 이상적으로 $l_Q(x) = -\log_2 Q(x)$ 이다 (정수 제약을 무시한 이상적 경우).

이 부호를 참 분포 $P$ 하에서 사용할 때의 평균 부호 길이는:

$E_P[l_Q(X)] = \sum_x P(x) \cdot (-\log_2 Q(x)) = H(P, Q)$

따라서 교차 엔트로피 $H(P, Q)$ 는 참 분포 $P$ 하에서, $Q$ 에 기반한 부호를 사용할 때의 평균 부호 길이이다.

2.2 최적 부호와의 차이

참 분포 $P$ 에 기반한 최적 부호의 평균 부호 길이는 $H(P)$ 이다. 따라서 $Q$ 에 기반한 부호의 비효율성, 즉 추가 비트 수는:

$H(P, Q) - H(P) = D_{\text{KL}}(P \| Q)$

이 관계는 KL 발산의 부호화론적 의미를 명확히 한다: KL 발산은 잘못된 분포 가정으로 인한 부호화 비효율성의 정확한 양이다.

2.3 크래프트 부등식과의 연결

유일 복호 가능 부호의 부호어 길이 $l(x)$ 는 크래프트 부등식 $\sum_x 2^{-l(x)} \leq 1$ 을 만족해야 한다. 부호어 길이 $l(x)$ 에 대응하는 암묵적 확률 분포(implied probability distribution)를 $Q_l(x) = 2^{-l(x)} / Z$ (여기서 $Z = \sum_x 2^{-l(x)} \leq 1$ )로 정의할 수 있다. 이때 평균 부호 길이는:

$E_P[l(X)] = H(P, Q_l) + \log_2 Z \geq H(P, Q_l) \geq H(P)$

따라서 모든 유일 복호 가능 부호의 평균 부호 길이는 교차 엔트로피에 의해 하한이 설정되며, 교차 엔트로피 자체는 엔트로피에 의해 하한이 설정된다.

3. 교차 엔트로피의 수학적 성질

3.1 비음성

$Q(x) \leq 1$ 이므로 $-\log_2 Q(x) \geq 0$ 이다. 따라서:

$H(P, Q) = \sum_x P(x) \cdot (-\log_2 Q(x)) \geq 0$

3.2 비대칭성

일반적으로 $H(P, Q) \neq H(Q, P)$ 이다. 이 비대칭성은 “누구의 관점에서 기댓값을 계산하는가“와 “누구의 분포에 기반한 부호를 사용하는가“가 다르기 때문에 발생한다.

3.3 볼록성

$H(P, Q)$ 는 $Q$ 에 대해 볼록하다. 이는 $-\log_2 Q(x)$ 가 $Q(x)$ 에 대해 볼록하고, 볼록 함수의 비음 가중 합이 볼록하기 때문이다. $P$ 에 대해서는 선형(따라서 볼록이면서 동시에 오목)이다.

$Q$ 에 대한 볼록성은 교차 엔트로피 최소화 문제가 볼록 최적화(convex optimization)임을 보장하며, 전역 최솟값의 존재와 유일성을 보장한다.

4. 교차 엔트로피와 최적 부호의 관계

4.1 최적 부호의 존재

주어진 분포 $P$ 에 대해, 교차 엔트로피를 최소화하는 $Q$ 는 $Q = P$ 이며, 이때 $H(P, P) = H(P)$ 이다. 이는 무잡음 부호화 정리의 핵심 결과와 일치한다: 정보원의 참 분포를 정확히 알 때 최적 부호를 설계할 수 있으며, 그 평균 부호 길이는 엔트로피이다.

4.2 허프만 부호와의 관계

허프만 부호(Huffman code)는 정수 길이 제약 하에서 평균 부호 길이를 최소화하는 최적 접두어 부호이다. 허프만 부호의 평균 부호 길이 $\bar{l}_H$ 는 다음을 만족한다:

$H(P) \leq \bar{l}_H < H(P) + 1$

참 분포 $P$ 에 기반하여 허프만 부호를 설계한 경우, 평균 부호 길이가 엔트로피에 가장 가까운 정수 길이 부호가 된다. 분포를 $Q(\neq P)$ 로 잘못 가정하여 $Q$ 에 대한 허프만 부호를 설계하면, $P$ 하에서의 평균 부호 길이는 $H(P, Q)$ 에 근접하며, 이는 $H(P)$ 보다 $D_{\text{KL}}(P \| Q)$ 만큼 더 길다.

4.3 산술 부호화의 경우

산술 부호화(arithmetic coding)는 정수 길이 제약을 사실상 극복하여, 긴 블록에 대해 평균 부호 길이를 엔트로피에 임의로 가깝게 만들 수 있다. 분포 $Q$ 에 기반한 산술 부호를 참 분포 $P$ 의 데이터에 적용하면, $n$ 기호 블록에 대한 평균 총 부호 길이는 약 $n \cdot H(P, Q)$ 비트에 수렴한다.

5. 통계적 추정에서의 역할

5.1 교차 엔트로피 최소화와 최대 우도 추정의 동치성

관측 데이터 $x_1, x_2, \ldots, x_N$ 에 대한 경험적 분포(empirical distribution) $\hat{P}(x) = (1/N)\sum_{i=1}^{N} \mathbf{1}(x_i = x)$ 에 대해, 매개변수 모형 $Q_\theta$ 와의 교차 엔트로피는:

$H(\hat{P}, Q_\theta) = -\sum_x \hat{P}(x) \log_2 Q_\theta(x) = -\frac{1}{N} \sum_{i=1}^{N} \log_2 Q_\theta(x_i)$

이것의 최소화는 $\sum_i \log_2 Q_\theta(x_i)$ 의 최대화, 즉 로그 우도(log-likelihood)의 최대화와 동치이다. 따라서:

$\arg\min_\theta H(\hat{P}, Q_\theta) = \arg\max_\theta \sum_{i=1}^{N} \log Q_\theta(x_i)$

이 동치성은 최대 우도 추정(MLE)이 정보 이론적 관점에서 교차 엔트로피의 최소화(또는 동등하게 KL 발산의 최소화)임을 보여준다.

5.2 모형 비교에서의 활용

두 모형 $Q_1$ 과 $Q_2$ 중에서 참 분포 $P$ 에 더 가까운 모형을 선택하려면, 교차 엔트로피 $H(P, Q_1)$ 과 $H(P, Q_2)$ 를 비교한다. 경험적 분포를 $P$ 의 추정으로 사용하면, 이는 로그 우도의 비교와 동치이다. 아카이케 정보 기준(Akaike Information Criterion, AIC)과 같은 모형 선택 기준은 교차 엔트로피의 편향 보정된 추정에 기반한다.

6. 기계 학습에서의 기초적 역할

교차 엔트로피는 분류(classification) 문제에서 가장 널리 사용되는 손실 함수이다. 참 레이블의 분포 $P$ (원-핫 인코딩)와 모형의 예측 분포 $Q_\theta$ 사이의 교차 엔트로피를 최소화하는 것이 분류 모형 학습의 표준적 목표이다. 교차 엔트로피 손실이 선호되는 이유는 그것이 최대 우도 추정과 동치이고, $Q$ 에 대해 볼록하며, 경사(gradient)가 직관적으로 해석 가능한 형태를 가지기 때문이다.

7. 결론

교차 엔트로피는 참 분포에 대한 비최적 부호의 평균 부호 길이라는 명확한 부호화론적 해석을 가지며, 엔트로피와 KL 발산으로의 분해를 통해 정보 이론의 핵심 구조에 자연스럽게 편입된다. 교차 엔트로피의 최소화가 최대 우도 추정과 동치라는 결과는 통계적 추정과 정보 이론의 심층적 연결을 드러내며, 이 연결은 현대 기계 학습에서 교차 엔트로피 손실 함수가 중심적 역할을 수행하는 이론적 근거이다.