7.14 쿨백-라이블러 발산(Kullback-Leibler Divergence)의 정의

1. 역사적 배경

솔로몬 쿨백(Solomon Kullback)과 리처드 라이블러(Richard Leibler)는 1951년 논문 “On Information and Sufficiency“에서 두 확률 분포 사이의 정보론적 ’거리’를 측정하는 양을 도입하였다. 이 양은 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence), 상대 엔트로피(relative entropy), 또는 정보 이득(information gain)으로 불린다. 쿨백과 라이블러의 정의는 해롤드 제프리스(Harold Jeffreys)가 1946년에 도입한 유사한 양에 기초하고 있으며, 섀넌 엔트로피의 자연스러운 확장으로서 정보 이론, 통계학, 기계 학습에서 근본적 역할을 수행한다.

2. 이산 분포에 대한 정의

2.1 형식적 정의

동일한 유한 알파벳 $\mathcal{X} = \{x_1, x_2, \ldots, x_n\}$ 위에 정의된 두 확률 분포 $P$ 와 $Q$ 에 대해, $P$ 로부터 $Q$ 로의 쿨백-라이블러 발산은 다음과 같이 정의된다:

$D_{\text{KL}}(P \| Q) = \sum_{x \in \mathcal{X}} P(x) \log_2 \frac{P(x)}{Q(x)}$

여기서 $0 \log_2 (0/q) = 0$ ( $q \geq 0$ )으로, $p \log_2 (p/0) = +\infty$ ( $p > 0$ )로 약속한다. 따라서 $P(x) > 0$ 인 모든 $x$ 에 대해 $Q(x) > 0$ 이어야 $D_{\text{KL}}$ 이 유한하다. 이 조건을 $P$ 가 $Q$ 에 대해 절대 연속(absolutely continuous)이라 한다.

2.2 기댓값으로서의 표현

KL 발산은 로그 우도비(log-likelihood ratio)의 기댓값으로 표현된다:

$D_{\text{KL}}(P \| Q) = E_P\left[\log_2 \frac{P(X)}{Q(X)}\right]$

여기서 기댓값은 분포 $P$ 에 대해 취해진다. 이 표현은 $P$ 가 참 분포일 때, 관측 $X$ 가 $P$ 에서 온 것인지 $Q$ 에서 온 것인지를 판별하는 로그 우도비의 평균이다.

2.3 엔트로피와의 관계

KL 발산은 교차 엔트로피(cross-entropy)와 엔트로피의 차이로 분해된다:

$D_{\text{KL}}(P \| Q) = H(P, Q) - H(P)$

여기서 $H(P, Q) = -\sum_x P(x) \log_2 Q(x)$ 는 $P$ 에 대한 $Q$ 의 교차 엔트로피이고, $H(P) = -\sum_x P(x) \log_2 P(x)$ 는 $P$ 의 엔트로피이다.

이 분해의 의미는 다음과 같다: $H(P, Q)$ 는 참 분포가 $P$ 일 때 $Q$ 에 기반한 부호를 사용하여 메시지를 부호화하는 데 필요한 평균 비트 수이고, $H(P)$ 는 최적 부호(참 분포 $P$ 에 기반한 부호)를 사용할 때의 평균 비트 수이다. 따라서 $D_{\text{KL}}(P \| Q)$ 는 최적 부호 대신 $Q$ 에 기반한 비최적 부호를 사용함으로써 발생하는 추가적 평균 비트 수, 즉 부호화 비효율성(coding inefficiency)이다.

3. 연속 분포에 대한 정의

확률 밀도 함수 $p(x)$ 와 $q(x)$ 를 가지는 두 연속 확률 분포에 대해:

$D_{\text{KL}}(p \| q) = \int_{-\infty}^{\infty} p(x) \log_2 \frac{p(x)}{q(x)} \, dx$

$p(x) > 0$ 인 모든 $x$ 에 대해 $q(x) > 0$ 일 때 유한한 값을 가진다.

4. 기본 성질

4.1 비음성 (깁스 부등식)

$D_{\text{KL}}(P \| Q) \geq 0$

등호는 $P = Q$ (거의 모든 곳에서)일 때에만 성립한다. 이 성질을 깁스 부등식(Gibbs’ inequality)이라 한다.

증명: 젠센 부등식(Jensen’s inequality)을 이용한다. $-\log$ 가 순볼록(strictly convex)이므로:

$D_{\text{KL}}(P \| Q) = -\sum_x P(x) \log_2 \frac{Q(x)}{P(x)} \geq -\log_2 \sum_x P(x) \frac{Q(x)}{P(x)} = -\log_2 \sum_x Q(x) = -\log_2 1 = 0$

등호는 $Q(x)/P(x)$ 가 상수일 때, 즉 $P = Q$ 일 때에만 성립한다.

비음성은 KL 발산을 두 분포 사이의 ’거리’로 해석하게 하는 기본 근거이다.

4.2 비대칭성

$D_{\text{KL}}(P \| Q) \neq D_{\text{KL}}(Q \| P) \quad \text{(일반적으로)}$

KL 발산은 대칭적이지 않다. $D_{\text{KL}}(P \| Q)$ 는 참 분포가 $P$ 일 때 $Q$ 를 사용하는 비용을 측정하고, $D_{\text{KL}}(Q \| P)$ 는 참 분포가 $Q$ 일 때 $P$ 를 사용하는 비용을 측정한다. 이 비대칭성으로 인해 KL 발산은 거리 함수(metric)의 공리를 만족하지 않는다.

구체적 예를 들면, $P = (1/2, 1/2)$ , $Q = (1/10, 9/10)$ 인 경우:

$D_{\text{KL}}(P \| Q) = \frac{1}{2}\log_2\frac{1/2}{1/10} + \frac{1}{2}\log_2\frac{1/2}{9/10} \approx 0.532 \text{ bits}$

$D_{\text{KL}}(Q \| P) = \frac{1}{10}\log_2\frac{1/10}{1/2} + \frac{9}{10}\log_2\frac{9/10}{1/2} \approx 0.368 \text{ bits}$

4.3 삼각 부등식의 비성립

KL 발산은 삼각 부등식 $D_{\text{KL}}(P \| R) \leq D_{\text{KL}}(P \| Q) + D_{\text{KL}}(Q \| R)$ 을 만족하지 않는다. 비대칭성 및 삼각 부등식 비성립으로 인해, KL 발산은 거리 함수가 아닌 발산(divergence)으로 분류된다.

4.4 볼록성

$D_{\text{KL}}(P \| Q)$ 는 $(P, Q)$ 의 쌍에 대해 볼록하다. 즉, 분포 쌍 $(P_1, Q_1)$ 과 $(P_2, Q_2)$ 및 $0 \leq \lambda \leq 1$ 에 대해:

$D_{\text{KL}}(\lambda P_1 + (1-\lambda)P_2 \| \lambda Q_1 + (1-\lambda)Q_2) \leq \lambda D_{\text{KL}}(P_1 \| Q_1) + (1-\lambda) D_{\text{KL}}(P_2 \| Q_2)$

5. 정보론적 해석

5.1 부호화 비효율성

$D_{\text{KL}}(P \| Q)$ 는 참 분포 $P$ 대신 잘못된 분포 $Q$ 에 기반하여 최적 부호를 설계하였을 때 발생하는 추가적 평균 부호 길이이다. $Q$ 에 최적인 부호의 부호어 길이는 $l_Q(x) \approx -\log_2 Q(x)$ 이며, 이를 참 분포 $P$ 하에서 사용하면 평균 부호 길이는:

$E_P[l_Q(X)] = -\sum_x P(x) \log_2 Q(x) = H(P, Q) = H(P) + D_{\text{KL}}(P \| Q)$

따라서 비효율성은 정확히 $D_{\text{KL}}(P \| Q)$ 비트이다.

5.2 통계적 판별력

KL 발산은 두 분포를 통계적으로 판별하는 난이도와 관련된다. 표본이 $P$ 에서 생성되었는지 $Q$ 에서 생성되었는지를 판별하는 가설 검정에서, $n$ 개의 독립 표본이 주어졌을 때 제1종 오류율이 $\alpha$ 인 최적 검정의 제2종 오류율은 대략 $\exp(-n D_{\text{KL}}(P \| Q))$ 에 비례하여 감소한다 (스타인 보조정리, Stein’s lemma). 즉, KL 발산이 클수록 두 분포를 더 빠르게 판별할 수 있다.

5.3 상호 정보량과의 관계

상호 정보량은 결합 분포와 주변 분포의 곱 사이의 KL 발산이다:

$I(X; Y) = D_{\text{KL}}(p(x, y) \| p(x)p(y))$

이 관계는 상호 정보량이 독립 가정으로부터의 이탈도를 KL 발산으로 측정한 것임을 명시한다.

6. 통계학에서의 활용

6.1 최대 우도 추정

최대 우도 추정(maximum likelihood estimation, MLE)은 KL 발산의 최소화와 동치이다. 관측 데이터의 경험적 분포(empirical distribution) $\hat{P}$ 와 모형 분포 $Q_\theta$ 사이의 KL 발산:

$D_{\text{KL}}(\hat{P} \| Q_\theta) = H(\hat{P}, Q_\theta) - H(\hat{P})$

에서 $H(\hat{P})$ 는 $\theta$ 에 무관하므로, $D_{\text{KL}}$ 의 최소화는 교차 엔트로피 $H(\hat{P}, Q_\theta)$ 의 최소화와 동치이며, 이는 다시 로그 우도의 최대화와 동치이다:

$\min_\theta D_{\text{KL}}(\hat{P} \| Q_\theta) \iff \max_\theta \sum_x \hat{P}(x) \log_2 Q_\theta(x) \iff \max_\theta \sum_{i=1}^{n} \log_2 Q_\theta(x_i)$

6.2 변분 추론

변분 추론(variational inference)에서 근사 사후 분포 $q(\theta)$ 를 선택하는 기준은 참 사후 분포 $p(\theta \vert x)$ 와의 KL 발산 최소화이다:

$q^* = \arg\min_q D_{\text{KL}}(q(\theta) \| p(\theta \vert x))$

이 최소화는 직접 수행할 수 없으므로(참 사후 분포를 모르기 때문에), 증거 하한(ELBO)의 최대화로 대체된다.

7. 순방향 KL과 역방향 KL

7.1 두 방향의 차이

KL 발산의 비대칭성은 최적화 문제에서 두 가지 서로 다른 행동을 유발한다:

순방향 KL $D_{\text{KL}}(P \| Q)$ : 참 분포 $P$ 가 양의 확률을 부여하는 모든 영역에서 $Q$ 도 양의 확률을 부여하도록 강제한다. $P(x) > 0$ 이나 $Q(x) \approx 0$ 인 경우 발산이 급격히 증가하기 때문이다. 이를 평균 추구(mean-seeking) 또는 영점 강제(zero-forcing on $Q$ ) 행동이라 한다.

역방향 KL $D_{\text{KL}}(Q \| P)$ : $Q$ 가 양의 확률을 부여하는 영역에서 $P$ 도 양의 확률을 가지도록 강제한다. $Q$ 는 $P$ 의 한 봉우리(mode)에 집중하는 경향을 보이며, 이를 최빈값 추구(mode-seeking) 또는 영점 회피(zero-avoiding on $Q$ ) 행동이라 한다.

이 차이는 기계 학습에서 생성 모형(순방향 KL 경향)과 변분 추론(역방향 KL 경향)의 서로 다른 행동 양상의 이론적 근거가 된다.

8. 결론

쿨백-라이블러 발산은 두 확률 분포 사이의 정보론적 차이를 측정하는 근본적 양으로, 부호화 비효율성, 통계적 판별력, 독립으로부터의 이탈도 등 다양한 정보론적 해석을 가진다. 비음성이지만 비대칭적이며 거리 함수가 아니라는 수학적 특성은, KL 발산이 기하학적 거리가 아닌 정보론적 발산이라는 본질을 반영한다. 최대 우도 추정, 변분 추론, 모형 선택 등 통계학과 기계 학습의 핵심 방법론이 KL 발산의 최소화로 통합적으로 이해되며, 이는 정보 이론의 보편적 분석 능력을 보여주는 대표적 사례이다.