7.15 쿨백-라이블러 발산의 비부정성 증명과 정보 기하학적 의미

1. 비부정성 정리의 진술

1.1 깁스 부등식

정리 (깁스 부등식, Gibbs’ inequality): 동일한 알파벳 $\mathcal{X}$ 위에 정의된 두 확률 분포 $P$ 와 $Q$ 에 대해:

$D_{\text{KL}}(P \| Q) = \sum_{x \in \mathcal{X}} P(x) \log_2 \frac{P(x)}{Q(x)} \geq 0$

등호는 $P(x) = Q(x)$ for all $x \in \mathcal{X}$ 일 때에만 성립한다.

이 부등식은 정보 이론의 가장 근본적인 부등식 중 하나이며, 엔트로피의 상한, 조건부 엔트로피의 감소 성질, 상호 정보량의 비음성, 데이터 처리 부등식 등 다수의 핵심 결과가 이로부터 도출된다.

2. 젠센 부등식을 이용한 증명

2.1 젠센 부등식의 진술

정리 (젠센 부등식): $f$ 가 볼록 함수(convex function)이고 $X$ 가 확률 변수이면:

$f(E[X]) \leq E[f(X)]$

$f$ 가 순볼록(strictly convex)이면, 등호는 $X$ 가 상수일 때에만 성립한다. $f$ 가 오목(concave)이면 부등식의 방향이 반전된다.

2.2 비부정성 증명

$-\log_2$ 가 순볼록 함수임을 이용한다. KL 발산을 변형한다:

$D_{\text{KL}}(P \| Q) = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)} = -\sum_x P(x) \log_2 \frac{Q(x)}{P(x)}$

$P(x) > 0$ 인 $x$ 의 집합을 $\mathcal{S} = \{x : P(x) > 0\}$ 이라 하자. $P(x) > 0$ 인 $x$ 에 대해 확률 변수 $Y = Q(X)/P(X)$ 를 정의하면, $Y$ 의 $P$ 하에서의 기댓값은:

$E_P[Y] = \sum_{x \in \mathcal{S}} P(x) \frac{Q(x)}{P(x)} = \sum_{x \in \mathcal{S}} Q(x) \leq \sum_{x \in \mathcal{X}} Q(x) = 1$

$\log_2$ 가 순오목(strictly concave)이므로 젠센 부등식에 의해:

$-D_{\text{KL}}(P \| Q) = \sum_{x \in \mathcal{S}} P(x) \log_2 \frac{Q(x)}{P(x)} = E_P[\log_2 Y] \leq \log_2 E_P[Y] \leq \log_2 1 = 0$

따라서 $D_{\text{KL}}(P \| Q) \geq 0$ 이다.

2.3 등호 조건의 분석

등호가 성립하려면 두 부등식 모두에서 등호가 필요하다.

첫째, 젠센 부등식에서 등호가 성립하려면 $Q(x)/P(x)$ 가 $\mathcal{S}$ 위에서 상수여야 한다. 즉, 모든 $x \in \mathcal{S}$ 에 대해 $Q(x)/P(x) = c$ (상수)이다.

둘째, $\sum_{x \in \mathcal{S}} Q(x) = 1$ 이면 $c \cdot \sum_{x \in \mathcal{S}} P(x) = c \cdot 1 = c = 1$ 이므로 $Q(x) = P(x)$ for all $x \in \mathcal{S}$ 이다. $\mathcal{S}$ 의 여집합에서는 $P(x) = 0$ 이고 $\sum_{x \notin \mathcal{S}} Q(x) = 0$ 이므로 $Q(x) = 0$ 이다.

따라서 등호는 $P = Q$ 일 때에만 성립한다.

3. 로그 합 부등식을 이용한 증명

3.1 로그 합 부등식

정리 (로그 합 부등식, Log-sum inequality): 비음 실수 $a_1, \ldots, a_n$ 과 $b_1, \ldots, b_n$ ( $b_i > 0$ )에 대해:

$\sum_{i=1}^{n} a_i \log \frac{a_i}{b_i} \geq \left(\sum_{i=1}^{n} a_i\right) \log \frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} b_i}$

등호는 $a_i/b_i$ 가 상수일 때에만 성립한다. 이 부등식은 $t \log t$ 의 볼록성으로부터 젠센 부등식을 적용하여 증명된다.

3.2 비부정성의 대안적 증명

$a_i = P(x_i)$ , $b_i = Q(x_i)$ 로 설정하면:

$D_{\text{KL}}(P \| Q) = \sum_i P(x_i) \log_2 \frac{P(x_i)}{Q(x_i)} \geq 1 \cdot \log_2 \frac{1}{1} = 0$

여기서 $\sum_i P(x_i) = 1$ , $\sum_i Q(x_i) = 1$ 을 사용하였다.

4. 비부정성으로부터 도출되는 핵심 결과

4.1 엔트로피의 상한

KL 발산의 비부정성으로부터 $H(X) \leq \log_2 \lvert\mathcal{X}\rvert$ 이 도출된다. 균등 분포 $U$ 에 대해 $U(x) = 1/\lvert\mathcal{X}\rvert$ 로 놓으면:

$D_{\text{KL}}(P \| U) = \sum_x P(x) \log_2 \frac{P(x)}{1/\lvert\mathcal{X}\rvert} = \log_2 \lvert\mathcal{X}\rvert - H(P) \geq 0$

따라서 $H(P) \leq \log_2 \lvert\mathcal{X}\rvert$ 이다.

4.2 상호 정보량의 비음성

$I(X; Y) = D_{\text{KL}}(p(x,y) \| p(x)p(y)) \geq 0$ 이 KL 발산의 비부정성으로부터 직접 도출된다.

4.3 조건화에 의한 엔트로피 감소

$H(X \vert Y) \leq H(X)$ 는 $I(X; Y) = H(X) - H(X \vert Y) \geq 0$ 으로부터 도출되며, 이는 다시 KL 발산의 비부정성에 귀착된다.

4.4 데이터 처리 부등식

마르코프 연쇄 $X \to Y \to Z$ 에서 $I(X; Z) \leq I(X; Y)$ 는 KL 발산의 비부정성과 조건부 상호 정보량의 비음성으로부터 증명된다.

5. 정보 기하학적 의미

5.1 정보 기하학의 기본 틀

정보 기하학(information geometry)은 시운이치 아마리(Shun’ichi Amari)와 나구모(Nagaoka) 등에 의해 발전된 분야로, 확률 분포의 공간을 미분 기하학적 다양체(differentiable manifold)로 간주하고, 이 다양체 위의 기하학적 구조를 분석하는 이론이다.

$n$ 개의 결과에 대한 확률 분포의 집합 $\mathcal{P} = \{P = (p_1, \ldots, p_n) : p_i > 0, \sum p_i = 1\}$ 은 $(n-1)$ 차원 다양체(확률 단체, probability simplex)를 형성한다. 이 다양체 위에 자연스러운 리만 계량(Riemannian metric)을 부여할 수 있으며, 피셔 정보 행렬(Fisher information matrix)이 그 역할을 한다.

5.2 피셔 정보 행렬과 리만 계량

매개변수 $\theta = (\theta_1, \ldots, \theta_k)$ 로 색인된 확률 분포 족 $\{p_\theta\}$ 에서, 피셔 정보 행렬(Fisher information matrix)은:

$[g(\theta)]_{ij} = E_\theta\left[\frac{\partial \log p_\theta(X)}{\partial \theta_i} \frac{\partial \log p_\theta(X)}{\partial \theta_j}\right]$

이 행렬은 양의 반정치(positive semi-definite)이며, 통계 모형의 다양체 위에 리만 계량을 정의한다. 이 계량은 매개변수의 재매개변수화(reparametrization)에 대해 불변이며, 첸초프(Chentsov)의 정리에 의해 통계 모형에 대한 유일한 불변 리만 계량이다.

5.3 KL 발산과 피셔 계량의 관계

KL 발산은 피셔 정보 계량에 의해 유도되는 거리의 무한소적 형태와 밀접히 관련된다. 분포 $p_\theta$ 에서 무한소적으로 가까운 분포 $p_{\theta + d\theta}$ 로의 KL 발산을 테일러 전개하면:

$D_{\text{KL}}(p_\theta \| p_{\theta + d\theta}) = \frac{1}{2} \sum_{i,j} g_{ij}(\theta) \, d\theta_i \, d\theta_j + O(\lVert d\theta \rVert^3)$

즉, KL 발산의 2차 근사가 피셔 정보 행렬에 의한 이차 형식(quadratic form)이다. 이는 KL 발산이 무한소적 수준에서 리만 거리의 제곱과 비례함을 의미한다.

이 관계를 통해 KL 발산의 비부정성은 피셔 정보 행렬의 양의 반정치성과 연결된다. 피셔 정보 행렬이 양의 반정치이므로, 그에 의한 이차 형식은 비음이고, 따라서 KL 발산의 무한소적 형태도 비음이다.

5.4 이중 아핀 연결 구조

아마리의 정보 기하학에서, 확률 분포의 다양체는 리만 계량에 더하여 이중 아핀 연결(dual affine connections)이라는 추가 구조를 가진다. $e$ -연결(exponential connection)과 $m$ -연결(mixture connection)은 각각 지수 족(exponential family)과 혼합 족(mixture family)에 대해 평탄(flat)한 연결이다.

KL 발산은 이 이중 연결 구조에서 표준적 발산(canonical divergence)으로 나타난다. $e$ -측지선(exponential geodesic)에 대한 사영(projection)은 $D_{\text{KL}}(P \| Q)$ 의 최소화에 대응하고, $m$ -측지선(mixture geodesic)에 대한 사영은 $D_{\text{KL}}(Q \| P)$ 의 최소화에 대응한다.

5.5 피타고라스 정리의 정보 기하학적 형태

정보 기하학에서의 피타고라스 정리(Pythagorean theorem)는 다음과 같이 진술된다. $e$ -평탄한 부분 다양체 $\mathcal{M}$ 에 대한 분포 $P$ 의 $m$ -사영을 $P^*$ 이라 하면, 임의의 $Q \in \mathcal{M}$ 에 대해:

$D_{\text{KL}}(Q \| P) = D_{\text{KL}}(Q \| P^*) + D_{\text{KL}}(P^* \| P)$

이 관계는 유클리드 공간에서의 피타고라스 정리 $\lVert QP \rVert^2 = \lVert QP^* \rVert^2 + \lVert P^*P \rVert^2$ 의 정보 기하학적 유사체이다. 이로부터 $D_{\text{KL}}(Q \| P) \geq D_{\text{KL}}(P^* \| P)$ , 즉 $P^*$ 가 $\mathcal{M}$ 내에서 $P$ 에 가장 가까운 분포임이 도출된다.

이 정리는 최대 엔트로피 분포, 최대 우도 추정, 변분 추론 등에서 최적 분포가 특정 사영으로 주어진다는 결과의 기하학적 기초를 제공한다.

6. 브레그만 발산과의 관계

6.1 브레그만 발산의 정의

볼록 함수 $\phi$ 에 의해 유도되는 브레그만 발산(Bregman divergence)은:

$D_\phi(P \| Q) = \phi(P) - \phi(Q) - \langle \nabla \phi(Q), P - Q \rangle$

볼록 함수의 정의에 의해 $D_\phi(P \| Q) \geq 0$ 이며, 등호는 $P = Q$ 일 때에만 성립한다.

6.2 KL 발산이 브레그만 발산임

$\phi(P) = \sum_i p_i \log p_i$ (음의 엔트로피)를 선택하면, 대응하는 브레그만 발산이 정확히 KL 발산이 된다:

$D_\phi(P \| Q) = \sum_i p_i \log p_i - \sum_i q_i \log q_i - \sum_i (\log q_i + 1)(p_i - q_i) = \sum_i p_i \log \frac{p_i}{q_i}$

이 관계는 KL 발산의 비부정성을 $\phi$ 의 볼록성으로부터 자동적으로 보장하며, 동시에 KL 발산이 더 넓은 브레그만 발산 클래스의 일원임을 명시한다.

7. 결론

쿨백-라이블러 발산의 비부정성은 정보 이론의 근본적 부등식으로, 젠센 부등식 또는 로그 합 부등식으로부터 직접 증명된다. 이 비부정성으로부터 엔트로피의 상한, 상호 정보량의 비음성, 데이터 처리 부등식 등 정보 이론의 핵심 결과들이 연쇄적으로 도출된다. 정보 기하학의 관점에서, KL 발산은 확률 분포 다양체 위의 피셔 정보 계량에 의해 유도되는 자연스러운 발산 함수이며, 이 기하학적 구조는 통계적 추론과 기계 학습에서 최적 분포의 기하학적 특성화를 제공한다.