7.6 정보 엔트로피(Information Entropy)의 수학적 유도

1. 엔트로피의 동기: 평균 불확실성의 정량화

자기 정보량 $I(x) = -\log_2 p(x)$ 는 개별 사건 $x$ 의 발생이 전달하는 정보의 양을 측정한다. 그러나 정보원(information source) 전체의 특성을 파악하기 위해서는, 정보원이 생성할 수 있는 모든 사건에 대한 평균적 정보량을 계산해야 한다. 이 평균적 정보량이 바로 정보 엔트로피(information entropy)이며, 클로드 섀넌(Claude Shannon)이 “A Mathematical Theory of Communication“에서 도입한 이 척도는 확률 분포의 불확실성 또는 무질서도를 단일 수치로 요약하는 근본적 도구이다.

2. 기댓값을 통한 유도

2.1 자기 정보량의 기댓값

이산 확률 변수 $X$ 가 유한한 알파벳 $\mathcal{X} = \{x_1, x_2, \ldots, x_n\}$ 위에서 확률 질량 함수 $p(x_i) = P(X = x_i)$ 를 가질 때, $X$ 의 관측이 전달하는 평균 정보량은 자기 정보량의 기댓값(mathematical expectation)으로 정의된다:

$H(X) = E[I(X)] = E[-\log_2 p(X)] = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i)$

이 양을 $X$ 의 섀넌 엔트로피(Shannon entropy)라 한다. $0 \log_2 0 = 0$ 으로 약속하며, 이는 $\lim_{p \to 0^+} p \log_2 p = 0$ (로피탈 법칙에 의해 확인 가능)에 의해 정당화된다.

엔트로피의 이 정의는 다음과 같이 해석된다: $H(X)$ 는 확률 변수 $X$ 의 결과를 관측하기 전에 존재하는 평균적 불확실성이며, 동등하게, $X$ 의 결과를 관측함으로써 평균적으로 획득하게 되는 정보의 양이다.

2.2 유도 과정의 상세 전개

유도를 단계적으로 전개한다. 확률 변수 $X$ 의 각 실현값 $x_i$ 는 자기 정보량 $I(x_i) = -\log_2 p(x_i)$ 를 가진다. $I(X)$ 는 $X$ 의 함수인 새로운 확률 변수이며, 이 확률 변수의 기댓값을 구한다:

$E[I(X)] = \sum_{i=1}^{n} P(X = x_i) \cdot I(x_i) = \sum_{i=1}^{n} p(x_i) \cdot \left(-\log_2 p(x_i)\right)$

정리하면:

$H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i)$

이 식에서 각 항 $-p(x_i) \log_2 p(x_i)$ 는 사건 $x_i$ 가 전체 엔트로피에 기여하는 양이다. 이 기여는 확률 $p(x_i)$ 와 자기 정보량 $I(x_i)$ 의 곱이므로, 확률이 매우 높은 사건(낮은 자기 정보량)과 확률이 매우 낮은 사건(높은 자기 정보량이지만 드물게 발생)은 모두 엔트로피에 작은 기여를 한다. 엔트로피에 대한 기여가 최대인 사건은 확률과 자기 정보량이 적절히 균형을 이루는 중간 영역에 위치한다.

3. 라그랑주 승수법을 통한 최대 엔트로피 유도

3.1 문제의 설정

엔트로피의 의미를 다른 각도에서 이해하기 위해, 다음의 최적화 문제를 고려한다: $n$ 개의 결과를 가지는 확률 분포 중에서 엔트로피를 최대화하는 분포는 무엇인가?

제약 조건은 확률의 정규화 조건이다:

$\sum_{i=1}^{n} p_i = 1, \quad p_i \geq 0 \quad \text{for all } i$

라그랑주 함수(Lagrangian)를 구성한다:

$\mathcal{L}(p_1, \ldots, p_n, \lambda) = -\sum_{i=1}^{n} p_i \log_2 p_i - \lambda\left(\sum_{i=1}^{n} p_i - 1\right)$

3.2 최적 조건의 도출

각 $p_i$ 에 대한 편미분을 0으로 놓는다:

$\frac{\partial \mathcal{L}}{\partial p_i} = -\log_2 p_i - \frac{1}{\ln 2} - \lambda = 0$

이로부터:

$\log_2 p_i = -\frac{1}{\ln 2} - \lambda \quad \text{for all } i$

모든 $i$ 에 대해 $\log_2 p_i$ 가 동일하므로, $p_1 = p_2 = \cdots = p_n$ 이다. 정규화 조건 $\sum p_i = 1$ 로부터 $p_i = 1/n$ for all $i$ 이다.

따라서 균등 분포(uniform distribution)가 엔트로피를 최대화하며, 그 최대 엔트로피는:

$H_{\max} = -\sum_{i=1}^{n} \frac{1}{n} \log_2 \frac{1}{n} = \log_2 n$

이 결과는 “최대 불확실성은 모든 결과가 동등하게 가능할 때 달성된다“는 직관과 정합적이다.

4. 젠센 부등식을 통한 엔트로피 상한 증명

4.1 젠센 부등식의 진술

젠센 부등식(Jensen’s inequality)은 볼록 함수(convex function) 또는 오목 함수(concave function)에 대한 기댓값의 부등식이다. $f$ 가 오목 함수이면:

$E[f(X)] \leq f(E[X])$

등호는 $X$ 가 상수일 때에만 성립한다.

4.2 엔트로피 상한의 증명

$\log$ 함수는 순오목(strictly concave)하다. 확률 변수 $Y = 1/p(X)$ 를 도입하면:

$H(X) = E\left[\log_2 \frac{1}{p(X)}\right] = E[\log_2 Y]$

젠센 부등식을 적용하면:

$H(X) = E[\log_2 Y] \leq \log_2 E[Y] = \log_2 \sum_{i=1}^{n} p(x_i) \cdot \frac{1}{p(x_i)} = \log_2 n$

등호 조건은 $Y = 1/p(X)$ 가 상수일 때, 즉 모든 $x_i$ 에 대해 $p(x_i)$ 가 동일할 때 성립한다. 이는 앞서 라그랑주 승수법으로 도출한 결과와 일치한다.

5. 엔트로피의 오목성

5.1 분포의 혼합에 대한 오목성

엔트로피 $H$ 는 확률 분포의 공간에서 오목 함수(concave function)이다. 두 확률 분포 $\mathbf{p} = (p_1, \ldots, p_n)$ 과 $\mathbf{q} = (q_1, \ldots, q_n)$ , 그리고 $0 \leq \lambda \leq 1$ 에 대해:

$H(\lambda \mathbf{p} + (1-\lambda) \mathbf{q}) \geq \lambda H(\mathbf{p}) + (1-\lambda) H(\mathbf{q})$

이 성질은 로그 함수의 오목성으로부터 도출된다. 오목성의 물리적 의미는, 두 정보원을 확률적으로 혼합하면 결과적 불확실성이 개별 불확실성의 가중 평균 이상이 된다는 것이다. 혼합 자체가 추가적 불확실성(어떤 정보원이 선택되었는가)을 도입하기 때문이다.

5.2 증명

혼합 분포 $r_i = \lambda p_i + (1-\lambda) q_i$ 에 대해:

$H(\mathbf{r}) = -\sum_i r_i \log_2 r_i$

$-x \log x$ 가 순오목 함수이므로:

$-r_i \log_2 r_i = -(\lambda p_i + (1-\lambda) q_i) \log_2 (\lambda p_i + (1-\lambda) q_i)$

$\geq -\lambda p_i \log_2 p_i - (1-\lambda) q_i \log_2 q_i$

$i$ 에 대해 합산하면:

$H(\mathbf{r}) \geq \lambda H(\mathbf{p}) + (1-\lambda) H(\mathbf{q})$

6. 엔트로피의 비음성과 하한

6.1 비음성 증명

모든 $i$ 에 대해 $0 \leq p_i \leq 1$ 이므로 $\log_2 p_i \leq 0$ 이다. 따라서 $-p_i \log_2 p_i \geq 0$ 이고:

$H(X) = -\sum_i p_i \log_2 p_i \geq 0$

6.2 하한의 달성 조건

$H(X) = 0$ 이 되려면 모든 항 $-p_i \log_2 p_i = 0$ 이어야 한다. 함수 $f(p) = -p \log_2 p$ 는 $p = 0$ 또는 $p = 1$ 에서만 0이 된다. 정규화 조건 $\sum p_i = 1$ 과 결합하면, 정확히 하나의 $p_i = 1$ 이고 나머지 모두 $p_i = 0$ 인 경우에만 $H(X) = 0$ 이다. 이는 결과가 확정적(deterministic)이어서 불확실성이 전혀 없는 상태에 해당한다.

7. 엔트로피 계산의 구체적 사례

7.1 이진 확률 변수

확률 변수 $X$ 가 두 값 $\{0, 1\}$ 을 가지며 $P(X=1) = p$ , $P(X=0) = 1-p$ 일 때, 이진 엔트로피(binary entropy)는:

$H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p)$

$H_b(0) = H_b(1) = 0$ 이고, $H_b(1/2) = 1$ 비트이다. 이진 엔트로피 함수는 $p = 1/2$ 에서 최댓값 1을 가지며, $p = 0$ 및 $p = 1$ 에서 최솟값 0을 가진다.

7.2 균등 분포

$n$ 개의 결과에 대한 균등 분포 $p_i = 1/n$ :

$H = -\sum_{i=1}^{n} \frac{1}{n} \log_2 \frac{1}{n} = \log_2 n$

$n = 2$ 일 때 $H = 1$ bit, $n = 8$ 일 때 $H = 3$ bits, $n = 256$ 일 때 $H = 8$ bits이다.

7.3 비균등 분포 사례

확률 분포 $\mathbf{p} = (1/2, 1/4, 1/8, 1/8)$ 의 엔트로피:

$H = -\frac{1}{2}\log_2\frac{1}{2} - \frac{1}{4}\log_2\frac{1}{4} - \frac{1}{8}\log_2\frac{1}{8} - \frac{1}{8}\log_2\frac{1}{8}$

$= \frac{1}{2}(1) + \frac{1}{4}(2) + \frac{1}{8}(3) + \frac{1}{8}(3) = 0.5 + 0.5 + 0.375 + 0.375 = 1.75 \text{ bits}$

동일한 4개 결과에 대한 균등 분포의 엔트로피는 $\log_2 4 = 2$ bits이다. 비균등 분포의 엔트로피(1.75 bits)가 균등 분포의 엔트로피(2 bits)보다 낮으며, 이는 비균등성이 불확실성을 감소시킴을 확인한다.

8. 엔트로피의 정보론적 의미

엔트로피 $H(X)$ 는 다음의 동등한 해석을 가진다:

평균 불확실성: $X$ 의 결과를 관측하기 전에 존재하는 평균적 불확실성의 양.
평균 정보 획득량: $X$ 의 결과를 관측함으로써 평균적으로 획득하는 정보의 양.
최적 압축의 하한: $X$ 의 실현값을 이진 부호로 표현하는 데 필요한 평균 비트 수의 이론적 최솟값(무잡음 부호화 정리).
예측 난이도: $X$ 의 결과를 사전에 예측하는 것이 평균적으로 얼마나 어려운지를 나타내는 척도.

이 네 가지 해석은 수학적으로 동등하지만, 각기 다른 응용 맥락에서 엔트로피의 역할을 조명한다. 통신 공학에서는 해석 3이, 기계 학습에서는 해석 1과 4가, 통계적 추론에서는 해석 2가 주로 강조된다.