7.8 이진 엔트로피 함수의 성질과 그래프 분석

1. 이진 엔트로피 함수의 정의

이진 확률 변수(binary random variable) $X$ 가 두 값 $\{0, 1\}$ 을 가지며, $P(X=1) = p$ , $P(X=0) = 1-p$ ( $0 \leq p \leq 1$ )일 때, $X$ 의 엔트로피는 $p$ 만의 함수로 표현된다. 이 함수를 이진 엔트로피 함수(binary entropy function)라 하며, $H_b(p)$ 로 표기한다:

$H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p)$

이진 엔트로피 함수는 정보 이론에서 가장 빈번히 등장하는 기본 함수이며, 이진 대칭 채널(BSC)의 채널 용량, 이항 분포의 엔트로피, 이진 분류 문제의 손실 함수 등 다양한 맥락에서 핵심적 역할을 수행한다. $H_b(p)$ 의 해석적 성질을 상세히 분석하는 것은 정보 이론의 기본적 도구를 구비하는 데 필수적이다.

2. 경계값 분석

2.1 양 끝점에서의 값

$p = 0$ 일 때, $P(X=0) = 1$ 이므로 결과가 확정적이다. $\lim_{p \to 0^+} p \log_2 p = 0$ (로피탈 법칙 또는 $p \log p = p \cdot \ln p / \ln 2$ 에서 $\lim_{p \to 0^+} p \ln p = 0$ 으로부터)이므로:

$H_b(0) = -0 \cdot \log_2 0 - 1 \cdot \log_2 1 = 0$

$p = 1$ 일 때, 동일한 논리에 의해:

$H_b(1) = -1 \cdot \log_2 1 - 0 \cdot \log_2 0 = 0$

양 끝점에서 엔트로피가 0이라는 결과는, 결과가 확정적일 때 불확실성이 존재하지 않음을 반영한다.

2.2 중앙점에서의 값

$p = 1/2$ 일 때, 두 결과가 동등하게 가능하다:

$H_b(1/2) = -\frac{1}{2} \log_2 \frac{1}{2} - \frac{1}{2} \log_2 \frac{1}{2} = \frac{1}{2} + \frac{1}{2} = 1 \text{ bit}$

이는 공정한 동전 던지기가 정확히 1비트의 불확실성을 가짐을 의미하며, 비트(bit)라는 단위의 정의와 정합적이다.

3. 미분 분석

3.1 차 도함수

$H_b(p)$ 의 $p$ 에 대한 1차 도함수를 계산한다. $\log_2 x = \ln x / \ln 2$ 를 이용하면:

$\frac{dH_b}{dp} = -\frac{d}{dp}\left[p \log_2 p + (1-p) \log_2 (1-p)\right]$

$= -\left[\log_2 p + \frac{p}{p \ln 2} + \left(-\log_2(1-p) - \frac{(1-p)}{(1-p)\ln 2}\right)\right]$

$= -\left[\log_2 p + \frac{1}{\ln 2} - \log_2(1-p) - \frac{1}{\ln 2}\right]$

$= -\log_2 p + \log_2(1-p) = \log_2 \frac{1-p}{p}$

따라서:

$\frac{dH_b}{dp} = \log_2 \frac{1-p}{p}$

3.2 임계점 분석

1차 도함수를 0으로 놓으면:

$\log_2 \frac{1-p}{p} = 0 \implies \frac{1-p}{p} = 1 \implies p = \frac{1}{2}$

$p < 1/2$ 일 때 $(1-p)/p > 1$ 이므로 $dH_b/dp > 0$ (증가), $p > 1/2$ 일 때 $(1-p)/p < 1$ 이므로 $dH_b/dp < 0$ (감소)이다. 따라서 $p = 1/2$ 은 유일한 극대점이며, $H_b(1/2) = 1$ 이 최댓값이다.

3.3 경계에서의 도함수 거동

$p \to 0^+$ 일 때 $dH_b/dp \to +\infty$ 이고, $p \to 1^-$ 일 때 $dH_b/dp \to -\infty$ 이다. 즉, 이진 엔트로피 함수는 양 끝점 근방에서 급격한 기울기를 가진다. 이는 확률이 0 또는 1에 매우 가까울 때, 확률의 미세한 변화가 엔트로피에 상대적으로 큰 변화를 야기함을 의미한다.

3.4 차 도함수와 오목성

2차 도함수를 계산한다:

$\frac{d^2 H_b}{dp^2} = \frac{d}{dp}\left[\log_2 \frac{1-p}{p}\right] = \frac{1}{\ln 2}\left(\frac{-1}{1-p} - \frac{1}{p}\right) = -\frac{1}{\ln 2} \cdot \frac{1}{p(1-p)}$

$0 < p < 1$ 인 전 구간에서 $p(1-p) > 0$ 이므로:

$\frac{d^2 H_b}{dp^2} = -\frac{1}{p(1-p) \ln 2} < 0$

2차 도함수가 전 구간에서 음이므로, $H_b(p)$ 는 순오목 함수(strictly concave function)이다. 이 오목성은 $p = 1/2$ 에서의 극대가 전역 최대(global maximum)임을 보장한다.

4. 그래프의 형태적 특성

4.1 대칭성

이진 엔트로피 함수는 $p = 1/2$ 에 대해 대칭이다:

$H_b(p) = H_b(1-p)$

이 대칭성은 정의로부터 직접 확인된다. $p$ 를 $1-p$ 로 치환하면 두 항이 교환될 뿐이므로 함수값이 변하지 않는다. 그래프에서 이 대칭성은 $p = 1/2$ 을 축으로 하는 좌우 대칭 형태로 나타난다.

이 대칭성의 물리적 의미는 다음과 같다: 확률 $p$ 로 1이 나오는 동전과 확률 $1-p$ 로 1이 나오는 동전(즉, $p$ 로 0이 나오는 동전)은 동일한 수준의 불확실성을 가진다. 편향의 방향이 아닌 편향의 정도가 불확실성을 결정한다.

4.2 그래프의 전체 형태

$H_b(p)$ 의 그래프는 다음의 특징을 가지는 종 모양(bell-shaped) 곡선이다:

정의역: $[0, 1]$
치역: $[0, 1]$
$H_b(0) = H_b(1) = 0$
$H_b(1/2) = 1$ (최댓값)
$[0, 1/2)$ 에서 순증가, $(1/2, 1]$ 에서 순감소
전 구간에서 순오목
$p = 1/2$ 에 대해 대칭

이 곡선은 일반 엔트로피 함수의 원형(archetype)으로, 불확실성이 분포의 균등도에 따라 변화하는 양상을 가장 단순한 형태로 보여준다.

4.3 대표적 함수값

주요 점에서의 이진 엔트로피 값은 다음과 같다:

$p$	$H_b(p)$ (bits)
0	0
0.01	0.0808
0.1	0.469
0.2	0.722
0.3	0.881
0.4	0.971
0.5	1.000

$p$ 가 0에서 0.5로 이동할 때, 엔트로피는 0에서 시작하여 처음에는 급격히 증가한 후 점점 완만하게 1에 접근한다. 이 비선형적 증가 패턴은 오목성의 직접적 반영이다.

5. 테일러 전개와 근사

5.1 $p = 1/2$ 부근에서의 전개

$p = 1/2 + \epsilon$ ( $\lvert\epsilon\rvert \ll 1/2$ )으로 놓고 테일러 전개를 수행한다. $H_b(1/2) = 1$ 이고 $H_b'(1/2) = 0$ 이므로:

$H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 + \frac{1}{2} H_b''\left(\frac{1}{2}\right) \epsilon^2 = 1 - \frac{4}{\ln 2} \cdot \frac{\epsilon^2}{2} = 1 - \frac{2\epsilon^2}{\ln 2}$

$1/\ln 2 \approx 1.4427$ 이므로:

$H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 - 2.8854 \epsilon^2$

이 근사는 $p = 1/2$ 근방에서 엔트로피가 최대값 1에서 $\epsilon^2$ 에 비례하여 감소함을 보여준다. 즉, $p$ 가 $1/2$ 에서 약간 벗어나는 것은 엔트로피에 비교적 작은 영향을 미친다.

5.2 $p \to 0^+$ 부근에서의 거동

$p$ 가 매우 작을 때:

$H_b(p) \approx -p \log_2 p + p \cdot \frac{1}{\ln 2} = -p \log_2 p + \frac{p}{\ln 2}$

지배적 항은 $-p \log_2 p$ 이며, 이는 $p \to 0^+$ 에서 0으로 수렴하되 $p$ 자체보다는 느리게 감소한다. 구체적으로 $\lim_{p \to 0^+} H_b(p)/p = +\infty$ 이다.

6. 정보 이론에서의 활용

6.1 이진 대칭 채널의 채널 용량

이진 대칭 채널(BSC)의 교차 오류 확률(crossover probability)이 $p$ 일 때, 채널 용량은:

$C_{\text{BSC}} = 1 - H_b(p)$

$p = 0$ (무잡음)이면 $C = 1$ bit/사용, $p = 1/2$ (완전 잡음)이면 $C = 0$ 이다. 이진 엔트로피 함수의 그래프를 1에서 뒤집은 것이 BSC 채널 용량의 그래프이다.

6.2 이진 교차 엔트로피 손실 함수

기계 학습에서 이진 분류(binary classification) 문제의 표준 손실 함수는 이진 교차 엔트로피(binary cross-entropy)이다. 참 레이블이 $y \in \{0, 1\}$ 이고 모형의 예측 확률이 $\hat{p}$ 일 때:

$\mathcal{L}(y, \hat{p}) = -y \log_2 \hat{p} - (1-y) \log_2 (1-\hat{p})$

이 손실 함수의 기대값은 참 분포와 예측 분포 사이의 교차 엔트로피이며, 참 분포의 엔트로피(이진 엔트로피)와 쿨백-라이블러 발산의 합으로 분해된다. 이진 엔트로피는 이 분해에서 최소 달성 가능 손실(Bayes risk)에 해당한다.

6.3 조합론에서의 근사

이진 엔트로피 함수는 이항 계수(binomial coefficient)의 로그에 대한 점근적 근사를 제공한다. 스털링 근사(Stirling’s approximation)를 적용하면, $0 < p < 1$ 이고 $k = \lfloor pn \rfloor$ 일 때:

$\frac{1}{n} \log_2 \binom{n}{k} \to H_b(p) \quad \text{as } n \to \infty$

이 관계는 $n$ 개의 이진 기호 중 약 $pn$ 개가 1인 수열의 수가 대략 $2^{nH_b(p)}$ 개임을 의미한다. 이 결과는 전형 수열(typical sequence)의 수에 관한 점근적 등분할 성질(AEP)의 이진 사례이며, 무잡음 부호화 정리의 증명에서 핵심적으로 활용된다.

7. $n$ 항 일반화와의 관계

이진 엔트로피 함수는 $n = 2$ 인 경우의 일반 엔트로피 $H(p_1, p_2, \ldots, p_n)$ 의 특수한 경우이다. 일반 엔트로피에서 $n = 2$ 로 설정하면 $p_1 = p$ , $p_2 = 1-p$ 이므로 이진 엔트로피를 복원한다.

일반 엔트로피의 성질들—비음성, 상한 $\log_2 n$ , 오목성, 균등 분포에서의 최대화—은 이진 엔트로피에서 각각 비음성, 상한 1, 오목성, $p = 1/2$ 에서의 최대화에 대응한다. 이진 엔트로피는 일반 엔트로피의 모든 본질적 성질을 가장 단순한 형태로 구현하는 원형적 사례이다.