7.8 이진 엔트로피 함수의 성질과 그래프 분석
1. 이진 엔트로피 함수의 정의
이진 확률 변수(binary random variable) X가 두 값 \{0, 1\}을 가지며, P(X=1) = p, P(X=0) = 1-p (0 \leq p \leq 1)일 때, X의 엔트로피는 p만의 함수로 표현된다. 이 함수를 이진 엔트로피 함수(binary entropy function)라 하며, H_b(p)로 표기한다:
H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p)
이진 엔트로피 함수는 정보 이론에서 가장 빈번히 등장하는 기본 함수이며, 이진 대칭 채널(BSC)의 채널 용량, 이항 분포의 엔트로피, 이진 분류 문제의 손실 함수 등 다양한 맥락에서 핵심적 역할을 수행한다. H_b(p)의 해석적 성질을 상세히 분석하는 것은 정보 이론의 기본적 도구를 구비하는 데 필수적이다.
2. 경계값 분석
2.1 양 끝점에서의 값
p = 0일 때, P(X=0) = 1이므로 결과가 확정적이다. \lim_{p \to 0^+} p \log_2 p = 0 (로피탈 법칙 또는 p \log p = p \cdot \ln p / \ln 2에서 \lim_{p \to 0^+} p \ln p = 0으로부터)이므로:
H_b(0) = -0 \cdot \log_2 0 - 1 \cdot \log_2 1 = 0
p = 1일 때, 동일한 논리에 의해:
H_b(1) = -1 \cdot \log_2 1 - 0 \cdot \log_2 0 = 0
양 끝점에서 엔트로피가 0이라는 결과는, 결과가 확정적일 때 불확실성이 존재하지 않음을 반영한다.
2.2 중앙점에서의 값
p = 1/2일 때, 두 결과가 동등하게 가능하다:
H_b(1/2) = -\frac{1}{2} \log_2 \frac{1}{2} - \frac{1}{2} \log_2 \frac{1}{2} = \frac{1}{2} + \frac{1}{2} = 1 \text{ bit}
이는 공정한 동전 던지기가 정확히 1비트의 불확실성을 가짐을 의미하며, 비트(bit)라는 단위의 정의와 정합적이다.
3. 미분 분석
3.1 차 도함수
H_b(p)의 p에 대한 1차 도함수를 계산한다. \log_2 x = \ln x / \ln 2를 이용하면:
\frac{dH_b}{dp} = -\frac{d}{dp}\left[p \log_2 p + (1-p) \log_2 (1-p)\right]
= -\left[\log_2 p + \frac{p}{p \ln 2} + \left(-\log_2(1-p) - \frac{(1-p)}{(1-p)\ln 2}\right)\right]
= -\left[\log_2 p + \frac{1}{\ln 2} - \log_2(1-p) - \frac{1}{\ln 2}\right]
= -\log_2 p + \log_2(1-p) = \log_2 \frac{1-p}{p}
따라서:
\frac{dH_b}{dp} = \log_2 \frac{1-p}{p}
3.2 임계점 분석
1차 도함수를 0으로 놓으면:
\log_2 \frac{1-p}{p} = 0 \implies \frac{1-p}{p} = 1 \implies p = \frac{1}{2}
p < 1/2일 때 (1-p)/p > 1이므로 dH_b/dp > 0 (증가), p > 1/2일 때 (1-p)/p < 1이므로 dH_b/dp < 0 (감소)이다. 따라서 p = 1/2은 유일한 극대점이며, H_b(1/2) = 1이 최댓값이다.
3.3 경계에서의 도함수 거동
p \to 0^+일 때 dH_b/dp \to +\infty이고, p \to 1^-일 때 dH_b/dp \to -\infty이다. 즉, 이진 엔트로피 함수는 양 끝점 근방에서 급격한 기울기를 가진다. 이는 확률이 0 또는 1에 매우 가까울 때, 확률의 미세한 변화가 엔트로피에 상대적으로 큰 변화를 야기함을 의미한다.
3.4 차 도함수와 오목성
2차 도함수를 계산한다:
\frac{d^2 H_b}{dp^2} = \frac{d}{dp}\left[\log_2 \frac{1-p}{p}\right] = \frac{1}{\ln 2}\left(\frac{-1}{1-p} - \frac{1}{p}\right) = -\frac{1}{\ln 2} \cdot \frac{1}{p(1-p)}
0 < p < 1인 전 구간에서 p(1-p) > 0이므로:
\frac{d^2 H_b}{dp^2} = -\frac{1}{p(1-p) \ln 2} < 0
2차 도함수가 전 구간에서 음이므로, H_b(p)는 순오목 함수(strictly concave function)이다. 이 오목성은 p = 1/2에서의 극대가 전역 최대(global maximum)임을 보장한다.
4. 그래프의 형태적 특성
4.1 대칭성
이진 엔트로피 함수는 p = 1/2에 대해 대칭이다:
H_b(p) = H_b(1-p)
이 대칭성은 정의로부터 직접 확인된다. p를 1-p로 치환하면 두 항이 교환될 뿐이므로 함수값이 변하지 않는다. 그래프에서 이 대칭성은 p = 1/2을 축으로 하는 좌우 대칭 형태로 나타난다.
이 대칭성의 물리적 의미는 다음과 같다: 확률 p로 1이 나오는 동전과 확률 1-p로 1이 나오는 동전(즉, p로 0이 나오는 동전)은 동일한 수준의 불확실성을 가진다. 편향의 방향이 아닌 편향의 정도가 불확실성을 결정한다.
4.2 그래프의 전체 형태
H_b(p)의 그래프는 다음의 특징을 가지는 종 모양(bell-shaped) 곡선이다:
- 정의역: [0, 1]
- 치역: [0, 1]
- H_b(0) = H_b(1) = 0
- H_b(1/2) = 1 (최댓값)
- [0, 1/2)에서 순증가, (1/2, 1]에서 순감소
- 전 구간에서 순오목
- p = 1/2에 대해 대칭
이 곡선은 일반 엔트로피 함수의 원형(archetype)으로, 불확실성이 분포의 균등도에 따라 변화하는 양상을 가장 단순한 형태로 보여준다.
4.3 대표적 함수값
주요 점에서의 이진 엔트로피 값은 다음과 같다:
| p | H_b(p) (bits) |
|---|---|
| 0 | 0 |
| 0.01 | 0.0808 |
| 0.1 | 0.469 |
| 0.2 | 0.722 |
| 0.3 | 0.881 |
| 0.4 | 0.971 |
| 0.5 | 1.000 |
p가 0에서 0.5로 이동할 때, 엔트로피는 0에서 시작하여 처음에는 급격히 증가한 후 점점 완만하게 1에 접근한다. 이 비선형적 증가 패턴은 오목성의 직접적 반영이다.
5. 테일러 전개와 근사
5.1 p = 1/2 부근에서의 전개
p = 1/2 + \epsilon (\lvert\epsilon\rvert \ll 1/2)으로 놓고 테일러 전개를 수행한다. H_b(1/2) = 1이고 H_b'(1/2) = 0이므로:
H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 + \frac{1}{2} H_b''\left(\frac{1}{2}\right) \epsilon^2 = 1 - \frac{4}{\ln 2} \cdot \frac{\epsilon^2}{2} = 1 - \frac{2\epsilon^2}{\ln 2}
1/\ln 2 \approx 1.4427이므로:
H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 - 2.8854 \epsilon^2
이 근사는 p = 1/2 근방에서 엔트로피가 최대값 1에서 \epsilon^2에 비례하여 감소함을 보여준다. 즉, p가 1/2에서 약간 벗어나는 것은 엔트로피에 비교적 작은 영향을 미친다.
5.2 p \to 0^+ 부근에서의 거동
p가 매우 작을 때:
H_b(p) \approx -p \log_2 p + p \cdot \frac{1}{\ln 2} = -p \log_2 p + \frac{p}{\ln 2}
지배적 항은 -p \log_2 p이며, 이는 p \to 0^+에서 0으로 수렴하되 p 자체보다는 느리게 감소한다. 구체적으로 \lim_{p \to 0^+} H_b(p)/p = +\infty이다.
6. 정보 이론에서의 활용
6.1 이진 대칭 채널의 채널 용량
이진 대칭 채널(BSC)의 교차 오류 확률(crossover probability)이 p일 때, 채널 용량은:
C_{\text{BSC}} = 1 - H_b(p)
p = 0 (무잡음)이면 C = 1 bit/사용, p = 1/2 (완전 잡음)이면 C = 0이다. 이진 엔트로피 함수의 그래프를 1에서 뒤집은 것이 BSC 채널 용량의 그래프이다.
6.2 이진 교차 엔트로피 손실 함수
기계 학습에서 이진 분류(binary classification) 문제의 표준 손실 함수는 이진 교차 엔트로피(binary cross-entropy)이다. 참 레이블이 y \in \{0, 1\}이고 모형의 예측 확률이 \hat{p}일 때:
\mathcal{L}(y, \hat{p}) = -y \log_2 \hat{p} - (1-y) \log_2 (1-\hat{p})
이 손실 함수의 기대값은 참 분포와 예측 분포 사이의 교차 엔트로피이며, 참 분포의 엔트로피(이진 엔트로피)와 쿨백-라이블러 발산의 합으로 분해된다. 이진 엔트로피는 이 분해에서 최소 달성 가능 손실(Bayes risk)에 해당한다.
6.3 조합론에서의 근사
이진 엔트로피 함수는 이항 계수(binomial coefficient)의 로그에 대한 점근적 근사를 제공한다. 스털링 근사(Stirling’s approximation)를 적용하면, 0 < p < 1이고 k = \lfloor pn \rfloor일 때:
\frac{1}{n} \log_2 \binom{n}{k} \to H_b(p) \quad \text{as } n \to \infty
이 관계는 n개의 이진 기호 중 약 pn개가 1인 수열의 수가 대략 2^{nH_b(p)}개임을 의미한다. 이 결과는 전형 수열(typical sequence)의 수에 관한 점근적 등분할 성질(AEP)의 이진 사례이며, 무잡음 부호화 정리의 증명에서 핵심적으로 활용된다.
7. n항 일반화와의 관계
이진 엔트로피 함수는 n = 2인 경우의 일반 엔트로피 H(p_1, p_2, \ldots, p_n)의 특수한 경우이다. 일반 엔트로피에서 n = 2로 설정하면 p_1 = p, p_2 = 1-p이므로 이진 엔트로피를 복원한다.
일반 엔트로피의 성질들—비음성, 상한 \log_2 n, 오목성, 균등 분포에서의 최대화—은 이진 엔트로피에서 각각 비음성, 상한 1, 오목성, p = 1/2에서의 최대화에 대응한다. 이진 엔트로피는 일반 엔트로피의 모든 본질적 성질을 가장 단순한 형태로 구현하는 원형적 사례이다.