7.8 이진 엔트로피 함수의 성질과 그래프 분석

1. 이진 엔트로피 함수의 정의

이진 확률 변수(binary random variable) X가 두 값 \{0, 1\}을 가지며, P(X=1) = p, P(X=0) = 1-p (0 \leq p \leq 1)일 때, X의 엔트로피는 p만의 함수로 표현된다. 이 함수를 이진 엔트로피 함수(binary entropy function)라 하며, H_b(p)로 표기한다:

H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p)

이진 엔트로피 함수는 정보 이론에서 가장 빈번히 등장하는 기본 함수이며, 이진 대칭 채널(BSC)의 채널 용량, 이항 분포의 엔트로피, 이진 분류 문제의 손실 함수 등 다양한 맥락에서 핵심적 역할을 수행한다. H_b(p)의 해석적 성질을 상세히 분석하는 것은 정보 이론의 기본적 도구를 구비하는 데 필수적이다.

2. 경계값 분석

2.1 양 끝점에서의 값

p = 0일 때, P(X=0) = 1이므로 결과가 확정적이다. \lim_{p \to 0^+} p \log_2 p = 0 (로피탈 법칙 또는 p \log p = p \cdot \ln p / \ln 2에서 \lim_{p \to 0^+} p \ln p = 0으로부터)이므로:

H_b(0) = -0 \cdot \log_2 0 - 1 \cdot \log_2 1 = 0

p = 1일 때, 동일한 논리에 의해:

H_b(1) = -1 \cdot \log_2 1 - 0 \cdot \log_2 0 = 0

양 끝점에서 엔트로피가 0이라는 결과는, 결과가 확정적일 때 불확실성이 존재하지 않음을 반영한다.

2.2 중앙점에서의 값

p = 1/2일 때, 두 결과가 동등하게 가능하다:

H_b(1/2) = -\frac{1}{2} \log_2 \frac{1}{2} - \frac{1}{2} \log_2 \frac{1}{2} = \frac{1}{2} + \frac{1}{2} = 1 \text{ bit}

이는 공정한 동전 던지기가 정확히 1비트의 불확실성을 가짐을 의미하며, 비트(bit)라는 단위의 정의와 정합적이다.

3. 미분 분석

3.1 차 도함수

H_b(p)p에 대한 1차 도함수를 계산한다. \log_2 x = \ln x / \ln 2를 이용하면:

\frac{dH_b}{dp} = -\frac{d}{dp}\left[p \log_2 p + (1-p) \log_2 (1-p)\right]

= -\left[\log_2 p + \frac{p}{p \ln 2} + \left(-\log_2(1-p) - \frac{(1-p)}{(1-p)\ln 2}\right)\right]

= -\left[\log_2 p + \frac{1}{\ln 2} - \log_2(1-p) - \frac{1}{\ln 2}\right]

= -\log_2 p + \log_2(1-p) = \log_2 \frac{1-p}{p}

따라서:

\frac{dH_b}{dp} = \log_2 \frac{1-p}{p}

3.2 임계점 분석

1차 도함수를 0으로 놓으면:

\log_2 \frac{1-p}{p} = 0 \implies \frac{1-p}{p} = 1 \implies p = \frac{1}{2}

p < 1/2일 때 (1-p)/p > 1이므로 dH_b/dp > 0 (증가), p > 1/2일 때 (1-p)/p < 1이므로 dH_b/dp < 0 (감소)이다. 따라서 p = 1/2은 유일한 극대점이며, H_b(1/2) = 1이 최댓값이다.

3.3 경계에서의 도함수 거동

p \to 0^+일 때 dH_b/dp \to +\infty이고, p \to 1^-일 때 dH_b/dp \to -\infty이다. 즉, 이진 엔트로피 함수는 양 끝점 근방에서 급격한 기울기를 가진다. 이는 확률이 0 또는 1에 매우 가까울 때, 확률의 미세한 변화가 엔트로피에 상대적으로 큰 변화를 야기함을 의미한다.

3.4 차 도함수와 오목성

2차 도함수를 계산한다:

\frac{d^2 H_b}{dp^2} = \frac{d}{dp}\left[\log_2 \frac{1-p}{p}\right] = \frac{1}{\ln 2}\left(\frac{-1}{1-p} - \frac{1}{p}\right) = -\frac{1}{\ln 2} \cdot \frac{1}{p(1-p)}

0 < p < 1인 전 구간에서 p(1-p) > 0이므로:

\frac{d^2 H_b}{dp^2} = -\frac{1}{p(1-p) \ln 2} < 0

2차 도함수가 전 구간에서 음이므로, H_b(p)는 순오목 함수(strictly concave function)이다. 이 오목성은 p = 1/2에서의 극대가 전역 최대(global maximum)임을 보장한다.

4. 그래프의 형태적 특성

4.1 대칭성

이진 엔트로피 함수는 p = 1/2에 대해 대칭이다:

H_b(p) = H_b(1-p)

이 대칭성은 정의로부터 직접 확인된다. p1-p로 치환하면 두 항이 교환될 뿐이므로 함수값이 변하지 않는다. 그래프에서 이 대칭성은 p = 1/2을 축으로 하는 좌우 대칭 형태로 나타난다.

이 대칭성의 물리적 의미는 다음과 같다: 확률 p로 1이 나오는 동전과 확률 1-p로 1이 나오는 동전(즉, p로 0이 나오는 동전)은 동일한 수준의 불확실성을 가진다. 편향의 방향이 아닌 편향의 정도가 불확실성을 결정한다.

4.2 그래프의 전체 형태

H_b(p)의 그래프는 다음의 특징을 가지는 종 모양(bell-shaped) 곡선이다:

  1. 정의역: [0, 1]
  2. 치역: [0, 1]
  3. H_b(0) = H_b(1) = 0
  4. H_b(1/2) = 1 (최댓값)
  5. [0, 1/2)에서 순증가, (1/2, 1]에서 순감소
  6. 전 구간에서 순오목
  7. p = 1/2에 대해 대칭

이 곡선은 일반 엔트로피 함수의 원형(archetype)으로, 불확실성이 분포의 균등도에 따라 변화하는 양상을 가장 단순한 형태로 보여준다.

4.3 대표적 함수값

주요 점에서의 이진 엔트로피 값은 다음과 같다:

pH_b(p) (bits)
00
0.010.0808
0.10.469
0.20.722
0.30.881
0.40.971
0.51.000

p가 0에서 0.5로 이동할 때, 엔트로피는 0에서 시작하여 처음에는 급격히 증가한 후 점점 완만하게 1에 접근한다. 이 비선형적 증가 패턴은 오목성의 직접적 반영이다.

5. 테일러 전개와 근사

5.1 p = 1/2 부근에서의 전개

p = 1/2 + \epsilon (\lvert\epsilon\rvert \ll 1/2)으로 놓고 테일러 전개를 수행한다. H_b(1/2) = 1이고 H_b'(1/2) = 0이므로:

H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 + \frac{1}{2} H_b''\left(\frac{1}{2}\right) \epsilon^2 = 1 - \frac{4}{\ln 2} \cdot \frac{\epsilon^2}{2} = 1 - \frac{2\epsilon^2}{\ln 2}

1/\ln 2 \approx 1.4427이므로:

H_b\left(\frac{1}{2} + \epsilon\right) \approx 1 - 2.8854 \epsilon^2

이 근사는 p = 1/2 근방에서 엔트로피가 최대값 1에서 \epsilon^2에 비례하여 감소함을 보여준다. 즉, p1/2에서 약간 벗어나는 것은 엔트로피에 비교적 작은 영향을 미친다.

5.2 p \to 0^+ 부근에서의 거동

p가 매우 작을 때:

H_b(p) \approx -p \log_2 p + p \cdot \frac{1}{\ln 2} = -p \log_2 p + \frac{p}{\ln 2}

지배적 항은 -p \log_2 p이며, 이는 p \to 0^+에서 0으로 수렴하되 p 자체보다는 느리게 감소한다. 구체적으로 \lim_{p \to 0^+} H_b(p)/p = +\infty이다.

6. 정보 이론에서의 활용

6.1 이진 대칭 채널의 채널 용량

이진 대칭 채널(BSC)의 교차 오류 확률(crossover probability)이 p일 때, 채널 용량은:

C_{\text{BSC}} = 1 - H_b(p)

p = 0 (무잡음)이면 C = 1 bit/사용, p = 1/2 (완전 잡음)이면 C = 0이다. 이진 엔트로피 함수의 그래프를 1에서 뒤집은 것이 BSC 채널 용량의 그래프이다.

6.2 이진 교차 엔트로피 손실 함수

기계 학습에서 이진 분류(binary classification) 문제의 표준 손실 함수는 이진 교차 엔트로피(binary cross-entropy)이다. 참 레이블이 y \in \{0, 1\}이고 모형의 예측 확률이 \hat{p}일 때:

\mathcal{L}(y, \hat{p}) = -y \log_2 \hat{p} - (1-y) \log_2 (1-\hat{p})

이 손실 함수의 기대값은 참 분포와 예측 분포 사이의 교차 엔트로피이며, 참 분포의 엔트로피(이진 엔트로피)와 쿨백-라이블러 발산의 합으로 분해된다. 이진 엔트로피는 이 분해에서 최소 달성 가능 손실(Bayes risk)에 해당한다.

6.3 조합론에서의 근사

이진 엔트로피 함수는 이항 계수(binomial coefficient)의 로그에 대한 점근적 근사를 제공한다. 스털링 근사(Stirling’s approximation)를 적용하면, 0 < p < 1이고 k = \lfloor pn \rfloor일 때:

\frac{1}{n} \log_2 \binom{n}{k} \to H_b(p) \quad \text{as } n \to \infty

이 관계는 n개의 이진 기호 중 약 pn개가 1인 수열의 수가 대략 2^{nH_b(p)}개임을 의미한다. 이 결과는 전형 수열(typical sequence)의 수에 관한 점근적 등분할 성질(AEP)의 이진 사례이며, 무잡음 부호화 정리의 증명에서 핵심적으로 활용된다.

7. n항 일반화와의 관계

이진 엔트로피 함수는 n = 2인 경우의 일반 엔트로피 H(p_1, p_2, \ldots, p_n)의 특수한 경우이다. 일반 엔트로피에서 n = 2로 설정하면 p_1 = p, p_2 = 1-p이므로 이진 엔트로피를 복원한다.

일반 엔트로피의 성질들—비음성, 상한 \log_2 n, 오목성, 균등 분포에서의 최대화—은 이진 엔트로피에서 각각 비음성, 상한 1, 오목성, p = 1/2에서의 최대화에 대응한다. 이진 엔트로피는 일반 엔트로피의 모든 본질적 성질을 가장 단순한 형태로 구현하는 원형적 사례이다.