7.9 결합 엔트로피(Joint Entropy)와 조건부 엔트로피(Conditional Entropy)
1. 결합 엔트로피의 정의
1.1 두 확률 변수의 결합 엔트로피
두 이산 확률 변수 X와 Y가 각각 알파벳 \mathcal{X}, \mathcal{Y} 위에서 정의되고, 결합 확률 질량 함수 p(x, y) = P(X = x, Y = y)를 가질 때, (X, Y)의 결합 엔트로피(joint entropy) H(X, Y)는 다음과 같이 정의된다:
H(X, Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log_2 p(x, y)
결합 엔트로피는 두 확률 변수의 결합적 결과 (x, y)를 관측하기 전에 존재하는 총 불확실성을 측정한다. 이는 순서쌍 (X, Y)를 단일한 확률 변수로 간주하였을 때의 엔트로피와 동일하다.
1.2 n개 확률 변수로의 확장
n개의 이산 확률 변수 X_1, X_2, \ldots, X_n에 대한 결합 엔트로피는 다음과 같이 정의된다:
H(X_1, X_2, \ldots, X_n) = -\sum_{x_1} \sum_{x_2} \cdots \sum_{x_n} p(x_1, x_2, \ldots, x_n) \log_2 p(x_1, x_2, \ldots, x_n)
2. 결합 엔트로피의 기본 성질
2.1 비음성과 상한
결합 엔트로피는 비음(non-negative)이다:
H(X, Y) \geq 0
상한은 개별 알파벳 크기의 곱에 대한 로그로 주어진다:
H(X, Y) \leq \log_2 (\lvert\mathcal{X}\rvert \cdot \lvert\mathcal{Y}\rvert) = \log_2 \lvert\mathcal{X}\rvert + \log_2 \lvert\mathcal{Y}\rvert
등호는 (X, Y)가 \mathcal{X} \times \mathcal{Y} 위의 균등 분포를 따를 때 성립한다.
2.2 결합 엔트로피와 개별 엔트로피의 관계
결합 엔트로피는 다음의 부등식을 만족한다:
\max\{H(X), H(Y)\} \leq H(X, Y) \leq H(X) + H(Y)
하한: (X, Y)를 알면 X와 Y 각각을 알 수 있으므로, 결합 불확실성은 개별 불확실성 이상이다.
상한: H(X, Y) \leq H(X) + H(Y)이며, 등호는 X와 Y가 독립일 때에만 성립한다. 이 부등식은 독립 가정 하에서 결합 엔트로피가 개별 엔트로피의 합으로 분해됨을 의미하며, 의존성의 존재는 결합 엔트로피를 개별 엔트로피의 합보다 작게 만든다.
독립인 경우의 증명: X와 Y가 독립이면 p(x, y) = p(x)p(y)이므로:
H(X, Y) = -\sum_x \sum_y p(x)p(y) \log_2 [p(x)p(y)]
= -\sum_x \sum_y p(x)p(y)[\log_2 p(x) + \log_2 p(y)]
= -\sum_x p(x) \log_2 p(x) \sum_y p(y) - \sum_y p(y) \log_2 p(y) \sum_x p(x)
= H(X) + H(Y)
상한의 일반적 증명: 쿨백-라이블러 발산의 비음성 D_{\text{KL}}(p(x,y) \| p(x)p(y)) \geq 0으로부터:
\sum_x \sum_y p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \geq 0
이를 전개하면 H(X, Y) \leq H(X) + H(Y)를 얻는다.
3. 조건부 엔트로피의 정의
3.1 특정 값에 대한 조건부 엔트로피
Y = y가 관측된 조건 하에서 X의 조건부 엔트로피는 조건부 확률 분포 p(x \vert y)에 대한 엔트로피이다:
H(X \vert Y = y) = -\sum_{x \in \mathcal{X}} p(x \vert y) \log_2 p(x \vert y)
이 양은 Y의 특정 실현값 y를 알고 있을 때 X에 대해 남아 있는 불확실성을 측정한다.
3.2 조건부 엔트로피의 평균적 정의
조건부 엔트로피 H(X \vert Y)는 H(X \vert Y = y)를 Y의 분포에 대해 평균한 것으로 정의된다:
H(X \vert Y) = \sum_{y \in \mathcal{Y}} p(y) H(X \vert Y = y) = -\sum_{y \in \mathcal{Y}} \sum_{x \in \mathcal{X}} p(x, y) \log_2 p(x \vert y)
H(X \vert Y)는 Y를 관측한 후에 X에 대해 평균적으로 남아 있는 불확실성, 즉 Y가 해소하지 못한 X의 잔여 불확실성을 측정한다.
주의할 점은, H(X \vert Y)는 확률 변수가 아니라 스칼라 값이라는 것이다. 이는 특정 y에 조건화한 H(X \vert Y = y)와 구별되어야 한다. 후자는 y에 따라 다른 값을 가지는 반면, 전자는 모든 가능한 y에 대한 가중 평균이다.
4. 연쇄 법칙
4.1 두 변수에 대한 연쇄 법칙
결합 엔트로피, 개별 엔트로피, 조건부 엔트로피 사이에는 다음의 연쇄 법칙(chain rule)이 성립한다:
H(X, Y) = H(X) + H(Y \vert X) = H(Y) + H(X \vert Y)
증명: 결합 확률의 곱 법칙 p(x, y) = p(x)p(y \vert x)로부터:
H(X, Y) = -\sum_x \sum_y p(x, y) \log_2 p(x, y)
= -\sum_x \sum_y p(x, y) \log_2 [p(x) p(y \vert x)]
= -\sum_x \sum_y p(x, y) \log_2 p(x) - \sum_x \sum_y p(x, y) \log_2 p(y \vert x)
첫째 항에서 \sum_y p(x, y) = p(x)이므로:
-\sum_x p(x) \log_2 p(x) = H(X)
둘째 항은 조건부 엔트로피의 정의이므로:
-\sum_x \sum_y p(x, y) \log_2 p(y \vert x) = H(Y \vert X)
따라서 H(X, Y) = H(X) + H(Y \vert X)이다. 대칭적으로 H(X, Y) = H(Y) + H(X \vert Y)도 성립한다.
4.2 직관적 해석
연쇄 법칙의 의미는 다음과 같다: (X, Y)에 대한 총 불확실성은 X에 대한 불확실성과, X를 알고 난 후 Y에 대해 남아 있는 조건부 불확실성의 합으로 분해된다. 이는 “전체를 아는 것“이 “부분을 알고, 나머지를 조건부로 아는 것“과 동등하다는 직관적 원리의 수학적 표현이다.
5. 조건부 엔트로피의 핵심 성질
5.1 조건화에 의한 엔트로피 감소
조건부 엔트로피에 관한 가장 중요한 부등식은 다음이다:
H(X \vert Y) \leq H(X)
등호는 X와 Y가 독립일 때에만 성립한다.
증명: 연쇄 법칙에 의해:
H(X) - H(X \vert Y) = H(X) + H(Y) - H(X, Y) - H(Y) + H(X, Y) - H(X) - H(Y \vert X)
보다 직접적으로, H(X) - H(X \vert Y) = I(X; Y) \geq 0 (상호 정보량의 비음성)으로부터 도출된다. 상호 정보량의 비음성은 쿨백-라이블러 발산의 비음성으로부터 증명된다.
이 부등식의 의미는 “조건화가 평균적으로 불확실성을 감소시킨다“는 것이다. 추가 정보(Y의 관측)는 대상(X)에 대한 불확실성을 결코 증가시키지 않는다. 다만, 이는 평균적 진술이며, 특정 y에 대해서는 H(X \vert Y = y) > H(X)가 가능하다. 즉, 특정 관측은 불확실성을 일시적으로 증가시킬 수 있으나, 모든 가능한 관측에 대한 가중 평균은 반드시 불확실성을 감소시킨다.
5.2 비음성
H(X \vert Y) \geq 0
이는 조건부 분포 p(x \vert y)에 대한 엔트로피의 가중 평균이므로, 각 항이 비음이고 가중치 p(y)도 비음인 데서 직접 도출된다. 등호는 X가 Y의 함수일 때, 즉 Y를 알면 X가 확정적으로 결정되는 경우에 성립한다.
5.3 독립인 경우
X와 Y가 독립이면 p(x \vert y) = p(x)이므로:
H(X \vert Y) = -\sum_y p(y) \sum_x p(x) \log_2 p(x) = H(X) \sum_y p(y) = H(X)
독립인 경우, Y의 관측은 X에 대한 불확실성을 전혀 줄이지 못한다.
6. 구체적 계산 사례
6.1 결합 분포 예시
확률 변수 X \in \{0, 1\}, Y \in \{0, 1\}이 다음의 결합 분포를 가진다고 하자:
| Y=0 | Y=1 | |
|---|---|---|
| X=0 | 1/4 | 1/4 |
| X=1 | 1/4 | 1/4 |
이는 X와 Y가 독립인 균등 분포이다.
H(X) = H(Y) = 1 \text{ bit}
H(X, Y) = \log_2 4 = 2 \text{ bits}
H(X \vert Y) = H(X, Y) - H(Y) = 2 - 1 = 1 \text{ bit} = H(X)
독립이므로 조건부 엔트로피가 개별 엔트로피와 동일하며, 결합 엔트로피는 개별 엔트로피의 합이다.
6.2 완전 의존인 경우
X = Y인 경우 (X와 Y가 동일한 확률 변수):
| Y=0 | Y=1 | |
|---|---|---|
| X=0 | 1/2 | 0 |
| X=1 | 0 | 1/2 |
H(X) = H(Y) = 1 \text{ bit}
H(X, Y) = -\frac{1}{2}\log_2\frac{1}{2} - \frac{1}{2}\log_2\frac{1}{2} = 1 \text{ bit}
H(X \vert Y) = H(X, Y) - H(Y) = 1 - 1 = 0
Y를 알면 X가 완전히 결정되므로 조건부 불확실성은 0이다. 결합 엔트로피는 개별 엔트로피와 동일하며, 이는 X와 Y가 동일한 정보를 담고 있기 때문이다.
6.3 부분적 의존인 경우
| Y=0 | Y=1 | |
|---|---|---|
| X=0 | 3/8 | 1/8 |
| X=1 | 1/8 | 3/8 |
주변 분포: p(X=0) = p(X=1) = 1/2, p(Y=0) = p(Y=1) = 1/2
H(X) = H(Y) = 1 \text{ bit}
H(X, Y) = -2 \cdot \frac{3}{8}\log_2\frac{3}{8} - 2 \cdot \frac{1}{8}\log_2\frac{1}{8}
= -\frac{3}{4}\log_2\frac{3}{8} - \frac{1}{4}\log_2\frac{1}{8} = -\frac{3}{4}(\log_2 3 - 3) - \frac{1}{4}(-3)
= -\frac{3}{4}\log_2 3 + \frac{9}{4} + \frac{3}{4} = 3 - \frac{3}{4}\log_2 3 \approx 3 - 1.189 = 1.811 \text{ bits}
H(X \vert Y) = H(X, Y) - H(Y) \approx 1.811 - 1 = 0.811 \text{ bits}
H(X \vert Y) \approx 0.811 < H(X) = 1이므로, Y의 관측이 X에 대한 불확실성을 약 0.189비트 감소시킨다. 이 감소량은 상호 정보량 I(X; Y)에 해당한다.
7. 벤 다이어그램적 해석
결합 엔트로피, 개별 엔트로피, 조건부 엔트로피, 상호 정보량의 관계는 벤 다이어그램(Venn diagram)의 구조와 유사하게 시각화할 수 있다. H(X)와 H(Y)를 두 원으로, H(X, Y)를 두 원의 합집합으로, I(X; Y)를 교집합으로 표현하면:
- H(X, Y) = H(X) + H(Y) - I(X; Y)
- H(X \vert Y) = H(X) - I(X; Y)
- H(Y \vert X) = H(Y) - I(X; Y)
이 다이어그램은 각 정보론적 양의 관계를 직관적으로 파악하는 데 유용하다. 다만, 이 유비는 세 개 이상의 확률 변수에 대해서는 완전히 성립하지 않는다. 세 변수의 경우 조건부 상호 정보량이 음의 값을 가질 수 있어, 집합론적 유비의 범위를 벗어난다.