7.10 상호 정보량(Mutual Information)의 정의와 해석

1. 상호 정보량의 정의

1.1 엔트로피 기반 정의

두 이산 확률 변수 $X$ 와 $Y$ 에 대한 상호 정보량(mutual information) $I(X; Y)$ 는 한 변수의 관측이 다른 변수에 대한 불확실성을 평균적으로 얼마나 감소시키는지를 측정하는 양이다. 엔트로피와 조건부 엔트로피를 이용하여 다음과 같이 정의된다:

$I(X; Y) = H(X) - H(X \vert Y)$

이 정의는 $Y$ 를 관측하기 전 $X$ 에 대한 불확실성 $H(X)$ 에서, $Y$ 를 관측한 후 $X$ 에 대해 남아 있는 불확실성 $H(X \vert Y)$ 를 뺀 것으로, $Y$ 의 관측에 의해 해소된 $X$ 에 대한 불확실성의 양이다.

1.2 동등한 표현들

상호 정보량은 다음의 동등한 형태로도 표현된다:

$I(X; Y) = H(X) - H(X \vert Y)$

$= H(Y) - H(Y \vert X)$

$= H(X) + H(Y) - H(X, Y)$

$= H(X, Y) - H(X \vert Y) - H(Y \vert X)$

두 번째 표현 $I(X; Y) = H(Y) - H(Y \vert X)$ 는 상호 정보량의 대칭성을 보여준다: $X$ 가 $Y$ 에 대해 제공하는 정보량과 $Y$ 가 $X$ 에 대해 제공하는 정보량은 동일하다. 이 대칭성은 상관 관계(correlation)가 방향성을 가지지 않는 것과 유사하다.

세 번째 표현 $I(X; Y) = H(X) + H(Y) - H(X, Y)$ 는 상호 정보량이 개별 엔트로피의 합에서 결합 엔트로피를 뺀 것임을 보여주며, 집합론에서 두 집합의 교집합 크기가 개별 크기의 합에서 합집합 크기를 뺀 것과 유사한 구조이다.

1.3 쿨백-라이블러 발산으로서의 표현

상호 정보량은 결합 분포 $p(x, y)$ 와 주변 분포의 곱 $p(x)p(y)$ 사이의 쿨백-라이블러 발산(Kullback-Leibler divergence)으로 표현된다:

$I(X; Y) = D_{\text{KL}}(p(x, y) \| p(x)p(y)) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log_2 \frac{p(x, y)}{p(x)p(y)}$

이 표현은 상호 정보량을 $X$ 와 $Y$ 의 실제 결합 분포가 독립 가정에서 얼마나 벗어나는지를 측정하는 척도로 해석하게 한다. 결합 분포가 주변 분포의 곱과 일치하면 (즉, $X$ 와 $Y$ 가 독립이면) 상호 정보량은 0이다.

2. 상호 정보량의 기본 성질

2.1 비음성

$I(X; Y) \geq 0$

등호는 $X$ 와 $Y$ 가 독립일 때에만 성립한다.

이 성질은 쿨백-라이블러 발산의 비음성(깁스 부등식)으로부터 직접 도출된다. 또한 조건화에 의한 엔트로피 감소 성질 $H(X \vert Y) \leq H(X)$ 와 동치이다.

비음성의 의미는, 다른 확률 변수의 관측이 평균적으로 불확실성을 증가시키는 것은 불가능하다는 것이다. 정보는 ’소멸’되거나 ’유지’될 수 있으나 ’역생성’될 수는 없다.

2.2 대칭성

$I(X; Y) = I(Y; X)$

이 성질은 쿨백-라이블러 발산 표현에서 $p(x, y)/(p(x)p(y))$ 가 $x$ 와 $y$ 에 대해 대칭적인 데서 직접 확인된다. 대칭성은 “ $X$ 가 $Y$ 에 대해 가지는 정보“와 “ $Y$ 가 $X$ 에 대해 가지는 정보“가 동일함을 의미하며, 이는 직관적으로 자명하지 않은 깊은 성질이다.

2.3 상한

$I(X; Y) \leq \min\{H(X), H(Y)\}$

이 상한은 $I(X; Y) = H(X) - H(X \vert Y) \leq H(X)$ ( $H(X \vert Y) \geq 0$ 이므로)와 대칭적으로 $I(X; Y) \leq H(Y)$ 로부터 도출된다. 한 변수의 관측으로 다른 변수에 대해 획득할 수 있는 정보량은 어느 한쪽의 총 불확실성을 초과할 수 없다.

등호 $I(X; Y) = H(X)$ 는 $H(X \vert Y) = 0$ 일 때, 즉 $X$ 가 $Y$ 의 함수일 때 성립한다. 이 경우 $Y$ 를 알면 $X$ 가 완전히 결정되므로, $Y$ 의 관측이 $X$ 의 모든 불확실성을 해소한다.

2.4 독립인 경우와 완전 의존인 경우

독립: $I(X; Y) = 0$ . 두 변수가 아무런 통계적 관련이 없다.
완전 의존 ( $X = Y$ ): $I(X; Y) = H(X) = H(Y)$ . 한 변수가 다른 변수의 모든 불확실성을 해소한다.

3. 상호 정보량의 해석

3.1 정보론적 해석

상호 정보량은 다음의 동등한 해석을 가진다:

불확실성 감소량: $Y$ 를 관측함으로써 $X$ 에 대해 평균적으로 감소하는 불확실성의 양.
공유 정보량: $X$ 와 $Y$ 가 공통으로 포함하고 있는 정보의 양.
독립으로부터의 이탈도: $X$ 와 $Y$ 의 결합 분포가 독립 분포로부터 얼마나 벗어나 있는지의 측도.
통계적 의존성의 척도: $X$ 와 $Y$ 사이의 일반적 통계적 의존성(선형적 의존성에 국한되지 않음)의 정보론적 측정.

3.2 상관 계수와의 비교

피어슨 상관 계수(Pearson correlation coefficient) $\rho(X, Y)$ 는 $X$ 와 $Y$ 사이의 선형적 의존성만을 측정한다. $\rho = 0$ 이지만 $X$ 와 $Y$ 가 비선형적으로 강하게 의존하는 경우가 존재하며, 이때 상호 정보량은 0이 아닌 양의 값을 가진다.

예를 들어, $X$ 가 $[-1, 1]$ 위의 균등 분포를 따르고 $Y = X^2$ 인 경우, $\rho(X, Y) = 0$ 이나 $I(X; Y) > 0$ 이다. $Y$ 는 $X$ 의 함수이므로 $X$ 와 $Y$ 사이에는 완전한 의존성이 존재하지만, 이 의존성이 비선형적이므로 상관 계수로는 포착되지 않는다.

이 차이는 기계 학습에서 특징 선택(feature selection) 시 상호 정보량이 상관 계수보다 더 일반적인 기준으로 선호되는 이유를 설명한다.

4. 조건부 상호 정보량

4.1 정의

제3의 확률 변수 $Z$ 가 주어진 조건 하에서의 조건부 상호 정보량(conditional mutual information)은 다음과 같이 정의된다:

$I(X; Y \vert Z) = H(X \vert Z) - H(X \vert Y, Z)$

이는 $Z$ 를 이미 알고 있는 상태에서 $Y$ 의 추가 관측이 $X$ 에 대해 제공하는 추가 정보의 양이다.

4.2 쿨백-라이블러 발산으로서의 표현

$I(X; Y \vert Z) = \sum_z p(z) \sum_x \sum_y p(x, y \vert z) \log_2 \frac{p(x, y \vert z)}{p(x \vert z) p(y \vert z)}$

이는 각 $Z = z$ 에 대한 조건부 상호 정보량을 $p(z)$ 로 가중 평균한 것이다.

4.3 비음성

$I(X; Y \vert Z) \geq 0$

조건부 상호 정보량도 비음이다. 그러나 중요한 점은, $I(X; Y \vert Z)$ 와 $I(X; Y)$ 의 대소 관계는 일반적으로 어느 방향으로도 성립하지 않는다는 것이다. 즉, 조건화가 상호 정보량을 증가시킬 수도, 감소시킬 수도 있다.

5. 채널 용량과의 관계

통신 이론에서 상호 정보량은 채널 용량(channel capacity)의 정의에 핵심적으로 등장한다. 이산 무기억 채널(DMC)에서 채널 입력을 $X$ , 채널 출력을 $Y$ 라 하면, 채널 용량은 입력 분포에 대한 상호 정보량의 최대값이다:

$C = \max_{p(x)} I(X; Y)$

이 정의에서 상호 정보량 $I(X; Y)$ 는 채널을 통해 전달되는 정보의 양을 측정하며, 채널 용량은 적절한 입력 분포의 선택에 의해 달성 가능한 최대 정보 전달량이다.

6. 기계 학습에서의 응용

6.1 특징 선택

상호 정보량은 특징 선택(feature selection)에서 특징 $X$ 가 목표 변수 $Y$ 에 대해 가지는 정보적 관련성을 측정하는 기준으로 사용된다. $I(X; Y)$ 가 큰 특징은 목표 변수를 예측하는 데 유용한 정보를 많이 담고 있다.

상호 정보량 기반 특징 선택은 선형적 관계뿐 아니라 비선형적 관계도 포착하므로, 상관 계수 기반 방법보다 일반적이다. 다만, 이산 변수에 대한 상호 정보량의 추정은 결합 확률 분포의 추정을 필요로 하며, 이는 고차원 데이터에서 표본 수에 비해 매개변수가 과다한 문제(curse of dimensionality)에 직면한다.

6.2 정보 병목 원리

티쉬비(Naftali Tishby) 등이 제안한 정보 병목(information bottleneck) 원리에서, 중간 표현 $T$ 는 입력 $X$ 에 대한 상호 정보량 $I(X; T)$ 를 최소화하면서 출력 $Y$ 에 대한 상호 정보량 $I(T; Y)$ 를 최대화하는 절충을 추구한다:

$\min_{p(t \vert x)} [I(X; T) - \beta I(T; Y)]$

이 프레임워크에서 상호 정보량은 표현의 압축 정도와 관련성 보존 정도를 동시에 정량화하는 척도로 기능한다.

6.3 생성 모형과 변분 추론

변분 오토인코더(Variational Autoencoder, VAE) 등의 생성 모형에서, 관측 데이터 $X$ 와 잠재 변수 $Z$ 사이의 상호 정보량 $I(X; Z)$ 는 잠재 표현이 관측 데이터에 대해 얼마나 많은 정보를 보존하는지를 측정한다. 변분 하한(evidence lower bound, ELBO)의 최적화는 상호 정보량의 하한을 간접적으로 최대화하는 것으로 해석될 수 있다.

7. 상호 정보량의 추정

7.1 이산 변수의 경우

이산 확률 변수에 대한 상호 정보량은 결합 확률과 주변 확률의 추정으로부터 직접 계산할 수 있다. 빈도 기반 추정(frequency-based estimation)에서는 표본으로부터 $\hat{p}(x, y)$ , $\hat{p}(x)$ , $\hat{p}(y)$ 를 추정하고 이를 정의식에 대입한다. 그러나 이 추정량은 유한 표본에서 상향 편의(upward bias)를 가지며, 밀러-매도(Miller-Madow) 보정 등의 편의 보정 기법이 제안되어 있다.

7.2 연속 변수의 경우

연속 확률 변수에 대한 상호 정보량의 추정은 더 어렵다. 밀도 추정(density estimation)에 기반한 방법, $k$ -최근접 이웃( $k$ -nearest neighbor) 추정량(크라슈코프-스퇴그바우어-그라스베르거(Kraskov-Stögbauer-Grassberger) 추정량), 커널 밀도 추정(kernel density estimation) 기반 방법 등이 사용된다. 최근에는 신경망을 이용한 상호 정보량 추정 방법(MINE: Mutual Information Neural Estimation)도 제안되었다.

8. 결론

상호 정보량은 두 확률 변수 사이의 통계적 의존성을 정보론적으로 정량화하는 가장 일반적인 척도이다. 선형적 의존성에 국한되지 않고, 임의의 통계적 관련성을 포착하며, 비음성과 대칭성이라는 직관적 성질을 만족한다. 통신 이론에서 채널 용량의 정의, 기계 학습에서 특징 선택과 표현 학습, 통계학에서 독립성 검정 등 광범위한 분야에서 핵심적 도구로 기능한다.