8.93 상호 정보량의 정의와 응용
1. 상호 정보량의 정의
두 확률 변수 X와 Y의 상호 정보량(mutual information)은 두 변수가 공유하는 정보의 양을 측정한다.
I(X; Y) = \sum_{x, y}p(x, y)\log\frac{p(x, y)}{p(x)p(y)}
연속 확률 변수의 경우:
I(X; Y) = \int\int p(x, y)\log\frac{p(x, y)}{p(x)p(y)} \, dx \, dy
2. 엔트로피 기반 표현
상호 정보량은 엔트로피와 조건부 엔트로피로 다양하게 표현된다.
I(X; Y) = H(X) - H(X \vert Y)
I(X; Y) = H(Y) - H(Y \vert X)
I(X; Y) = H(X) + H(Y) - H(X, Y)
해석:
- I(X; Y) = H(X) - H(X \vert Y): “Y를 아는 것이 X에 대한 불확실성을 얼마나 감소시키는가”
- I(X; Y) = H(Y) - H(Y \vert X): “X를 아는 것이 Y에 대한 불확실성을 얼마나 감소시키는가”
3. KL 발산과의 관계
I(X; Y) = D_{KL}(p(x, y) \Vert p(x)p(y))
상호 정보량은 결합 분포와 주변 분포의 곱 사이의 KL 발산이다. 두 변수가 독립이면 p(x, y) = p(x)p(y)이므로 I(X; Y) = 0이다.
4. 상호 정보량의 성질
4.1 비음성
I(X; Y) \geq 0
등호는 X와 Y가 독립일 때 성립한다.
4.2 대칭성
I(X; Y) = I(Y; X)
상호 정보량은 두 변수를 동등하게 취급한다.
4.3 자기 상호 정보량
I(X; X) = H(X)
변수 자신에 대한 상호 정보량은 엔트로피이다.
4.4 데이터 처리 부등식(Data Processing Inequality)
X \to Y \to Z가 마르코프 체인을 이루면:
I(X; Z) \leq I(X; Y)
“정보는 처리 과정에서 증가할 수 없다“는 원리이다. Z가 Y로부터의 함수이면, X에 대한 Z의 정보는 Y가 가진 정보를 초과할 수 없다.
5. 연속 분포에서의 상호 정보량
연속 확률 변수에서도 상호 정보량은 비음이다.
5.1 가우시안의 경우
두 가우시안 확률 변수의 상호 정보량:
I(X; Y) = -\frac{1}{2}\log(1 - \rho^2)
여기서 \rho는 상관 계수이다. \lvert\rho\rvert \to 1이면 I \to \infty, \rho = 0이면 I = 0이다.
5.2 다변량 가우시안
두 부분벡터 \mathbf{X}, \mathbf{Y}의 결합 가우시안에서:
I(\mathbf{X}; \mathbf{Y}) = \frac{1}{2}\log\frac{\det\boldsymbol{\Sigma}_X\det\boldsymbol{\Sigma}_Y}{\det\boldsymbol{\Sigma}_{XY}}
여기서 \boldsymbol{\Sigma}_{XY}는 결합 공분산 행렬이다.
6. 조건부 상호 정보량
세 번째 변수 Z가 주어진 조건에서의 상호 정보량이다.
I(X; Y \vert Z) = H(X \vert Z) - H(X \vert Y, Z)
연쇄 법칙:
I(X; Y, Z) = I(X; Y) + I(X; Z \vert Y)
7. 로봇 공학에서의 응용
7.1 능동 감지(Active Sensing)
로봇이 다음 관측을 선택할 때, 상호 정보량을 최대화하는 행동을 선택한다.
a^* = \arg\max_a I(\mathbf{X}; \mathbf{Z}(a))
여기서 \mathbf{X}는 추정 대상 상태, \mathbf{Z}(a)는 행동 a에서의 관측이다. 이는 “추정 불확실성을 가장 크게 감소시키는 관측을 선택“하는 것이다.
7.2 탐험과 정보 이득
SLAM과 탐험에서 미개척 영역의 정보 이득을 최대화하도록 로봇을 유도한다. 지도의 엔트로피 감소가 탐험의 지표이다.
7.3 특징 선택
기계 학습에서 상호 정보량을 기준으로 목표 변수와 관련이 큰 특징을 선택한다.
\text{Feature Importance}(X_i) = I(X_i; Y)
7.4 센서 배치 최적화
다수의 센서를 최적 위치에 배치하는 문제에서 총 상호 정보량을 최대화한다. 이는 감시 네트워크와 센서 웹의 설계에 활용된다.
7.5 상관성 분석
두 변수 사이의 비선형 관계를 포착하는 데 상호 정보량이 선형 상관 계수보다 유용하다. 상관 계수는 선형 관계만 측정하지만, 상호 정보량은 임의의 통계적 의존성을 측정한다.
8. 경험적 추정
유한 표본으로부터 상호 정보량을 추정하는 문제는 통계적으로 어려운 문제이다.
이산 변수: 경험적 빈도로 결합 분포와 주변 분포를 추정하고 직접 계산. 소표본에서는 편향 보정이 필요하다.
연속 변수: 커널 밀도 추정, k-최근접 이웃 추정, 비닝(binning) 등이 사용된다. MINE(Mutual Information Neural Estimation) 등 신경망 기반 추정기도 제안되어 있다.
9. 참고 문헌
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
- Krause, A., & Guestrin, C. (2009). “Optimal Value of Information in Graphical Models.” Journal of Artificial Intelligence Research, 35, 557–591.
version: 1.0