8.90 정보 이론의 기본 개념

1. 정보 이론의 개요

정보 이론(Information Theory)은 섀넌(Claude Shannon)이 1948년에 정립한 수학 분야로, 정보의 정량화, 저장, 통신에 관한 근본적 원리를 다룬다. 확률 분포의 불확실성과 정보량을 엄밀하게 정의하며, 로봇 공학에서 불확실성 관리, 센서 융합, 능동 감지, 기계 학습의 이론적 기반을 제공한다.

2. 자기 정보(Self-Information)

사건 $x$ 의 자기 정보는 그 사건이 발생했을 때 얻는 정보량이다.

$I(x) = -\log p(x)$

로그의 밑에 따라 단위가 달라진다.

$\log_2$ : 비트(bit)
$\log_e$ (자연로그): 내트(nat)
$\log_{10}$ : 디트(dit), 하틀리(hartley)

자기 정보의 성질:

드문 사건(작은 $p(x)$ )은 큰 정보량을 가진다.
확실한 사건( $p(x) = 1$ )의 정보량은 영이다.
독립 사건의 정보량은 합산된다: $I(x, y) = I(x) + I(y)$ .

3. 섀넌 엔트로피(Shannon Entropy)

이산 확률 변수 $X$ 의 엔트로피는 자기 정보의 기댓값이다.

$H(X) = -\sum_x p(x)\log p(x) = \mathbb{E}[-\log p(X)]$

엔트로피는 확률 변수의 불확실성 또는 “평균 정보량“을 측정한다.

3.1 성질

비음성: $H(X) \geq 0$ , 등호는 $X$ 가 결정론적일 때
최대: 균일 분포에서 최대: $H(X) \leq \log N$ ( $N$ 은 가능한 값의 수)
연쇄 법칙: $H(X, Y) = H(X) + H(Y \vert X)$
가산성: 독립 확률 변수의 엔트로피는 합산

3.2 예시

공정 동전: $H = -2 \cdot \frac{1}{2}\log_2\frac{1}{2} = 1$ 비트

공정 주사위: $H = \log_2 6 \approx 2.585$ 비트

4. 미분 엔트로피(Differential Entropy)

연속 확률 변수의 엔트로피이다.

$h(X) = -\int f_X(x)\log f_X(x) \, dx$

미분 엔트로피는 이산 엔트로피와 달리 음수가 될 수 있으며, 좌표 변환에 의해 변할 수 있다.

4.1 주요 분포의 미분 엔트로피

가우시안 $\mathcal{N}(\mu, \sigma^2)$ :

$h(X) = \frac{1}{2}\log(2\pi e\sigma^2)$

다변량 가우시안 $\mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ :

$h(\mathbf{X}) = \frac{n}{2}\log(2\pi e) + \frac{1}{2}\log\det(\boldsymbol{\Sigma})$

균일 $U(a, b)$ : $h(X) = \log(b - a)$

4.2 최대 엔트로피 성질

주어진 평균과 분산의 제약하에서 가우시안 분포가 미분 엔트로피를 최대화한다. 이는 “가우시안이 주어진 모멘트하에서 최대로 무질서한 분포“임을 의미한다.

5. 결합 엔트로피와 조건부 엔트로피

5.1 결합 엔트로피

$H(X, Y) = -\sum_{x,y}p(x, y)\log p(x, y)$

5.2 조건부 엔트로피

$H(Y \vert X) = -\sum_{x,y}p(x, y)\log p(y \vert x)$

“ $X$ 가 주어졌을 때 $Y$ 의 평균적 불확실성“을 측정한다. $X$ 가 $Y$ 에 대해 많은 정보를 제공할수록 조건부 엔트로피가 작다.

5.3 연쇄 법칙

$H(X, Y) = H(X) + H(Y \vert X)$

6. 상호 정보(Mutual Information)

두 확률 변수가 공유하는 정보량이다.

$I(X; Y) = H(X) - H(X \vert Y) = H(Y) - H(Y \vert X)$

6.1 성질

대칭: $I(X; Y) = I(Y; X)$
비음성: $I(X; Y) \geq 0$
영: $X \perp Y$ 이면 $I(X; Y) = 0$

6.2 대안적 표현

$I(X; Y) = \sum_{x,y}p(x, y)\log\frac{p(x, y)}{p(x)p(y)} = D_{KL}(p(x, y) \Vert p(x)p(y))$

$X$ 와 $Y$ 의 결합 분포와 주변 분포의 곱 사이의 KL 발산이다.

7. 쿨백-라이블러 발산(KL Divergence)

두 확률 분포 사이의 “거리“를 측정한다.

$D_{KL}(p \Vert q) = \sum_x p(x)\log\frac{p(x)}{q(x)} = \mathbb{E}_p\left[\log\frac{p(X)}{q(X)}\right]$

7.1 성질

비음성: $D_{KL}(p \Vert q) \geq 0$ , 등호는 $p = q$ 일 때만
비대칭: $D_{KL}(p \Vert q) \neq D_{KL}(q \Vert p)$
삼각 부등식 불성립: 거리 함수가 아님

KL 발산은 변분 추론, 확률적 생성 모델, 통계적 가설 검정 등에서 핵심적이다.

8. 섀넌의 정리

8.1 원천 부호화 정리(Source Coding Theorem)

정보원을 손실 없이 부호화하는 평균 비트 수의 하한은 원천의 엔트로피이다. 이는 데이터 압축의 이론적 한계이다.

8.2 채널 부호화 정리(Channel Coding Theorem)

잡음 채널을 통해 오류 없이 정보를 전송할 수 있는 최대 속도는 채널 용량(상호 정보의 최대)이다. 이는 통신의 이론적 한계를 제시한다.

9. 로봇 공학에서의 정보 이론

능동 감지(Active Sensing): 상호 정보를 최대화하는 관측(센서 방향, 로봇 이동 등)을 선택한다.

탐험 전략: 정보 이득(entropy reduction)을 기준으로 탐험 행동을 결정한다.

센서 융합: 각 센서가 제공하는 정보량을 평가하여 가중치를 결정한다.

베이즈 필터의 일관성: 필터의 엔트로피가 적절히 감소하는지 모니터링한다.

10. 참고 문헌

Shannon, C. E. (1948). “A Mathematical Theory of Communication.” Bell System Technical Journal, 27(3), 379–423.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.

version: 1.0