8.91 엔트로피의 정의와 해석

1. 엔트로피의 직관적 의미

엔트로피(entropy)는 확률 분포의 “불확실성” 또는 “무질서도“를 정량화하는 측도이다. 확률이 하나의 값에 집중되면 엔트로피가 작고, 여러 값에 고르게 분포하면 엔트로피가 크다. 열역학의 엔트로피와 정보 이론의 엔트로피는 수학적 형식이 유사하며, 두 분야 모두 시스템의 “무질서“와 관련된다.

2. 이산 엔트로피의 정의

이산 확률 변수 $X$ 가 유한 집합 $\mathcal{X} = \{x_1, \ldots, x_n\}$ 에서 값을 취할 때 섀넌 엔트로피는 다음과 같이 정의된다.

$H(X) = -\sum_{x \in \mathcal{X}}p(x)\log p(x)$

관례적으로 $0\log 0 = 0$ 으로 정의한다(극한 $\lim_{p \to 0}p\log p = 0$ ).

2.1 단위

$\log_2$ : 비트(bit)
$\log_e$ : 내트(nat)
$\log_{10}$ : 디트(dit, hartley)

3. 엔트로피의 공리적 유도

섀넌은 다음의 공리들을 만족하는 불확실성 측도가 엔트로피의 형태뿐임을 증명하였다.

연속성: $H(p)$ 가 $p$ 에 대해 연속
대칭성: 가능한 값의 순서에 무관
최대성: 균일 분포에서 최대
가산성: 독립 사건의 엔트로피는 합

이 공리들로부터 $H(p) = -c\sum p_i\log p_i$ 가 유일하게 도출된다.

4. 엔트로피의 성질

4.1 비음성

$H(X) \geq 0$

등호는 $X$ 가 결정론적일 때(어떤 $x$ 에 $p(x) = 1$ ) 성립한다.

4.2 최대값

$n$ 개의 가능한 값에 대해 엔트로피의 최대값은 균일 분포에서 달성된다.

$H(X) \leq \log n, \quad H(X) = \log n \Leftrightarrow p(x) = 1/n, \; \forall x$

이는 “아무 정보도 없을 때 균일 분포가 가장 불확실한 분포“임을 의미한다.

4.3 오목성

$H(p)$ 는 확률 분포 $p$ 에 대한 오목 함수이다. 즉, 두 분포의 혼합의 엔트로피는 각 엔트로피의 가중 평균 이상이다.

5. 결합 엔트로피와 조건부 엔트로피

5.1 결합 엔트로피

$H(X, Y) = -\sum_{x, y}p(x, y)\log p(x, y)$

두 확률 변수의 결합 불확실성이다.

5.2 조건부 엔트로피

$H(Y \vert X) = -\sum_{x, y}p(x, y)\log p(y \vert x) = \mathbb{E}_X[H(Y \vert X = x)]$

$X$ 가 주어졌을 때 $Y$ 의 평균 불확실성이다.

5.3 연쇄 법칙

$H(X, Y) = H(X) + H(Y \vert X) = H(Y) + H(X \vert Y)$

일반적으로 $n$ 개 변수의 결합 엔트로피:

$H(X_1, X_2, \ldots, X_n) = \sum_{i=1}^{n}H(X_i \vert X_1, \ldots, X_{i-1})$

5.4 조건부가 엔트로피를 감소시킴

$H(Y \vert X) \leq H(Y)$

등호는 $X$ 와 $Y$ 가 독립일 때 성립한다. 즉, 추가 정보는 불확실성을 감소시키거나 유지한다(절대 증가시키지 않는다).

6. 엔트로피의 해석

6.1 부호화의 관점

엔트로피는 손실 없는 데이터 압축에서 기호당 평균 비트 수의 하한이다(섀넌의 원천 부호화 정리). 즉, 확률 분포 $p$ 를 따르는 기호를 부호화하는 최적 평균 길이는 $H(p)$ 비트이다.

6.2 질문의 관점

$20$ 질문 게임에서, 정답을 맞추기 위한 평균 질문 수는 엔트로피에 가깝다. 엔트로피가 클수록 더 많은 질문이 필요하다.

6.3 놀라움의 관점

자기 정보 $-\log p(x)$ 는 “사건 $x$ 가 발생했을 때의 놀라움“으로 해석된다. 엔트로피는 평균 놀라움이다.

7. 미분 엔트로피

연속 확률 변수의 엔트로피는 PDF $f$ 에 대해 다음과 같이 정의된다.

$h(X) = -\int f(x)\log f(x) \, dx$

7.1 이산 엔트로피와의 차이

음수가 될 수 있음
좌표 변환에 의해 변함: $h(Y = cX) = h(X) + \log\lvert c\rvert$
이산화의 극한이 아님

7.2 주요 분포의 미분 엔트로피

분포	엔트로피
균일 $U(a, b)$	$\log(b - a)$
가우시안 $\mathcal{N}(\mu, \sigma^2)$	$\frac{1}{2}\log(2\pi e\sigma^2)$
지수 $\text{Exp}(\lambda)$	$1 - \log\lambda$
라플라스	$1 + \log(2b)$

8. 로봇 공학에서의 엔트로피

8.1 불확실성의 측정

로봇 상태 추정의 사후 분포의 엔트로피가 상태 추정의 불확실성을 정량화한다. 가우시안의 경우:

$h(\mathbf{X}) = \frac{n}{2}\log(2\pi e) + \frac{1}{2}\log\det(\boldsymbol{\Sigma})$

공분산 행렬의 행렬식이 불확실성 타원체의 체적과 관련된다.

8.2 능동 감지와 정보 이득

다음 관측을 결정할 때 예상 엔트로피 감소가 “정보 이득(information gain)“이다.

$\text{IG} = H(X) - \mathbb{E}_Z[H(X \vert Z)] = I(X; Z)$

정보 이득을 최대화하는 관측을 선택하는 것이 능동 감지(active sensing)의 원리이다.

8.3 탐험 전략

로봇의 탐험에서 지도의 엔트로피가 감소하도록 행동을 선택한다.

8.4 필터의 일관성

베이즈 필터의 사후 엔트로피가 예상대로 감소하는지를 모니터링하여 필터의 건강성을 평가한다.

9. 참고 문헌

Shannon, C. E. (1948). “A Mathematical Theory of Communication.” Bell System Technical Journal, 27(3), 379–423.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.

version: 1.0