7.7 엔트로피 함수의 공리적 특성과 유일성 정리

1. 공리적 접근의 동기

섀넌 엔트로피 $H(X) = -\sum_i p_i \log p_i$ 는 자기 정보량의 기댓값으로 유도될 수 있��나, 이 유도는 자기 정보량의 형태를 로그 함수로 사전에 결정한 후에 기댓값을 취한 것이다. 보다 근본적인 질문은 다음이다: 불확실성의 척도가 만족해야 할 합리적 요구 조건을 먼저 명시하고, 이 조건들을 모두 만족하는 함수가 섀넌 엔트로피뿐임을 증명할 수 있는가?

클로드 섀넌(Claude Shannon)은 “A Mathematical Theory of Communication“에서 세 가지 공리를 제시하고, 이 공리를 만족하는 불확실성 측도가 상수 인수를 제외하고 유일하게 $-\sum_i p_i \log p_i$ 의 형태임을 증명하였��. 이후 알렉산더 킨친(Aleksandr Khinchin)은 이 유일성 정리를 보다 엄밀하게 정식화하였다. 이 공리적 특성화(axiomatic characterization)는 엔트로피의 정의가 자의적 선택이 아니라 논리적 필연성에 기반함을 확립한다.

2. 섀넌의 세 가지 공리

2.1 공리의 진술

확률 분포 $\mathbf{p} = (p_1, p_2, \ldots, p_n)$ 에 대한 불확실성 측도 $H(p_1, p_2, \ldots, p_n)$ 이 다음 세 가지 공리를 만족한다고 하자:

공리 1 (연속성): $H$ 는 모든 $p_i$ 에 대해 연속 함수이다. 확률의 미세한 변화가 불확실성의 불연속적 변화를 유발하지 않아야 한다.

공리 2 (최대성): $n$ 개의 동등하게 가능한 결과에 대해, 즉 $p_i = 1/n$ for all $i$ 일 때, $H(1/n, 1/n, \ldots, 1/n)$ 은 $n$ 에 대해 단조 증가한다. 가능한 결과의 수가 많을수록 불확실성이 커야 한다.

공리 3 (재귀적 분해 성질): 선택 과정을 순차적 하위 선택으로 분해할 때, 전체 불확실성은 하위 선택들의 불��실성의 가중 합으로 표현된다. 구체적으로, 확률 분포 $(p_1, p_2, \ldots, p_n)$ 에서 처음 $k$ 개의 결과를 하나의 그룹으로 묶어 확률 $q_1 = \sum_{i=1}^{k} p_i$ 를 부여하고 나머지를 $q_2 = 1 - q_1$ 로 놓으면:

$H(p_1, \ldots, p_n) = H(q_1, q_2) + q_1 H\left(\frac{p_1}{q_1}, \ldots, \frac{p_k}{q_1}\right) + q_2 H\left(\frac{p_{k+1}}{q_2}, \ldots, \frac{p_n}{q_2}\right)$

2.2 공리 3의 직관적 의미

공리 3은 그룹화 공리(grouping axiom) 또는 재귀적 분해 공리라 불린다. 이 공리의 의미는 다음과 같다: $n$ 개의 결과 중 하나를 선택하는 것을, 먼저 두 그룹 중 하나를 선택하고( $H(q_1, q_2)$ 의 불확실성), 이후 선택된 그룹 내에서 구체적 결과를 선택하는(각 그룹의 조건부 엔트로피에 해당) 2단계 과정으로 분해할 수 있으며, 전체 불확실성은 이 단계들의 불확실성을 적절히 결합한 것과 같��.

가중 인수 $q_1$ 과 $q_2$ 는 각 그룹이 선택될 확률을 반영한다. 그룹 내부의 불확실성은 해�� 그룹이 실제로 선택되는 경우에만 관련되므로, 그룹의 선택 확률에 비례하여 전체 불확실성에 기여해야 한다.

3. 섀넌-킨친 유일성 정리

3.1 정리의 진술

정리 (Shannon-Khinchin): 공리 1, 2, 3을 동시에 만족하는 함수 $H(p_1, p_2, \ldots, p_n)$ 은 양의 상수 $K > 0$ 에 대해 다음의 형태에 한하여 유일하다:

$H(p_1, p_2, \ldots, p_n) = -K \sum_{i=1}^{n} p_i \log p_i$

상수 $K$ 는 불확실성 측정의 단위를 결정하며, $K = 1/\ln 2$ 로 선택하면 비트(bit) 단위의 섀넌 엔트로피를 얻는다.

3.2 증명의 핵심 구조

증명은 여러 단계에 걸쳐 진행된다. 핵심적 논증 구조를 서술한다.

단계 1: 균등 분포에 대한 엔트로피의 형태를 결정한다. $A(n) = H(1/n, 1/n, \ldots, 1/n)$ 으로 정의한다. 공리 3의 반복 적용에 의해, $n = m^k$ (양의 정수 $m$ , $k$ )인 경우:

$A(m^k) = k \cdot A(m)$

이를 증명하기 위해, $m^k$ 개의 동��한 결과를 $m$ 개의 동등한 그룹으로 분할하고, 각 그룹 내에 $m^{k-1}$ 개의 동등한 결과가 있는 것으로 재귀 분해한다:

$A(m^k) = A(m) + A(m^{k-1}) = A(m) + A(m) + A(m^{k-2}) = \cdots = k \cdot A(m)$

단계 2: $A(n) = K \log n$ 을 도출한다. 임의의 양의 정수 $m$ , $n$ 에 대해 $m^k \leq n^l < m^{k+1}$ 을 만족하는 정수 $k$ , $l$ 을 선택하면:

$k \cdot A(m) \leq l \cdot A(n) < (k+1) \cdot A(m)$

$k/l$ 의 비율은 $\log n / \log m$ 에 수렴하며, 이로부터:

$\frac{A(n)}{A(m)} = \frac{\log n}{\log m}$

$A(m) = K \log m$ 으로 놓으면(여기서 $K = A(2)/\log 2 > 0$ , 공리 2에 의해 양수) $A(n) = K \log n$ 이 모든 양의 정수 $n$ 에 대해 성립한다.

단계 3: 일반적 확률 분포에 대한 엔트로피의 형태를 결정한다. 유리수 확률의 경우, $p_i = n_i / N$ ( $n_i$ 는 양의 정수, $N = \sum n_i$ )로 표현한다. 공리 3에 의해 $N$ 개의 동등한 결과를 $p_i$ 비율의 그룹으로 분해하면:

$A(N) = H(p_1, \ldots, p_n) + \sum_{i=1}^{n} p_i A(n_i)$

$A(N) = K \log N$ , $A(n_i) = K \log n_i$ 를 대입하면:

$K \log N = H(p_1, \ldots, p_n) + \sum_{i=1}^{n} p_i K \log n_i$

정리하면:

$H(p_1, \ldots, p_n) = K\left(\log N - \sum_{i=1}^{n} p_i \log n_i\right) = -K \sum_{i=1}^{n} p_i \log \frac{n_i}{N} = -K \sum_{i=1}^{n} p_i \log p_i$

단계 4: 공리 1(연속성)에 의해, 유리수 확률에 대한 결과가 무리수 확률을 포함하는 일반적 확률 분포로 확장된다. 임의의 확률 분포는 유리수 확률 분포의 극한으로 근사할 수 있으며, $H$ 의 연속성에 의해 극한에서의 함수값이 보존된다.

4. 킨친의 공리 체계

4.1 킨친 공리의 진술

알렉산더 킨친(Aleksandr Khinchin)은 1957년 저서 Mathematical Foundations of Information Theory에서 섀넌의 공리 체계를 재정식화하였다. 킨친의 네 가지 공리는 다음과 같다:

공리 K1 (연속성): $H(p_1, \ldots, p_n)$ 은 모든 $p_i$ 에 대해 연속이다.

공리 K2 (최대성): $H(1/n, \ldots, 1/n) \leq H(1/(n+1), \ldots, 1/(n+1))$ for all $n \geq 1$ .

공리 K3 (불변성): 확률 0인 사건의 추가는 불확실성을 변화시키지 않는다. $H(p_1, \ldots, p_n, 0) = H(p_1, \ldots, p_n)$ .

공리 K4 (재귀적 분해): 섀넌의 공�� 3과 동일하나, 일반적 형태로 진술된다.

킨친의 공리 체계에서 공리 K3은 섀넌의 ��래 체계에서 암묵적으로 가정되었던 성질을 명시화한 것이다. 확률 0인 사건은 실질적으로 발생하지 않으므로, 그 추가가 불확실성에 영향을 미쳐서는 안 된다.

4.2 파디와 쓰바의 대안적 공리 체계

파디(Zoltán Daróczy)와 쓰바(Aczél)를 비롯한 여러 연구자들이 대안적 공리 체계를 제시하였다. 일부 체계에서는 그룹화 공리를 강한 가법성(strong additivity) 공리로 대체한다:

$H(XY) = H(X) + H(Y \vert X)$

여기서 $H(XY)$ 는 결합 엔트로피이고 $H(Y \vert X)$ 는 조건부 엔트로피이다. 이 공리는 결합 분포의 불확실성이 한 변수의 불확실성과 그 변수를 조건으로 한 나머지 변수의 불확실성의 합으로 분해됨을 요구한다.

5. 유일성 정리의 이론적 함의

5.1 엔트로피 정의의 필연성

유일성 정리의 가장 중요한 함의는, 섀넌 엔트로피가 불확실성 측도의 ’자의적 정의’가 아니라, 합리적 요구 조건의 집합에 의해 논리적으로 강제되는 유일한 형태라는 것이다. 연속성, 최대성, 재귀적 분해 가능성이라는 세 가지 직관적으로 타당한 조건을 수용하는 순간, $-\sum p_i \log p_i$ 이외의 다른 형태는 수학적으로 배제된다.

이는 정보의 측정에 관한 “왜 로그인가?“라는 질문에 대한 근본적 답변을 제공한다. 로그 함수의 선택은 가법성(독립 사건들의 정보량이 더해져야 함)이라는 요구의 수학적 귀결이며, 엔트로피의 구체적 형태는 가법성에 연속성과 분해 가능성을 결합한 결과이다.

5.2 레니 엔트로피와 일반화

공리 체계의 일부를 완화하면 섀넌 엔트로피의 일반화가 가능하다. 알프레드 레니(Alfréd Rényi)는 1961년 재귀적 분해 공리를 약화시켜 $\alpha$ 차 레니 엔트로피(Rényi entropy)를 도입하였다:

$H_\alpha(X) = \frac{1}{1-\alpha} \log_2 \left(\sum_{i=1}^{n} p_i^\alpha\right), \quad \alpha > 0, \; \alpha \neq 1$

$\alpha \to 1$ 의 극한에서 레니 엔트로피는 섀넌 엔트로피로 수렴한다:

$\lim_{\alpha \to 1} H_\alpha(X) = H(X)$

레니 엔트로피는 어떤 공리를 완화하느냐에 따라 다양한 불확실성 측도가 가능함을 보여주며, 동시에 섀넌 엔트로피가 가장 강한 공리 집합을 만족하는 특별한 경우임을 확인한다.

쓰알리스(Constantino Tsallis)의 쓰알리스 엔트로피(Tsallis entropy)는 가법성 대신 비가법적(non-extensive) 합성 법칙을 만족하는 또 다른 일반화이다:

$S_q(X) = \frac{1}{q-1}\left(1 - \sum_{i=1}^{n} p_i^q\right), \quad q > 0, \; q \neq 1$

이 역시 $q \to 1$ 의 극한에서 섀넌 엔트로피로 수렴한다.

6. 공리적 특성화의 방법론적 의의

엔트로피의 공리적 특성화는 정보 이론의 기초에 관한 문제일 뿐 아니라, 수학적 이론 구성의 방법론에 관한 범례이다. 측정하고자 ��는 양의 본질적 성질을 공리로 명시하고, 이 공리들을 만족하는 수학적 형태가 유일함을 증명함으로써, 정의의 임의성을 제거하고 이론의 필연성을 확립하는 것이다.

이 방법론은 콜모고로프(Andrey Kolmogorov)의 확률론 공리화, 폰 노이만-모르겐슈테른(von Neumann-Morgenstern)의 기대 효용 이론 공리화 등과 동일한 수학적 전통에 속한다. 각 경우에서 직관적으로 타당한 조건들의 집합이 특정 수학적 구조를 유일하게 결정하며, 이 유일성이 해당 이론의 규범적 지위를 뒷받침한다.