Chapter 7. 섀넌의 정보 이론: 불확실성과 엔트로피의 정의

1. 서론: 정보의 수학적 정량화

1948년, 클로드 엘우드 섀넌(Claude Elwood Shannon)은 벨 연구소(Bell Laboratories) 기술 저널에 “A Mathematical Theory of Communication“을 발표하였다. 이 논문은 정보(information)라는 개념을 직관적·일상적 의미로부터 분리하여 엄밀한 수학적 대상으로 정의한 최초의 체계적 시도이며, 현대 정보 이론(information theory)의 기원이다. 섀넌은 정보를 불확실성(uncertainty)의 해소로 정의하고, 그 양을 측정하는 척도로서 엔트로피(entropy)를 도입함으로써, 통신 공학뿐 아니라 컴퓨터 과학, 통계학, 물리학, 생물학에 이르는 광범위한 학문 분야에 근본적 영향을 미치는 이론적 틀을 구축하였다.

2. 역사적 배경과 지적 맥락

2.1 통신 공학의 기술적 문제

섀넌의 정보 이론은 순수 수학적 탐구에서 출발한 것이 아니라, 전기 통신 체계의 구체적 공학 문제에 대한 해답으로서 탄생하였다. 20세기 초반, 전신(telegraph)과 전화(telephone) 통신의 급속한 확산은 다음과 같은 근본적 질문을 제기하였다: 주어진 통신 채널(communication channel)을 통해 전송할 수 있는 정보의 최대량은 얼마인가? 잡음(noise)이 존재하는 채널에서 신뢰성 있는 통신은 어떤 조건 하에서 가능한가?

이 질문에 대한 선행 연구로, 해리 나이퀴스트(Harry Nyquist)는 1924년 논문 “Certain Factors Affecting Telegraph Speed“에서 전신 신호의 전송 속도와 대역폭(bandwidth)의 관계를 분석하였고, 랠프 하틀리(Ralph Hartley)는 1928년 논문 “Transmission of Information“에서 정보량의 로그적 척도를 최초로 제안하였다. 하틀리는 $n$ 개의 기호 중 하나를 선택하는 행위의 정보량을 $\log n$ 으로 정의하였으며, 이는 섀넌 이론의 직접적 선구이다.

2.2 확률론과 통계역학의 영향

섀넌의 엔트로피 개념은 루트비히 볼츠만(Ludwig Boltzmann)과 요시아 윌러드 깁스(Josiah Willard Gibbs)가 통계역학(statistical mechanics)에서 도입한 열역학적 엔트로피와 수학적으로 동일한 형식을 취한다. 볼츠만 엔트로피는 거시 상태(macrostate)에 대응하는 미시 상태(microstate)의 수에 로그를 취한 것으로 정의되며, 이는 시스템의 무질서도(disorder) 또는 불확실성의 척도로 해석된다.

섀넌이 자신의 불확실성 척도에 ’엔트로피’라는 명칭을 부여한 배경에 대해, 존 폰 노이만(John von Neumann)이 “아무도 엔트로피가 실제로 무엇인지 모르므로, 어떤 논쟁에서든 항상 유리할 것이다“라고 조언하였다는 일화가 전해진다. 명칭의 유래와 무관하게, 정보 엔트로피와 열역학적 엔트로피 사이의 수학적 유사성은 이후 두 분야 간의 심층적 연결을 탐구하는 연구의 기초가 되었다.

3. 정보의 수학적 정의

3.1 자기 정보량

섀넌은 정보량을 확률적 사건의 발생과 연결하여 정의하였다. 확률 $p(x)$ 를 가지는 사건 $x$ 의 자기 정보량(self-information) $I(x)$ 는 다음과 같이 정의된다:

$I(x) = -\log_2 p(x)$

이 정의는 다음의 세 가지 직관적 요구 조건을 충족한다. 첫째, 확실한 사건( $p(x) = 1$ )은 정보량이 0이다. 이미 알고 있는 사실의 전달은 불확실성을 해소하지 않기 때문이다. 둘째, 낮은 확률의 사건일수록 더 많은 정보를 전달한다. 예기치 않은 사건의 발생이 더 큰 불확실성 해소를 의미하기 때문이다. 셋째, 독립적 사건들의 정보량은 가산적(additive)이다. 두 독립 사건 $x$ , $y$ 가 동시에 발생할 때의 정보량은 각각의 정보량의 합과 같다:

$I(x, y) = -\log_2 p(x)p(y) = -\log_2 p(x) - \log_2 p(y) = I(x) + I(y)$

정보량의 단위는 로그의 밑에 따라 결정되며, 밑이 2일 때 비트(bit), 밑이 $e$ 일 때 냇(nat), 밑이 10일 때 하틀리(hartley) 또는 반(ban)이라 한다.

3.2 엔트로피: 평균 정보량

이산 확률 변수 $X$ 가 유한한 알파벳 $\mathcal{X} = \{x_1, x_2, \ldots, x_n\}$ 위에서 확률 질량 함수(probability mass function) $p(x)$ 를 가질 때, $X$ 의 섀넌 엔트로피(Shannon entropy) $H(X)$ 는 자기 정보량의 기댓값으로 정의된다:

$H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x)$

여기서 $0 \log_2 0 = 0$ 으로 약속한다. 이는 $\lim_{p \to 0^+} p \log_2 p = 0$ 에 의해 정당화된다.

엔트로피 $H(X)$ 는 확률 변수 $X$ 의 결과를 관측하기 전의 평균적 불확실성, 또는 동등하게 $X$ 의 결과를 관측함으로써 얻는 평균 정보량을 나타낸다. 엔트로피가 높을수록 확률 분포가 균등에 가까워 불확실성이 크고, 엔트로피가 낮을수록 확률 분포가 특정 값에 집중되어 불확실성이 작다.

4. 엔트로피의 수학적 성질

4.1 비음성과 상한

섀넌 엔트로피는 다음의 기본적 성질을 만족한다:

$0 \leq H(X) \leq \log_2 \lvert\mathcal{X}\rvert$

하한 $H(X) = 0$ 은 확률 변수 $X$ 가 하나의 값을 확률 1로 취할 때, 즉 불확실성이 전혀 없을 때 달성된다. 상한 $H(X) = \log_2 \lvert\mathcal{X}\rvert$ 은 $X$ 가 균등 분포(uniform distribution)를 따를 때 달성되며, 이는 모든 결과가 동등하게 가능한 경우 불확실성이 최대임을 의미한다. 상한의 증명은 이산 확률 분포에 대한 젠센 부등식(Jensen’s inequality)의 적용으로부터 도출된다.

4.2 결합 엔트로피와 조건부 엔트로피

두 이산 확률 변수 $X$ , $Y$ 의 결합 엔트로피(joint entropy)는 다음과 같이 정의된다:

$H(X, Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log_2 p(x, y)$

조건부 엔트로피(conditional entropy)는 $Y$ 를 알고 있을 때 $X$ 의 잔여 불확실성을 측정한다:

$H(X \vert Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log_2 p(x \vert y)$

이들 사이에는 다음의 연쇄 법칙(chain rule)이 성립한다:

$H(X, Y) = H(Y) + H(X \vert Y) = H(X) + H(Y \vert X)$

이 연쇄 법칙은 결합 불확실성이 한 변수의 불확실성과 그 변수를 알고 난 후의 잔여 불확실성의 합으로 분해됨을 진술하며, 직관적으로 명확한 정보론적 의미를 가진다.

4.3 상호 정보량

두 확률 변수 $X$ , $Y$ 사이의 상호 정보량(mutual information)은 한 변수의 관측이 다른 변수에 대해 제공하는 정보의 양을 측정한다:

$I(X; Y) = H(X) - H(X \vert Y) = H(Y) - H(Y \vert X) = H(X) + H(Y) - H(X, Y)$

상호 정보량은 비음(non-negative)이며, $I(X; Y) = 0$ 은 $X$ 와 $Y$ 가 독립일 때에만 성립한다. 상호 정보량은 또한 결합 분포 $p(x, y)$ 와 주변 분포의 곱 $p(x)p(y)$ 사이의 쿨백-라이블러 발산(Kullback-Leibler divergence)으로 표현된다:

$I(X; Y) = D_{\text{KL}}(p(x, y) \| p(x)p(y)) = \sum_{x, y} p(x, y) \log_2 \frac{p(x, y)}{p(x)p(y)}$

5. 정보원 부호화 정리

5.1 무잡음 부호화 정리

섀넌의 제1정리, 즉 무잡음 부호화 정리(noiseless coding theorem) 또는 정보원 부호화 정리(source coding theorem)는 데이터 압축의 이론적 한계를 규정한다. 이 정리는 다음과 같이 진술된다: 이산 무기억 정보원(discrete memoryless source) $X$ 가 엔트로피 $H(X)$ 를 가질 때, $X$ 의 출력을 무손실로 부호화하는 데 필요한 평균 부호 길이(average code length)의 하한은 $H(X)$ 이다.

형식적으로, 임의의 유일 복호 가능 부호(uniquely decodable code)에 대해, 부호어 길이를 $l(x)$ 라 할 때 다음이 성립한다:

$\sum_{x \in \mathcal{X}} p(x) l(x) \geq H(X)$

더 나아가, 허프만 부호(Huffman code)와 같은 최적 접두어 부호(optimal prefix code)는 평균 부호 길이가 $H(X)$ 와 $H(X) + 1$ 사이에 놓이도록 구성할 수 있다. 이 정리는 엔트로피가 정보원의 본질적 정보량에 대한 정확한 척도임을 확인하며, 어떠한 부호화 기법도 엔트로피 이하로 데이터를 압축할 수 없다는 근본적 한계를 설정한다.

5.2 점근적 등분할 성질

무잡음 부호화 정리의 증명에서 핵심적 역할을 하는 것은 점근적 등분할 성질(Asymptotic Equipartition Property, AEP)이다. 이 성질은 큰 수의 법칙(law of large numbers)의 정보론적 유사체로서, 독립 동일 분포(i.i.d.)의 확률 변수 $X_1, X_2, \ldots, X_n$ 의 결합 확률이 $n$ 이 충분히 클 때 다음을 만족함을 진술한다:

$-\frac{1}{n} \log_2 p(X_1, X_2, \ldots, X_n) \to H(X) \quad \text{(확률 수렴)}$

이로부터 $2^{nH(X)}$ 개의 전형 수열(typical sequence)이 확률의 대부분을 차지하며, 나머지 비전형 수열은 무시할 수 있을 정도로 낮은 확률을 가진다는 결론이 도출된다. 따라서 $n$ 개의 기호를 부호화하는 데 약 $nH(X)$ 비트가 충분하다.

6. 통신 채널과 채널 용량

6.1 이산 무기억 채널의 정의

이산 무기억 채널(discrete memoryless channel, DMC)은 입력 알파벳 $\mathcal{X}$ , 출력 알파벳 $\mathcal{Y}$ , 그리고 조건부 확률 분포 $p(y \vert x)$ 의 삼중쌍 $(\mathcal{X}, p(y \vert x), \mathcal{Y})$ 으로 정의된다. ’무기억’은 현재 출력이 현재 입력에만 의존하고 과거의 입력 및 출력에는 의존하지 않는 성질을 의미한다.

채널 용량(channel capacity) $C$ 는 입력 분포 $p(x)$ 에 대한 상호 정보량의 최댓값으로 정의된다:

$C = \max_{p(x)} I(X; Y)$

채널 용량은 주어진 채널을 통해 신뢰성 있게 전송할 수 있는 정보의 이론적 최대 전송률을 나타낸다.

6.2 잡음 있는 채널 부호화 정리

섀넌의 제2정리, 즉 잡음 있는 채널 부호화 정리(noisy channel coding theorem)는 정보 이론의 가장 심원한 결과 중 하나이다. 이 정리는 두 부분으로 구성된다:

달성 가능성(achievability): 전송률 $R < C$ 인 모든 $R$ 에 대해, 오류 확률을 임의로 작게 만드는 부호화-복호화 쌍이 존재한다.

역정리(converse): 전송률 $R > C$ 이면, 어떠한 부호화-복호화 쌍을 사용하더라도 오류 확률을 임의로 작게 만드는 것이 불가능하다.

이 정리의 핵심적 의미는, 잡음이 존재하는 채널에서도 채널 용량 이하의 전송률에서는 사실상 오류 없는 통신이 가능하다는 것이다. 이는 직관에 반하는 결과로, 잡음의 존재가 통신의 정확성을 근본적으로 제한하지 않으며 단지 전송률을 제한할 뿐임을 밝힌다.

7. 인공지능과의 이론적 연결

7.1 기계 학습에서의 엔트로피

섀넌 엔트로피는 기계 학습(machine learning)의 다양한 영역에서 핵심적 도구로 활용된다. 의사 결정 트리(decision tree) 알고리즘에서 정보 이득(information gain)은 분할 기준 선택의 기초가 되며, 이는 조건부 엔트로피의 감소량으로 정의된다. 교차 엔트로피(cross-entropy) 손실 함수는 분류 문제에서 모형의 예측 분포와 실제 분포 사이의 차이를 측정하는 표준적 목적 함수이다.

교차 엔트로피는 두 확률 분포 $p$ 와 $q$ 사이에서 다음과 같이 정의된다:

$H(p, q) = -\sum_{x} p(x) \log_2 q(x)$

이는 참 분포 $p$ 하에서 분포 $q$ 에 기반한 부호화의 평균 부호 길이에 해당하며, $H(p, q) = H(p) + D_{\text{KL}}(p \| q)$ 의 관계가 성립한다. 따라서 교차 엔트로피의 최소화는 쿨백-라이블러 발산의 최소화와 동치이다.

7.2 정보 병목 원리

티쉬비(Naftali Tishby) 등이 제안한 정보 병목(information bottleneck) 원리는 딥러닝의 학습 과정을 정보 이론적 관점에서 해석하는 틀을 제공한다. 이 원리에 의하면, 심층 신경망의 각 층은 입력 $X$ 에 대한 정보를 압축하면서 출력 $Y$ 에 대한 관련 정보를 보존하는 최적의 절충을 추구한다. 형식적으로, 중간 표현 $T$ 에 대해 다음의 최적화 문제로 정의된다:

$\min_{p(t \vert x)} I(X; T) - \beta I(T; Y)$

여기서 $\beta > 0$ 은 압축과 보존 사이의 절충을 제어하는 라그랑주 승수(Lagrange multiplier)이다.

7.3 정보 이론과 통계적 학습 이론

통계적 학습 이론에서 모형의 복잡도와 일반화 능력 사이의 관계를 분석하는 데 정보 이론적 도구가 활용된다. 최소 기술 길이(Minimum Description Length, MDL) 원리는 데이터를 가장 짧게 기술하는 모형이 최적의 모형이라는 원칙으로, 콜모고로프 복잡도(Kolmogorov complexity)와 섀넌 엔트로피의 관계에 그 이론적 기초를 둔다. 리사넨(Jorma Rissanen)이 정립한 MDL 원리는 모형 선택(model selection)에 대한 정보 이론적 접근법의 대표적 사례이다.

8. 결론

섀넌의 정보 이론은 정보라는 추상적 개념에 정밀한 수학적 구조를 부여함으로써, 통신 공학의 실용적 문제에 대한 해답을 제공하는 동시에 정보 처리 일반에 관한 보편적 이론적 틀을 구축하였다. 엔트로피, 상호 정보량, 채널 용량 등의 핵심 개념은 정보의 본질적 성질에 대한 깊은 통찰을 담고 있으며, 이 개념들은 기계 학습, 데이터 과학, 인공지능의 이론적 기초로서 그 중요성이 지속적으로 확대되고 있다. 정보 이론이 제공하는 근본적 한계 정리들은 인공지능 시스템의 설계에서 이론적으로 달성 가능한 성능의 상한을 규정하며, 이는 공학적 설계의 방향을 이론적으로 안내하는 역할을 한다.