정보 이론(Information Theory)은 단순히 통신 공학의 한 분과를 넘어, 20세기 과학 기술의 패러다임을 근본적으로 재편한 지적 혁명이라 할 수 있다. 그 시원은 1948년, 벨 연구소의 수학자 클로드 섀넌(Claude Shannon)이 발표한 기념비적인 논문 “통신의 수학적 이론(A Mathematical Theory of Communication)”으로 거슬러 올라간다.1 이 논문에서 섀넌은 “통신의 근본적인 문제는 한 지점에서 선택된 메시지를 다른 지점에서 정확하게 또는 대략적으로 재현하는 것”이라는, 간결하면서도 심오한 문제의식을 제시하였다.3 이 질문에 답하는 과정에서 그는 이전까지 모호하고 추상적인 개념이었던 ‘정보’에 측정 가능한 수학적 실체를 부여했으며, 이는 곧 디지털 시대의 개막을 알리는 청사진이 되었다.4
섀넌 이전의 시대에 정보는 전신선, 라디오파와 같은 특정 물리적 매체와 분리하여 생각할 수 없는 개념이었다.3 그러나 섀넌은 정보를 확률과 불확실성의 관점에서 재정의함으로써, 정보를 물리적 형태와 무관한 추상적 대상으로 전환시켰다.4 이러한 접근 방식은 모든 종류의 소통-텍스트, 음성, 이미지, 심지어 음악에 이르기까지-을 ‘비트(bit)’라는 공통된 단위로 환원할 수 있다는 혁명적인 발상으로 이어졌다.4 이는 정보의 ‘탈물질화(Dematerialization)’이자 ‘보편화(Universalization)’였다. 특정 매체에 종속되었던 정보의 개념을 해방시켜, 어떠한 형태의 데이터라도 동일한 수학적 원리로 분석하고 처리할 수 있는 보편 이론의 기틀을 마련한 것이다. 본 보고서는 섀넌의 이러한 지적 유산을 바탕으로 정보 이론의 핵심 개념들을 수학적으로 규명하고, 그것이 어떻게 현대 기술 문명의 근간을 이루게 되었는지, 나아가 그 이론적 한계와 미래의 확장 가능성까지 다각적으로 고찰하고자 한다.
정보 이론의 가장 근본적인 성취는 ‘정보’라는 추상적 개념을 수학적으로 엄밀하게 정의하고 측정 가능한 양으로 만들었다는 점에 있다. 이 장에서는 개별 사건이 전달하는 정보량에서부터 시작하여, 확률 분포 전체의 불확실성을 나타내는 엔트로피, 그리고 여러 변수 간의 정보적 관계를 규명하는 척도들에 이르기까지, 정보의 정량화 과정을 단계적으로 탐구한다.
정보를 양적으로 표현하기 위해서는 몇 가지 직관적인 조건을 만족해야 한다. 정보 이론은 다음의 세 가지 공리적 조건에서 출발한다.6
이 세 가지 조건을 모두 만족시키는 수학적 함수 형태는 로그 함수(logarithm function)이다. 이에 따라 어떤 사건 $x$가 발생할 확률을 $P(x)$라 할 때, 그 사건의 정보량(Information Content 또는 self-information) $I(x)$는 다음과 같이 정의된다.10 \(I(x) = -\log P(x)\) 로그의 밑(base)은 정보량의 단위를 결정하는데, 특별한 언급이 없는 한 공학 분야에서는 2를 사용하여 ‘비트(bit)’ 단위로 표현한다.9 예를 들어, 앞면과 뒷면이 나올 확률이 각각 0.5로 동일한 공정한 동전을 던지는 경우, 앞면이 나왔다는 사건의 정보량은 $I(\text{앞면}) = -\log_2(0.5) = 1$ 비트이다.10 반면, 6개의 면이 나올 확률이 각각 1/6인 공정한 주사위를 던져 숫자 3이 나왔다는 사건의 정보량은 $I(3) = -\log_2(1/6) \approx 2.58$ 비트로, 동전 던지기보다 더 많은 정보량을 가진다.10 이는 가능한 결과의 수가 많을수록(즉, 불확실성이 클수록) 특정 결과가 주는 정보량이 커진다는 직관과 일치한다.
여기서 주목할 점은 정보량의 정의가 메시지의 내용이나 의미(semantics)가 아닌, 오직 발생 확률에만 기반한다는 사실이다. 섀넌 자신도 그의 논문에서 “메시지가 갖는 의미와 같은 의미론적 측면은 공학적 문제와 무관하다”고 명시했다.13 일상적으로 “내일 지구가 멸망한다”는 정보는 “내일 비가 온다”는 정보보다 훨씬 중요하게 여겨지지만, 두 사건의 발생 확률이 같다면 정보 이론적 관점에서의 정보량은 동일하다. 이는 섀넌이 해결하고자 했던 근본 문제가 “의미를 어떻게 전달할 것인가”가 아니라 “어떤 메시지든 주어진 확률 분포 하에서 얼마나 효율적이고 정확하게 전송할 것인가”라는 공학적 과제였기 때문이다.13 따라서 정보 이론의 ‘정보량’은 ‘놀람의 정도’ 또는 ‘불확실성의 감소량’을 나타내는 통계적 척도이다. 이러한 의미의 배제는 정보 이론이 다양한 분야에 적용될 수 있는 강력한 보편성의 원천이 되었지만, 동시에 인간의 소통이나 지식의 본질을 다루는 데 있어서는 근본적인 한계로 작용하기도 한다.
정보량이 개별 사건에 대한 척도라면, 섀넌 엔트로피(Shannon Entropy)는 확률 변수 $X$가 가질 수 있는 모든 가능한 결과들을 종합하여 그 확률 변수 자체가 평균적으로 얼마나 많은 불확실성을 내포하고 있는지를 측정하는 지표다.6 수학적으로 엔트로피 $H(X)$는 각 사건의 정보량 $I(x) = -\log P(x)$의 기댓값(expected value)으로 정의된다.9
이산 확률 변수 $X$가 값의 집합 $\mathcal{X}$를 가지고 확률 질량 함수 $p(x)$를 따를 때, 엔트로피는 다음과 같이 계산된다.15 \(H(X) = E[I(X)] = E[-\log p(X)] = -\sum_{x \in \mathcal{X}} p(x) \log p(x)\) 연속 확률 변수 $X$가 확률 밀도 함수 $f(x)$를 가질 경우, 이를 미분 엔트로피(differential entropy)라 부르며 다음과 같이 정의된다.15 \(h(X) = -\int f(x) \log f(x) dx\) 엔트로피의 단위는 정보량과 마찬가지로 로그의 밑이 2일 때 ‘비트’를 사용한다. 이는 해당 확률 변수의 결과를 표현하는 데 평균적으로 필요한 최소 비트 수를 의미한다는 중요한 물리적 해석을 갖는다.14 예를 들어, 영어 알파벳 26자가 모두 동일한 확률로 나타난다고 가정하면, 그 엔트로피는 $\log_2 26 \approx 4.7$ 비트가 된다. 하지만 실제 영어 텍스트에서는 ‘E’나 ‘T’와 같은 글자가 ‘Z’나 ‘Q’보다 훨씬 빈번하게 나타난다. 이러한 불균등한 확률 분포를 고려하여 계산한 영어의 엔트로피는 약 1.1 비트에서 4.08 비트 사이로, 훨씬 낮아진다.15 이는 분포가 불균등할수록 예측 가능성이 높아져 불확실성이 감소함을 의미한다.
| 엔트로피는 다음과 같은 중요한 성질을 가진다. 첫째, 엔트로피는 항상 0보다 크거나 같다($H(X) \geq 0$).16 둘째, 엔트로피는 확률 분포가 균등 분포(uniform distribution)일 때, 즉 모든 사건의 발생 확률이 동일할 때 최댓값 $\log | \mathcal{X} | $를 가진다.16 이는 모든 가능성이 동등할 때 불확실성이 가장 크다는 우리의 직관과 완벽하게 부합한다. |
정보 이론은 단일 확률 변수를 넘어 두 개 이상의 변수들이 맺는 관계를 정량적으로 분석하는 강력한 도구들을 제공한다.
결합 엔트로피(Joint Entropy): 두 확률 변수 $X$와 $Y$의 결합 확률 분포 $p(x, y)$를 사용하여 정의되며, 이 두 변수를 하나의 시스템으로 간주했을 때의 총 불확실성을 측정한다.18 \(H(X, Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log p(x, y)\)
조건부 엔트로피(Conditional Entropy): 확률 변수 $X$의 값을 알고 있다는 조건 하에서, 여전히 남아있는 $Y$의 불확실성을 의미한다. 이는 $X$가 $Y$를 예측하는 데 얼마나 도움이 되는지를 나타내는 척도로, 이 값이 작을수록 $X$는 $Y$에 대한 많은 정보를 제공하는 것이다.18
\[H(Y|X) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log p(y|x)\]상호 정보량(Mutual Information): 두 확률 변수 $X$와 $Y$가 공유하는 정보의 양을 측정한다. 이는 $X$에 대한 정보를 앎으로써 감소하는 $Y$의 불확실성의 양으로 정의할 수 있다. 상호 정보량은 다음과 같은 여러 형태로 표현될 수 있으며, 이를 통해 다른 척도들과의 관계를 명확히 알 수 있다.21 \(I(X;Y) = H(Y) - H(Y|X)\)
\[I(X;Y) = H(X) - H(X|Y)\] \[I(X;Y) = H(X) + H(Y) - H(X,Y)\]상호 정보량 $I(X;Y)$는 $X$와 $Y$가 통계적으로 독립일 때만 0이 되며, 둘 사이에 어떤 종류의 관계라도 존재하면 양수 값을 가진다.
이러한 척도들은 전통적인 통계학에서 사용하는 상관계수(correlation coefficient)를 넘어서는 깊이 있는 분석을 가능하게 한다. 상관계수는 주로 두 변수 간의 선형적 관계를 측정하는 데 국한되지만, 상호 정보량은 선형, 비선형을 포함한 모든 종류의 통계적 의존성을 포착할 수 있다.23 예를 들어,
$Y = X^2$와 같은 관계에서 $X$가 [-1, 1] 사이에서 대칭적으로 분포한다면 두 변수의 상관계수는 0에 가깝게 계산될 수 있다. 하지만 $X$의 값을 알면 $Y$의 값이 완벽하게 결정되므로, 두 변수는 강한 의존 관계에 있다. 상호 정보량은 이러한 비선형적 관계를 정확히 포착하여 높은 값을 나타낸다. 이처럼 상호 정보량은 단순한 경향성을 넘어 한 변수가 다른 변수의 불확실성을 얼마나 ‘줄여주는지’를 측정함으로써, 기계 학습의 특징 선택(feature selection)과 같은 분야에서 변수 간의 근본적인 의존성을 평가하는 강력한 기준으로 활용된다.23
정보 이론은 두 확률 분포 사이의 ‘차이’를 정량화하는 개념 또한 제공하며, 이는 특히 통계적 추론과 기계 학습 분야에서 핵심적인 역할을 한다.
쿨백-라이블러 발산(Kullback-Leibler Divergence): KL 발산 $D_{KL}(P||Q)$는 어떤 미지의 실제 확률 분포 $P$를 우리가 모델링한 근사 확률 분포 $Q$로 대체했을 때 발생하는 정보량의 손실을 의미한다.11 이는 두 분포가 얼마나 다른지를 나타내는 척도이지만, $D_{KL}(P||Q) \neq D_{KL}(Q||P)$와 같이 비대칭적이므로 엄밀한 의미의 수학적 ‘거리(distance)’는 아니다.25 \(D_{KL}(P||Q) = \sum_{x \in \mathcal{X}} P(x) \log \frac{P(x)}{Q(x)}\)
교차 엔트로피(Cross-Entropy): 교차 엔트로피 $H(P, Q)$는 실제 분포가 $P$일 때, 모델 분포 $Q$에 기반하여 설계된 부호화 방식으로 메시지를 인코딩하는 데 필요한 평균 비트 수를 나타낸다.9 \(H(P, Q) = -\sum_{x \in \mathcal{X}} P(x) \log Q(x)\) 교차 엔트로피는 섀넌 엔트로피와 KL 발산을 사용하여 $H(P, Q) = H(P) + D_{KL}(P||Q)$와 같이 표현될 수 있다.9 실제 분포 $P$의 엔트로피 $H(P)$는 고정된 값이므로, 교차 엔트로피를 최소화하는 것은 KL 발산을 최소화하는 것과 동일한 과제가 된다. 이러한 특성 때문에, 딥러닝을 포함한 기계 학습의 분류 문제에서 교차 엔트로피는 모델의 예측 분포($Q$)가 실제 데이터의 분포($P$)에 얼마나 가까운지를 측정하는 손실 함수(loss function)로 널리 사용된다.29 모델은 학습 과정에서 이 교차 엔트로피 값을 최소화하는 방향으로 파라미터를 조정해 나간다.
<표 1> 주요 정보 척도 요약
| 척도 (Measure) | 기호 (Symbol) | 수학적 정의 (Mathematical Definition) | 핵심 의미 (Core Meaning) | |
|---|---|---|---|---|
| 정보량 | $I(x)$ | $-\log P(x)$ | 특정 사건 $x$가 발생했을 때 얻는 놀람의 정도 또는 불확실성의 감소량. | |
| 섀넌 엔트로피 | $H(X)$ | $-\sum P(x) \log P(x)$ | 확률 변수 $X$가 갖는 불확실성의 평균적인 양. 정보를 표현하는 데 필요한 평균 비트 수. | |
| 결합 엔트로피 | $H(X,Y)$ | $-\sum\sum P(x,y) \log P(x,y)$ | 두 확률 변수 $X$, $Y$가 동시에 갖는 총 불확실성의 양. | |
| 조건부 엔트로피 | $H(YX)$ | 내용 오류 | 내용 오류 | |
| 상호 정보량 | $I(X;Y)$ | 내용 오류 | 내용 오류 | |
| KL 발산 | $D_{KL}(PQ)$ | 내용 오류 | 내용 오류 | |
| 교차 엔트로피 | $H(P,Q)$ | $-\sum P(x) \log Q(x)$ | 실제 분포 $P$의 사건을 모델 $Q$로 부호화할 때 필요한 평균 비트 수. $H(P) + D_{KL}(P | Q)$ 내용 오류 |
정보를 정량화하는 척도를 확립한 섀넌은 이를 바탕으로 통신 시스템의 근본적인 한계와 가능성을 규명하는 세 가지 핵심 정리를 증명하였다. 이 정리들은 각각 데이터 압축(정보원 부호화), 잡음 채널을 통한 데이터 전송(채널 부호화), 그리고 특정 채널의 최대 전송 속도(채널 용량)에 대한 이론적 토대를 제공하며, 현대 디지털 통신 시스템 설계의 근간을 이룬다.
‘섀넌 제1정리’로도 알려진 정보원 부호화 정리는 무손실 데이터 압축(lossless data compression)이 도달할 수 있는 궁극적인 한계를 제시한다.31 이 정리에 따르면, 어떤 정보원(information source)에서 생성된 심볼들을 부호화할 때, 심볼당 평균 부호 길이 $L$은 결코 그 정보원의 엔트로피 $H(X)$보다 작아질 수 없다.31 \(L \ge H(X)\) 이는 엔트로피가 해당 정보원이 본질적으로 포함하는 정보의 양이며, 그 정보량을 손실 없이 표현하기 위해서는 평균적으로 최소 $H(X)$ 비트가 필요함을 의미한다. 즉, 엔트로피는 압축의 이론적 하한선이다.
이 정리의 증명은 점근적 동등분할 성질(Asymptotic Equipartition Property, AEP)이라는 개념에 기반한다. AEP에 따르면, 독립적이고 동일한 분포(i.i.d.)를 따르는 정보원에서 나온 충분히 긴 길이 $N$의 시퀀스는 압도적인 확률로 ‘전형적 집합(typical set)’이라는 특정 부분집합에 속하게 된다.32 이 전형적 집합에 속하는 시퀀스들은 거의 동일한 확률(약 $2^{-NH(X)}$)을 가지며, 집합의 원소 개수는 약 $2^{NH(X)}$개이다.34 따라서 이 전형적인 시퀀스들만을 구별하여 부호화한다면, 각 시퀀스를 나타내는 데 약 $NH(X)$개의 비트가 필요하게 되고, 이는 심볼당 평균 $H(X)$ 비트에 해당한다. 전형적이지 않은 시퀀스가 나타날 확률은 $N$이 커짐에 따라 0에 수렴하므로, 무시할 수 있을 정도의 오류를 감수하면 $H(X)$에 근접하는 압축률을 달성할 수 있다.32
이 정리의 원리를 실제적으로 구현한 대표적인 알고리즘이 바로 허프만 코딩(Huffman Coding)이다.35 허프만 코딩은 발생 빈도가 높은 심볼에는 짧은 길이의 이진 코드를, 발생 빈도가 낮은 심볼에는 긴 길이의 코드를 할당하는 가변 길이 부호화 방식이다.36 이때 생성된 코드들은 어떤 코드도 다른 코드의 시작 부분(prefix)이 되지 않는 ‘접두부 코드(prefix code)’의 성질을 만족하여, 수신된 비트 스트림을 디코딩할 때 모호함 없이 유일하게 해석할 수 있도록 보장한다.36
‘섀넌 제2정리’는 정보 이론 전체를 통틀어 가장 심오하고 혁명적인 결과로 평가받는다. 이 정리는 아무리 잡음(noise)이 심한 통신 채널이라 할지라도, 그 채널이 가진 고유한 용량(capacity) $C$보다 낮은 속도($R$)로 정보를 전송한다면($R < C$), 오류 확률을 원하는 만큼 얼마든지 작게 만들 수 있는 부호화(coding) 및 복호화(decoding) 방법이 ‘반드시 존재한다’는 것을 수학적으로 증명한 것이다.4 이 정리가 발표되기 전까지 잡음은 통신에서 피할 수 없는 근본적인 장벽으로 여겨졌으나, 섀넌은 잡음이 원칙적으로 극복 가능한 공학적 문제임을 보였다.
이 정리의 증명 또한 전형성의 개념과 랜덤 코딩(random coding)이라는 확률적 논증에 의존한다. 증명의 핵심 아이디어는 다음과 같다. 전송하고자 하는 $2^{NR}$개의 모든 메시지에 대해, 각각 길이 $N$의 코드워드(codeword)를 무작위로 생성하여 거대한 코드북을 만든다. 송신자는 메시지에 해당하는 코드워드를 채널을 통해 전송한다. 잡음의 영향을 받아 변형된 시퀀스를 수신한 수신자는, 코드북에 있는 모든 코드워드 중에서 수신된 시퀀스와 ‘결합적으로 전형적인(jointly typical)’ 관계에 있는 유일한 코드워드를 찾아낸다.39
$N$이 충분히 크고 전송률 $R$이 채널 용량 $C$보다 작다는 조건이 만족되면, 올바른 코드워드만이 수신된 시퀀스와 결합적으로 전형적일 확률이 1에 가까워지고, 다른 모든 잘못된 코드워드들은 그럴 확률이 0에 가까워진다.41 따라서 수신자는 매우 낮은 오류 확률로 원래의 메시지를 복원할 수 있다.
이 정리는 ‘좋은 코드’의 존재성을 증명했지만, 그 코드를 구체적으로 어떻게 구성해야 하는지에 대한 실용적인 방법은 제시하지 않았다.31 섀넌의 증명은 거대한 코드북을 무작위로 생성하는 비현실적인 방식을 가정했기 때문이다. 이 이론적 가능성과 실제 구현 사이의 간극을 메우는 것은 이후 수십 년간 통신 공학자들의 핵심 과제가 되었고, 이는 터보 부호(Turbo code), 저밀도 패리티 검사 부호(LDPC)와 같이 채널 용량 한계에 근접하는 성능을 보이는 현대적인 오류 정정 부호(error-correcting code)들의 개발로 이어졌다.43
채널 용량 $C$는 주어진 통신 채널을 통해 신뢰성 있게(즉, 오류 확률을 임의로 작게 만들면서) 전송할 수 있는 정보량의 이론적인 최대 속도(단위: bits per second, bps)로 정의된다.42 수학적으로 채널 용량은 채널의 입력 $X$와 출력 $Y$ 사이의 상호 정보량 $I(X;Y)$를 모든 가능한 입력 확률 분포 $p(x)$에 대해 최대화한 값으로 주어진다.46 \(C = \max_{p(x)} I(X;Y)\) 이 정의는 직관적으로, 채널의 입력과 출력이 최대한 높은 상관관계를 갖도록 입력 신호를 조절했을 때 얻을 수 있는 정보 전송률의 최댓값을 의미한다.
섀넌은 여기서 한 걸음 더 나아가, 통신 시스템에서 가장 보편적으로 가정되는 채널 모델 중 하나인 ‘가산성 백색 가우시안 잡음(Additive White Gaussian Noise, AWGN)’ 채널에 대한 용량을 구하는 구체적인 공식을 유도했는데, 이것이 바로 섀넌-하틀리 정리(Shannon-Hartley Theorem)이다.42 \(C = B \log_2 \left(1 + \frac{S}{N}\right)\) 여기서 $B$는 채널의 대역폭(bandwidth)을 헤르츠(Hz) 단위로 나타내고, $S/N$은 신호의 평균 전력(Signal power)과 잡음의 평균 전력(Noise power)의 비율, 즉 신호 대 잡음비(Signal-to-Noise Ratio, SNR)를 나타낸다. 이 공식은 통신 시스템의 세 가지 핵심 파라미터-대역폭, 신호 전력, 잡음-가 정보 전송 능력에 어떻게 기여하는지를 명확하게 보여준다.42 대역폭을 넓히거나, 신호의 세기를 키우거나, 잡음을 줄이면 채널 용량이 증가하여 더 빠른 속도로 데이터를 전송할 수 있다는 직관적인 사실을 정량적으로 확립한 것이다.
섀넌-하틀리 정리는 현대의 모든 유무선 통신 시스템 설계에 있어 근본적인 지침을 제공한다. 하지만 이 정리는 잡음이 가우시안 분포를 따르는 이상적인 채널을 가정하므로, 실제 통신 환경에서 발생하는 페이딩(fading), 다중 경로 간섭(multipath interference) 등과 같은 복잡한 현상들을 직접적으로 다루지는 않는다는 한계를 가진다.49 그럼에도 불구하고, 이 정리는 어떠한 통신 기술도 넘어설 수 없는 성능의 이론적 상한선을 제시함으로써, 새로운 기술의 성능을 평가하고 비교하는 절대적인 기준점 역할을 한다.
결론적으로 섀넌의 3대 정리는 구체적인 회로나 알고리즘을 제시하기보다는, 이론적 한계와 가능성의 존재를 증명함으로써 공학의 ‘목표’를 설정했다는 데 더 큰 의의가 있다. 정보원 부호화 정리는 압축의 목표($H$)를, 채널 부호화 정리는 오류 없는 통신의 가능성($R<C$)을, 그리고 섀넌-하틀리 정리는 특정 채널의 궁극적인 성능 한계($C$)를 제시했다. 이는 공학자들에게 ‘엔트로피에 얼마나 가깝게 압축할 수 있는가?’, ‘채널 용량에 얼마나 근접하는 속도로 오류 없이 통신할 수 있는가?’라는 명확한 질문을 던졌고, 이 질문들이 이후 수십 년간 통신 및 컴퓨터 과학 연구의 방향을 이끄는 등대가 되었다.
추상적인 수학적 원리로 구성된 정보 이론은 그 자체로 완결된 학문이지만, 그 진정한 가치는 현실 세계의 공학적 문제들을 해결하는 구체적인 기술로 구현될 때 드러난다. 이 장에서는 정보 이론의 핵심 원리들이 어떻게 통신, 데이터 압축, 암호학, 인공지능과 같은 핵심 분야에 적용되어 현대 디지털 문명을 구축하는 기술적 토대가 되었는지 살펴본다.
섀넌의 채널 부호화 정리가 보장한 ‘오류 없는 통신의 가능성’을 현실로 구현한 핵심 기술은 오류 정정 부호(Error-Correcting Code, ECC)이다. ECC의 기본 원리는 데이터를 전송하기 전에 의도적으로 계산된 중복 정보(redundancy), 즉 패리티 비트(parity bit)를 추가하는 것이다. 수신 측에서는 이 중복 정보를 이용하여 전송 과정에서 잡음으로 인해 발생한 오류를 검출하고, 나아가 정정까지 할 수 있다.51
초기 ECC 기술인 선형 블록 부호(Linear Block Code)와 길쌈 부호(Convolutional Code)는 비교적 간단한 구조로 오류 정정 능력을 제공했지만, 섀넌이 예언한 채널 용량 한계에는 미치지 못했다.43 1990년대에 이르러 터보 부호(Turbo Code)와 저밀도 패리티 검사 부호(Low-Density Parity-Check, LDPC)가 등장하면서 극적인 돌파구가 마련되었다. 이들 코드는 반복적인 복호화 과정을 통해 오류를 점진적으로 수정해 나감으로써, 이론적 한계인 채널 용량에 매우 근접하는 놀라운 성능을 보여주었다.43 오늘날 3G, 4G, 5G 이동통신, 위성 통신, 디지털 방송 등 거의 모든 현대 통신 시스템은 이러한 강력한 오류 정정 부호 기술에 의존하고 있다.
한편, 다중 입출력(Multiple-Input Multiple-Output, MIMO) 기술은 정보 이론을 공간 차원으로 확장하여 채널 용량을 획기적으로 증대시킨 사례다.51 송신기와 수신기에 여러 개의 안테나를 사용하여 다수의 독립적인 데이터 스트림을 동시에 전송함으로써, 대역폭이나 송신 전력을 늘리지 않고도 채널 용량을 안테나 수에 비례하여 증가시킬 수 있다.52 이는 정보 이론이 제시한 채널 용량의 한계를 극복하는 새로운 차원의 해법을 제공했으며, Wi-Fi와 LTE, 5G 통신 기술의 핵심 요소로 자리 잡았다.
정보원 부호화 정리는 데이터 압축 기술의 이론적 기반을 제공했다. 이 정리의 직접적인 응용 사례들은 우리 디지털 생활 곳곳에 스며들어 있다. 대표적인 무손실 압축(lossless compression) 알고리즘인 허프만 코딩은 파일 압축 형식인 ZIP, GZIP 등에서 핵심적인 역할을 한다.4 이 기술들은 텍스트나 프로그램 파일처럼 단 하나의 비트 손실도 허용되지 않는 데이터의 중복성을 정보 엔트로피 원리에 기반하여 효과적으로 제거한다.
반면, 이미지(JPEG), 오디오(MP3), 비디오(MPEG) 파일에서 널리 사용되는 손실 압축(lossy compression) 기술은 인간의 지각 능력의 한계를 이용하여 중요하지 않은 정보를 과감히 제거함으로써 훨씬 높은 압축률을 달성한다.17 이 과정 역시 정보 이론의 한 분야인 부호율-변형 이론(Rate-Distortion Theory)에 깊이 뿌리내리고 있다. 이 이론은 일정 수준의 왜곡(distortion)을 허용할 때, 데이터를 얼마나 압축할 수 있는지에 대한 이론적 한계를 제시하며, 손실 압축 알고리즘 설계의 기본 지침이 된다. 이처럼 데이터 압축 기술은 한정된 저장 공간과 네트워크 대역폭을 효율적으로 사용하게 함으로써, 인터넷을 통한 멀티미디어 콘텐츠의 유통을 가능하게 한 일등 공신이라 할 수 있다.51
섀넌은 2차 세계대전 중 암호학 연구에 직접 참여한 경험을 바탕으로, 정보 이론을 암호 시스템의 안전성을 분석하는 수학적 도구로 활용했다.1 그의 1949년 논문 “보안 시스템의 통신 이론(Communication Theory of Secrecy Systems)”은 현대 암호학의 이론적 기틀을 마련했다.
이 논문에서 섀넌은 ‘완전 보안(Perfect Secrecy)’이라는 개념을 정보 이론적으로 엄밀하게 정의했다. 완전 보안이란, 공격자가 암호문을 확보하더라도 평문에 대한 어떠한 추가 정보도 얻을 수 없는 상태를 의미한다.54 그는 이러한 절대적 안전성이 오직 키의 엔트로피(불확실성)가 평문의 엔트로피보다 크거나 같을 때만 달성될 수 있음을 증명했다. 그리고 이를 만족하는 유일한 암호 방식이 바로 ‘일회용 패드(One-Time Pad)’임을 보였다.1
또한, 섀넌은 현실적으로 구현 가능한 안전한 암호 시스템이 갖춰야 할 두 가지 핵심 설계 원칙으로 ‘확산(Diffusion)’과 ‘혼란(Confusion)’을 제시했다.55 확산은 평문의 통계적 특성(예: 특정 문자의 빈도)을 암호문 전체에 넓게 분산시켜 통계적 분석을 어렵게 만드는 원리다. 혼란은 키와 암호문 사이의 관계를 최대한 복잡하고 비선형적으로 만들어, 암호문으로부터 키를 추론하기 어렵게 만드는 원리다.54 이 두 원칙은 오늘날 인터넷 뱅킹과 같은 보안 통신에 널리 사용되는 AES(Advanced Encryption Standard)와 같은 현대 블록 암호 설계의 기본 철학으로 자리 잡고 있다.53
정보 이론의 개념들은 인공지능 및 기계학습 분야에서 모델을 설계하고, 학습하며, 평가하는 데 있어 강력하고 보편적인 언어와 프레임워크를 제공한다.
이처럼 통신 공학의 ‘오류 최소화’, 데이터 압축의 ‘길이 최소화’, 기계학습의 ‘예측 오차 최소화’ 등 겉보기에는 서로 다른 분야의 최적화 문제들이 정보 이론의 관점에서는 ‘불확실성 최소화’라는 하나의 공통된 프레임워크로 통합된다. 엔트로피, 상호 정보량, 교차 엔트로피와 같은 척도들은 이러한 다양한 형태의 불확실성을 정량화하고 최소화하는 보편적인 언어와 수학적 도구를 제공한다. 이것이 정보 이론이 특정 공학 분야를 넘어 여러 학문 분야에 걸쳐 깊고 지속적인 영향을 미치고 있는 근본적인 이유이다.
클로드 섀넌이 정립한 고전적 정보 이론은 디지털 시대를 여는 데 결정적인 역할을 했지만, 그 이론적 틀이 모든 현상을 설명할 수 있는 것은 아니다. 이 장에서는 고전 정보 이론이 가진 근본적인 한계를 비판적으로 고찰하고, 이를 극복하거나 새로운 차원으로 확장하려는 현대 과학의 다양한 시도들을 탐구한다. 정보의 의미 문제에서부터 물리학과의 융합, 양자 세계로의 확장, 그리고 생명 현상에 대한 적용에 이르기까지, 정보 이론의 현재와 미래를 조망한다.
섀넌 정보 이론의 가장 근본적인 한계는 메시지의 ‘의미(semantics)’를 다루지 않는다는 점이다. 섀넌 스스로 “메시지가 갖는 의미와 같은 의미론적 측면은 공학적 문제와 무관하다”고 선을 그었듯이, 그의 이론은 정보의 양을 확률적 희소성으로만 정의할 뿐, 그 내용이 전달하는 가치나 진실성, 맥락은 전혀 고려하지 않는다.13 예를 들어, 동일한 글자 수와 출현 빈도를 갖는 메시지 “I love you”와 무작위 알파벳 나열인 “U voye oli”는 섀넌 정보량 측면에서는 동일할 수 있지만, 인간에게 전달하는 의미의 차이는 극명하다.58
이러한 한계는 정보 이론이 인간의 언어, 지식, 의식과 같은 고차원적인 현상을 온전히 설명하는 데 어려움을 겪는 이유가 된다.14 이 문제를 해결하기 위해, 섀넌의 이론이 발표된 직후부터 철학자와 논리학자들은 의미를 포함하는 정보 이론을 구축하고자 노력했다. 대표적으로 루돌프 카르나프(Rudolf Carnap)와 예호수아 바르-힐렐(Yehoshua Bar-Hillel)은 ‘논리적 확률’ 개념을 도입하여 명제가 배제하는 가능세계의 수가 많을수록 의미론적 정보량이 크다고 정의하는 의미론적 정보 이론(Semantic Information Theory)을 제안했다.60 그러나 이러한 시도들은 여전히 정보의 진실성 문제나 맥락 의존성을 다루는 데 한계를 보이며, 섀넌 이론과 같은 보편성과 공학적 유용성을 확보하지는 못했다. 오늘날 6G 통신과 인공지능 분야에서 ‘의미 통신(semantic communication)’에 대한 연구가 활발히 진행되고 있으며, 이는 섀넌의 한계를 극복하려는 현대적 도전이라 할 수 있다.60
섀넌 엔트로피의 수학적 형태는 통계 역학에서 사용하는 깁스 엔트로피(Gibbs entropy) 공식과 놀라울 정도로 유사하다.15
섀넌이 이 공식을 발견했을 때, 동료 수학자 존 폰 노이만(John von Neumann)이 “아무도 엔트로피가 무엇인지 모르니 논쟁에서 항상 유리할 것”이라며 ‘엔트로피’라는 이름을 사용할 것을 제안했다는 유명한 일화가 있을 정도로 두 개념의 형식적 유사성은 명백하다.
두 엔트로피는 모두 시스템이 가질 수 있는 미시적 상태(microstate)의 수, 즉 불확실성이나 무질서도와 관련이 있다는 점에서 개념적 유사성을 공유한다.62 열역학적 엔트로피가 높다는 것은 기체 분자들이 존재할 수 있는 위치와 운동량의 경우의 수가 많다는 것을 의미하며, 이는 정보 엔트로피가 높은 것이 정보원의 불확실성이 크다는 의미와 상통한다.
그러나 두 개념 사이에는 근본적인 차이점도 존재한다. 첫째, 정보 엔트로피는 어떤 확률 분포에든 적용할 수 있는 보편적이고 추상적인 수학적 개념인 반면, 열역학적 엔트로피는 물리 시스템의 상태를 기술하는 구체적인 물리량이며, 줄/켈빈(J/K)이라는 단위를 가진다.63 둘째, 정보 엔트로피는 관찰자의 지식 상태에 따른 주관적 불확실성을 나타낼 수 있지만, 열역학적 엔트로피는 시스템 고유의 객관적인 물리적 속성으로 간주된다. 이러한 차이에도 불구하고, 두 엔트로피의 깊은 연관성은 ‘정보는 물리적이다(Information is physical)’라는 현대 물리학의 중요한 통찰로 이어졌으며, 맥스웰의 도깨비(Maxwell’s demon)와 같은 사고 실험을 통해 정보와 에너지 사이의 근본적인 관계를 탐구하는 계기를 제공했다.
고전 정보 이론이 뉴턴 역학의 세계를 기반으로 한다면, 양자 정보 이론(Quantum Information Theory)은 정보의 개념을 양자 역학의 기묘한 세계로 확장한 것이다. 이 새로운 패러다임의 핵심은 정보의 기본 단위를 고전적인 ‘비트(bit)’에서 ‘큐비트(qubit)’로 대체한 데 있다.14
비트는 0 또는 1이라는 확정된 두 가지 상태 중 하나만을 가질 수 있지만, 큐비트는 양자역학적 ‘중첩(superposition)’ 원리에 따라 0과 1의 상태를 동시에 가질 수 있다.66 또한, 두 개 이상의 큐비트는 ‘얽힘(entanglement)’이라는 비고전적인 상관관계를 통해, 개별 큐비트의 상태와는 무관하게 전체 시스템이 하나의 통합된 상태로 존재할 수 있다.65
이러한 중첩과 얽힘이라는 독특한 특성을 정보 처리에 활용하면 고전적인 방식으로는 상상할 수 없는 일들이 가능해진다. 예를 들어, 쇼어의 소인수분해 알고리즘(Shor’s algorithm)은 양자 컴퓨터가 거대한 수의 소인수분해를 고전 컴퓨터보다 지수적으로 빠르게 수행할 수 있음을 보여주었으며, 이는 현대 암호 체계를 무력화할 수 있는 잠재력을 가진다.65 또한, 양자 암호 통신(Quantum Cryptography)은 얽힘 상태에 있는 광자 쌍을 이용하여 키를 분배함으로써, 도청 시도가 일어나는 즉시 양자 상태가 붕괴되어 도청 사실을 감지할 수 있게 하는, 원리적으로 완벽한 보안을 제공한다.67 양자 시스템의 정보량은 폰 노이만 엔트로피(von Neumann entropy)라는 척도를 통해 측정되며, 이는 섀넌 엔트로피를 양자 상태로 일반화한 개념이다.69
정보 이론은 복잡계(complex systems)를 분석하는 강력하고 보편적인 언어를 제공하며, 특히 뇌와 같은 생물학적 정보 처리 시스템을 이해하는 데 활발히 적용되고 있다.
이러한 확장적 적용은 정보 이론이 단순한 통신 효율성 계산 도구를 넘어, 복잡한 시스템의 작동 원리를 분석하고 그 본질을 탐구하는 보편적인 분석 철학이자 과학적 언어로 진화하고 있음을 보여준다. 초기 정보 이론이 “얼마나 많은 정보를 보낼 수 있는가?”와 같이 ‘양(quantity)’에 대한 질문에 답했다면, 현대의 응용 분야에서는 “뇌는 정보를 어떻게 부호화하는가?”, “네트워크의 구조는 정보 흐름에 어떤 영향을 미치는가?”와 같이 시스템의 작동 ‘방식’과 ‘구조’를 이해하는 도구로, 더 나아가 “의식이란 무엇인가?”와 같은 근본적인 질문에 대한 ‘설명 원리’로 그 지평을 넓혀가고 있다.
클로드 섀넌이 1948년 제시한 정보 이론은 지난 70여 년 동안 과학과 기술의 지형을 근본적으로 바꾸어 놓았다. 추상적이었던 ‘정보’라는 개념에 수학적 질서를 부여함으로써, 그는 디지털 통신, 데이터 저장, 컴퓨터 과학, 그리고 인공지능에 이르기까지 현대 기술 문명을 떠받치는 이론적 기둥을 세웠다.17 정보원 부호화 정리는 데이터 압축 기술의 이론적 한계를 제시하며 ZIP과 MP3 같은 기술의 탄생을 이끌었고, 채널 부호화 정리는 잡음 속에서도 신뢰성 있는 통신이 가능하다는 희망을 주며 5G 이동통신과 심우주 탐사에 사용되는 오류 정정 부호의 개발을 촉진했다.3 섀넌-하틀리 정리는 모든 통신 시스템 설계자가 따라야 할 북극성과 같은 지표가 되었다.
정보 이론의 영향력은 공학의 영역에만 머무르지 않았다. 엔트로피라는 개념은 물리학, 생물학, 경제학, 신경과학 등 다양한 학문 분야에 스며들어 복잡한 시스템의 불확실성과 조직화 원리를 이해하는 보편적인 분석 도구로 자리 잡았다.14 기계학습 모델은 교차 엔트로피를 최소화하며 학습하고, 암호학은 완전 보안의 개념을 정보 이론에서 빌려왔다.
그러나 섀넌이 시작한 혁명은 아직 끝나지 않았다. 고전 정보 이론은 메시지의 ‘의미’라는 거대한 산을 의도적으로 비켜갔으며, 이는 인공지능이 인간 수준의 소통을 이해하기 위해 넘어야 할 중요한 과제로 남아있다. 또한, 정보의 기본 단위를 큐비트로 확장한 양자 정보 이론은 컴퓨팅과 통신에 또 다른 패러다임 전환을 예고하고 있으며, 뇌의 작동 원리를 정보 처리의 관점에서 완전히 해독하려는 신경과학의 도전 역시 현재 진행형이다.
결론적으로, 정보 이론은 완성된 이론이 아니라 끊임없이 진화하고 확장하는 살아있는 학문이다. 섀넌이 던진 근본적인 질문들은 여전히 유효하며, 그가 제공한 수학적 도구들은 미지의 영역을 탐험하는 새로운 세대의 과학자와 공학자들에게 영감을 주고 있다. 정보 이론은 과거 디지털 혁명의 청사진이었으며, 현재 인공지능과 양자 시대의 언어이고, 미래의 과학적 발견과 기술 혁신을 이끌어갈 ‘끝나지 않은 혁명’으로 계속될 것이다.
| 천재 수학자가 밝혀낸 ‘정보’의 비밀 | 10분만에 정보 이론 이해하기 - YouTube, 8월 3, 2025에 액세스, https://www.youtube.com/watch?v=d3iyDP3_AjU |
| [Machine Learning] Feature Selection | 특징 선택 - Archive - 티스토리, 8월 3, 2025에 액세스, https://dad-rock.tistory.com/713 |
| 양자 정보 이론과 양자 컴퓨팅의 발전 | PDF - Scribd, 8월 3, 2025에 액세스, https://www.scribd.com/document/842164897/%EC%96%91%EC%9E%90-%EC%A0%95%EB%B3%B4-%EC%9D%B4%EB%A1%A0%EA%B3%BC-%EC%96%91%EC%9E%90-%EC%BB%B4%ED%93%A8%ED%8C%85%EC%9D%98-%EB%B0%9C%EC%A0%84 |