7.5 정보의 정량적 정의: 사건의 자기 정보량(Self-Information)

1. 정보 측정의 근본 질문

정보를 수학적으로 다루기 위해서는 먼저 “특정 사건의 발생이 얼마나 많은 정보를 전달하는가“라는 질문에 대한 정량적 답을 제시해야 한다. 일상적 직관에서 정보란 메시지의 의미, 유용성, 또는 참신성과 관련되는 것으로 이해되나, 이러한 속성은 주관적이며 수학적 정량화가 불가능하다. 클로드 섀넌(Claude Shannon)은 정보의 양을 사건의 발생 확률과 연결함으로써, 의미와 무관한 순수 구조적 정보 척도를 확립하였다. 이 척도가 자기 정보량(self-information)이다.

2. 자기 정보량의 공리적 도출

2.1 정보 측정 함수에 대한 요구 조건

확률 $p$ 를 가지는 사건 $x$ 의 정보량을 측정하는 함수 $I(x) = f(p(x))$ 가 만족해야 할 합리적 요구 조건은 다음과 같이 정리된다:

요구 조건 1 (단조 감소성): 발생 확률이 낮은 사건일수록 더 많은 정보를 전달한다. 즉, $p(x_1) < p(x_2)$ 이면 $I(x_1) > I(x_2)$ 이다. 직관적으로, 예기치 않은 사건이 더 놀랍고, 놀라움의 정도가 곧 정보량이다.

요구 조건 2 (비음성): 정보량은 음이 아니다. $I(x) \geq 0$ for all $x$ . 사건의 관측이 정보를 소멸시키는 것은 부자연스럽다.

요구 조건 3 (확실한 사건의 정보량): 확률 1로 발생하는 사건은 정보를 전달하지 않는다. $p(x) = 1$ 이면 $I(x) = 0$ 이다. 이미 확실히 알고 있는 사실의 확인은 불확실성을 해소하지 않기 때문이다.

요구 조건 4 (가법성): 두 독립 사건 $x$ , $y$ 의 동시 발생이 전달하는 정보량은 각 사건의 정보량의 합이다. $x$ 와 $y$ 가 독립이면:

$I(x, y) = I(x) + I(y)$

이 요구 조건은 정보의 측정이 물리적 측정량(길이, 질량 등)과 유사한 가산적 구조를 가져야 한다는 요청이다.

요구 조건 5 (연속성): $f(p)$ 는 $p$ 에 대해 연속이다. 확률의 미세한 변화가 정보량의 불연속적 도약을 초래하지 않아야 한다.

2.2 로그 함수의 유일성

위의 요구 조건을 모두 만족하는 함수는 로그 함수의 상수배에 한하여 유일하다. 이를 증명한다.

요구 조건 4에 의해, 독립 사건 $x$ , $y$ 에 대해 $f(p(x) \cdot p(y)) = f(p(x)) + f(p(y))$ 이다. $p = p(x)$ , $q = p(y)$ 로 놓으면 함수 방정식:

$f(pq) = f(p) + f(q) \quad \text{for all } p, q \in (0, 1]$

을 얻는다. 이는 코시 함수 방정식(Cauchy functional equation)의 곱셈 형태이다. $f$ 가 연속(요구 조건 5)이라는 조건 하에서, 이 함수 방정식의 유일한 해는:

$f(p) = -k \log p \quad (k > 0)$

이다. 상수 $k > 0$ 은 비음성 조건(요구 조건 2)과 단조 감소 조건(요구 조건 1)으로부터 결정되며, 로그의 밑 선택에 의해 흡수된다. 확실한 사건에 대해 $f(1) = -k \log 1 = 0$ 이므로 요구 조건 3도 자동으로 충족된다.

따라서 자기 정보량의 정의는 공리적 요구 조건에 의해 본질적으로 유일하게 결정된다.

3. 자기 정보량의 정의

3.1 형식적 정의

확률 $p(x)$ 를 가지는 사건 $x$ 의 자기 정보량(self-information)은 다음과 같이 정의된다:

$I(x) = -\log_b p(x) = \log_b \frac{1}{p(x)}$

여기서 $b$ 는 로그의 밑이며, 단위를 결정한다:

로그의 밑	단위	기호
$b = 2$	비트(bit)	bit
$b = e$	냇(nat)	nat
$b = 10$	하틀리(hartley)	Hart

정보 이론과 컴퓨터 과학에서는 밑 2가 가장 널리 사용되며, 통계역학 및 수학적 분석에서는 자연 로그(밑 $e$ )가 편리하다. 밑의 변환은 상수 인수에 의해 수행된다:

$\log_2 p = \frac{\ln p}{\ln 2} = \frac{\log_{10} p}{\log_{10} 2}$

3.2 기본적 성질

자기 정보량은 다음의 성질을 만족한다:

성질 1: $I(x) \geq 0$ for all $x$ . 등호는 $p(x) = 1$ 일 때에만 성립한다.

성질 2: $p(x) \to 0^+$ 이면 $I(x) \to \infty$ 이다. 극히 드문 사건의 관측은 극히 큰 정보를 전달한다.

성질 3: $I$ 는 $p$ 에 대해 순감소하고 볼록(convex)하다. $p$ 가 감소함에 따라 $I$ 는 증가하되, 그 증가율은 점점 커진다:

$\frac{dI}{dp} = -\frac{1}{p \ln b} < 0, \quad \frac{d^2 I}{dp^2} = \frac{1}{p^2 \ln b} > 0$

성질 4 (독립 사건의 가법성): $x$ 와 $y$ 가 독립이면:

$I(x, y) = -\log_b p(x, y) = -\log_b p(x)p(y) = -\log_b p(x) - \log_b p(y) = I(x) + I(y)$

4. 구체적 사례를 통한 이해

4.1 공정한 동전 던지기

공정한 동전(fair coin)에서 앞면과 뒷면의 확률은 각각 $p = 1/2$ 이다. 각 결과의 자기 정보량은:

$I(\text{앞면}) = I(\text{뒷면}) = -\log_2 \frac{1}{2} = 1 \text{ bit}$

따라서 공정한 동전의 한 번 던지기는 정확히 1비트의 정보를 전달한다. 이는 비트의 정의 자체와 정합적이다: 1비트는 두 가지 동등하게 가능한 결과 중 하나를 식별하는 데 필요한 정보량이다.

4.2 공정한 주사위 던지기

공정한 6면 주사위에서 각 면의 확률은 $p = 1/6$ 이다:

$I(\text{특정 면}) = -\log_2 \frac{1}{6} = \log_2 6 \approx 2.585 \text{ bits}$

6가지 결과 중 하나를 식별하는 데 약 2.585비트가 필요하다.

4.3 비균등 확률 분포

영어 텍스트에서 문자 ’e’의 출현 확률이 약 $p(e) \approx 0.127$ 이고 문자 ’z’의 출현 확률이 약 $p(z) \approx 0.00074$ 라 하면:

$I(e) = -\log_2 0.127 \approx 2.98 \text{ bits}$

$I(z) = -\log_2 0.00074 \approx 10.40 \text{ bits}$

빈번한 문자 ’e’의 출현은 약 3비트의 정보를 전달하는 반면, 드문 문자 ’z’의 출현은 약 10.4비트의 정보를 전달한다. 이 차이는 직관적으로 자연스럽다: 영어 텍스트를 읽을 때 ’e’의 출현은 놀랍지 않으나, ’z’의 출현은 상대적으로 예기치 않은 사건이다.

5. 자기 정보량과 최적 부호 길이의 관계

자기 정보량은 최적 이진 부호화에서 해당 사건에 할당되어야 할 부호어 길이의 이론적 하한이라는 부호화론적 해석을 가진다. 사건 $x$ 에 할당하는 이진 부호어의 길이를 $l(x)$ 라 할 때, 유일 복호 가능한 부호가 존재하기 위한 크래프트 부등식(Kraft inequality)은 $\sum_x 2^{-l(x)} \leq 1$ 이다.

평균 부호 길이 $\bar{l} = \sum_x p(x) l(x)$ 를 최소화하는 최적 부호어 길이는 $l^*(x) = -\log_2 p(x) = I(x)$ 이다. 그러나 부호어 길이는 정수여야 하므로, 실제 최적 부호어 길이는 $l(x) = \lceil -\log_2 p(x) \rceil$ 이다. 산술 부호화(arithmetic coding)는 이 정수 제약을 사실상 극복하여, 평균 부호 길이를 엔트로피에 임의로 가깝게 만들 수 있다.

이 관계는 자기 정보량의 조작적 의미(operational meaning)를 제공한다: $I(x)$ 는 사건 $x$ 의 발생을 기록하는 데 필요한 이진 자릿수의 이상적 수이다.

6. 조건부 자기 정보량

사건 $y$ 가 관측된 조건 하에서 사건 $x$ 의 조건부 자기 정보량(conditional self-information)은 조건부 확률에 기반하여 정의된다:

$I(x \vert y) = -\log_2 p(x \vert y)$

조건부 자기 정보량은 $y$ 를 이미 알고 있을 때 $x$ 의 관측이 제공하는 추가적 정보의 양을 측정한다. $x$ 와 $y$ 가 독립이면 $p(x \vert y) = p(x)$ 이므로 $I(x \vert y) = I(x)$ 이다. 즉, $y$ 의 관측이 $x$ 에 관한 정보를 제공하지 않는다.

$x$ 와 $y$ 가 양의 상관 관계를 가지면, $y$ 의 관측이 $x$ 의 발생 가능성을 높이므로 $p(x \vert y) > p(x)$ 이고, 따라서 $I(x \vert y) < I(x)$ 이다. 반대로, 음의 상관 관계에서는 $I(x \vert y) > I(x)$ 이다.

7. 상호 정보량과의 관계

개별 사건 수준에서의 점별 상호 정보량(pointwise mutual information, PMI)은 자기 정보량의 차이로 정의된다:

$\text{pmi}(x; y) = I(x) - I(x \vert y) = \log_2 \frac{p(x, y)}{p(x)p(y)}$

PMI는 사건 $y$ 의 관측이 사건 $x$ 에 관해 제공하는 정보의 양을 측정한다. $x$ 와 $y$ 가 독립이면 $\text{pmi}(x; y) = 0$ 이고, 양의 연관이면 $\text{pmi} > 0$ , 음의 연관이면 $\text{pmi} < 0$ 이다.

PMI는 자연어 처리에서 단어 간 연관성 측정에 널리 사용된다. 두 단어가 독립적 출현 빈도에서 기대되는 것보다 더 자주 함께 출현하면 양의 PMI를 가지며, 이는 해당 단어 쌍이 의미적 또는 통사적 연관을 가짐을 시사한다.

8. 자기 정보량의 이론적 의의

자기 정보량의 개념은 정보 이론 전체의 기초적 구성 요소이다. 엔트로피는 자기 정보량의 기댓값으로 정의되며, 상호 정보량, 조건부 엔트로피, 쿨백-라이블러 발산 등 정보 이론의 모든 핵심 척도는 자기 정보량으로부터 도출된다. 자기 정보량이 확률의 음의 로그라는 단순한 정의에서 출발하여, 정보의 측정, 데이터 압축의 한계, 채널 용량의 계산에 이르는 풍부한 이론 체계가 전개된다.

이 정의의 핵심적 통찰은, 정보를 불확실성의 해소로 동일시한 것이다. 사건의 발생 이전에 존재하던 불확실성이 사건의 관측에 의해 제거되며, 제거된 불확실성의 양이 곧 전달된 정보의 양이다. 이 관점은 정보의 의미론적 내용이나 실용적 가치와는 완전히 독립적이며, 바로 이 독립성이 정보 이론의 보편적 적용 가능성을 보장한다.