7.29 정보 이론적 학습 한계: 데이터 처리 부등식(Data Processing Inequality)

1. 데이터 처리 부등식의 진술

1.1 마르코프 연쇄와 부등식

세 확률 변수 $X$ , $Y$ , $Z$ 가 마르코프 연쇄(Markov chain) $X \to Y \to Z$ 를 형성하면, 즉 $Z$ 가 $Y$ 가 주어졌을 때 $X$ 와 조건부 독립이면( $p(z \vert x, y) = p(z \vert y)$ ), 다음의 데이터 처리 부등식(Data Processing Inequality, DPI)이 성립한다:

$I(X; Z) \leq I(X; Y)$

등호는 $X \to Y \to Z$ 가 충분 통계량(sufficient statistic) 조건 $I(X; Y) = I(X; Z)$ 를 만족할 때, 즉 $Z$ 가 $X$ 에 관해 $Y$ 와 동일한 정보를 보존할 때에만 성립한다.

1.2 증명

상호 정보량의 연쇄 법칙과 조건부 상호 정보량의 비음성으로부터 증명된다:

$I(X; Y, Z) = I(X; Z) + I(X; Y \vert Z) = I(X; Y) + I(X; Z \vert Y)$

마르코프 성질 $X \to Y \to Z$ 에 의해 $I(X; Z \vert Y) = 0$ 이므로:

$I(X; Z) + I(X; Y \vert Z) = I(X; Y)$

$I(X; Y \vert Z) \geq 0$ 이므로 $I(X; Z) \leq I(X; Y)$ 이다.

2. 핵심적 의미

2.1 정보 비생성 원리

데이터 처리 부등식의 핵심적 의미는 데이터의 처리(가공)에 의해 정보가 생성될 수 없다는 것이다. $Y$ 로부터 $Z$ 를 생성하는 처리 과정이 결정론적이든 확률적이든, 처리 결과 $Z$ 가 원래 데이터 $X$ 에 대해 가지는 정보량은 처리 이전의 $Y$ 가 가지는 정보량을 초과할 수 없다.

이 원리는 열역학 제2법칙의 정보론적 유사체이다. 고립계에서 엔트로피가 증가하듯, 데이터 처리 과정에서 관련 정보는 감소하거나 유지될 뿐 증가할 수 없다.

2.2 마르코프 연쇄의 반복 적용

마르코프 연쇄 $X \to Y_1 \to Y_2 \to \cdots \to Y_k$ 에 대해 DPI를 반복 적용하면:

$I(X; Y_k) \leq I(X; Y_{k-1}) \leq \cdots \leq I(X; Y_1) \leq I(X; X) = H(X)$

처리 단계가 많을수록 원래 데이터에 대한 정보량은 단조 감소한다. 각 처리 단계에서 정보가 비가역적으로 손실될 수 있으며, 한번 손실된 정보는 후속 처리에 의해 복구할 수 없다.

3. 기계 학습에서의 함의

3.1 학습의 정보론적 한계

기계 학습에서 학습 과정은 다음의 마르코프 연쇄로 모형화할 수 있다:

$\theta \to D \to \hat{\theta}(D)$

여기서 $\theta$ 는 참 매개변수, $D$ 는 훈련 데이터, $\hat{\theta}$ 는 학습된 매개변수이다. DPI에 의해:

$I(\theta; \hat{\theta}) \leq I(\theta; D)$

학습 알고리즘이 참 매개변수에 대해 획득할 수 있는 정보량은 훈련 데이터가 참 매개변수에 대해 포함하는 정보량을 초과할 수 없다. 이는 어떠한 영리한 학습 알고리즘도 데이터에 없는 정보를 무에서 생성할 수 없음을 의미하며, 학습의 근본적 한계를 규정한다.

3.2 표현 학습에서의 병목

심층 신경망의 각 층을 $T_l$ ( $l = 1, 2, \ldots, L$ )로 표기하면, 순전파(forward pass)는 마르코프 연쇄를 형성한다:

$Y \to X \to T_1 \to T_2 \to \cdots \to T_L \to \hat{Y}$

DPI에 의해:

$I(Y; \hat{Y}) \leq I(Y; T_L) \leq \cdots \leq I(Y; T_1) \leq I(Y; X)$

각 층의 처리에 의해 목표 변수 $Y$ 에 대한 정보는 감소할 수 있다. 이 관찰은 정보 병목(information bottleneck) 이론의 기초가 된다: 학습의 목표는 입력에 대한 불필요한 정보를 최대한 압축( $I(X; T)$ 최소화)하면서 목표에 대한 관련 정보를 최대한 보존( $I(Y; T)$ 최대화)하는 것이다.

3.3 특징 추출의 한계

특징 추출(feature extraction) 함수 $f: \mathcal{X} \to \mathcal{Z}$ 가 결정론적이면, $X \to Z = f(X)$ 는 마르코프 연쇄의 특수한 경우이며:

$I(Y; Z) \leq I(Y; X)$

특징 추출에 의해 목표 변수에 대한 정보가 손실될 수 있다. 충분 통계량(sufficient statistic) $Z$ 가 존재하면 $I(Y; Z) = I(Y; X)$ 이 달성되어 정보 손실이 없으나, 일반적 특징 추출에서는 정보 손실이 불가피하다. DPI는 어떤 특징이 목표에 대해 보존할 수 있는 정보의 상한을 규정한다.

4. 통신 이론에서의 적용

4.1 채널 연결과 용량 감소

두 채널 $(\mathcal{X}, p_1(y \vert x), \mathcal{Y})$ 와 $(\mathcal{Y}, p_2(z \vert y), \mathcal{Z})$ 를 직렬로 연결하면, 전체 채널은 마르코프 연쇄 $X \to Y \to Z$ 를 형성한다. DPI에 의해:

$C_{XZ} \leq \min(C_{XY}, C_{YZ})$

직렬 연결된 채널의 용량은 개별 채널 용량의 최솟값 이하이다. 채널을 거칠수록 정보가 손실되며, 전체 시스템의 용량은 가장 약한 고리에 의해 제한된다.

4.2 후처리에 의한 상호 정보량 비증가

채널 출력 $Y$ 에 임의의 후처리(post-processing) $g$ 를 적용하여 $Z = g(Y)$ 를 생성하면:

$I(X; Z) \leq I(X; Y)$

이는 복호기의 출력이 채널 출력보다 더 많은 정보를 가질 수 없음을 의미하며, 복호기 설계의 이론적 한계를 규정한다.

5. 충분 통계량과 등호 조건

5.1 등호의 조건

$I(X; Z) = I(X; Y)$ 가 성립하는 조건은 $Z$ 가 $X$ 에 대한 $Y$ 의 충분 통계량인 경우이다. 이는 $X \to Z \to Y$ 도 마르코프 연쇄를 형성함을 의미하며, $Z$ 가 $Y$ 에 포함된 $X$ 에 관한 모든 정보를 보존함을 뜻한다.

통계학에서 충분 통계량은 데이터를 요약하되 매개변수에 관한 정보를 전혀 손실하지 않는 통계량이며, DPI의 등호 조건은 이 개념의 정보론적 특성화를 제공한다.

5.2 가역 처리

처리 함수 $g$ 가 가역(invertible)이면, $Y$ 를 $Z = g(Y)$ 로부터 완전히 복원할 수 있으므로 $I(X; Z) = I(X; Y)$ 이다. 가역 처리는 정보를 손실하지 않는다. 비가역 처리만이 정보 손실을 유발한다.

6. 결론

데이터 처리 부등식은 정보 처리 과정에서의 정보 비생성 원리를 수학적으로 정식화한 근본적 부등식이다. 이 부등식은 기계 학습에서 학습 알고리즘의 성능 상한, 표현 학습에서 정보 병목의 이론적 기초, 통신 이론에서 채널 연결의 용량 한계, 통계학에서 충분 통계량의 정보론적 특성화 등 광범위한 영역에서 핵심적 역할을 수행한다. DPI는 “데이터에 없는 정보는 어떠한 처리에 의해서도 생성할 수 없다“는 원리를 관통하며, 이는 정보 이론이 데이터 과학 전반에 부과하는 가장 근본적인 제약 중 하나이다.