7.29 정보 이론적 학습 한계: 데이터 처리 부등식(Data Processing Inequality)
1. 데이터 처리 부등식의 진술
1.1 마르코프 연쇄와 부등식
세 확률 변수 X, Y, Z가 마르코프 연쇄(Markov chain) X \to Y \to Z를 형성하면, 즉 Z가 Y가 주어졌을 때 X와 조건부 독립이면(p(z \vert x, y) = p(z \vert y)), 다음의 데이터 처리 부등식(Data Processing Inequality, DPI)이 성립한다:
I(X; Z) \leq I(X; Y)
등호는 X \to Y \to Z가 충분 통계량(sufficient statistic) 조건 I(X; Y) = I(X; Z)를 만족할 때, 즉 Z가 X에 관해 Y와 동일한 정보를 보존할 때에만 성립한다.
1.2 증명
상호 정보량의 연쇄 법칙과 조건부 상호 정보량의 비음성으로부터 증명된다:
I(X; Y, Z) = I(X; Z) + I(X; Y \vert Z) = I(X; Y) + I(X; Z \vert Y)
마르코프 성질 X \to Y \to Z에 의해 I(X; Z \vert Y) = 0이므로:
I(X; Z) + I(X; Y \vert Z) = I(X; Y)
I(X; Y \vert Z) \geq 0이므로 I(X; Z) \leq I(X; Y)이다.
2. 핵심적 의미
2.1 정보 비생성 원리
데이터 처리 부등식의 핵심적 의미는 데이터의 처리(가공)에 의해 정보가 생성될 수 없다는 것이다. Y로부터 Z를 생성하는 처리 과정이 결정론적이든 확률적이든, 처리 결과 Z가 원래 데이터 X에 대해 가지는 정보량은 처리 이전의 Y가 가지는 정보량을 초과할 수 없다.
이 원리는 열역학 제2법칙의 정보론적 유사체이다. 고립계에서 엔트로피가 증가하듯, 데이터 처리 과정에서 관련 정보는 감소하거나 유지될 뿐 증가할 수 없다.
2.2 마르코프 연쇄의 반복 적용
마르코프 연쇄 X \to Y_1 \to Y_2 \to \cdots \to Y_k에 대해 DPI를 반복 적용하면:
I(X; Y_k) \leq I(X; Y_{k-1}) \leq \cdots \leq I(X; Y_1) \leq I(X; X) = H(X)
처리 단계가 많을수록 원래 데이터에 대한 정보량은 단조 감소한다. 각 처리 단계에서 정보가 비가역적으로 손실될 수 있으며, 한번 손실된 정보는 후속 처리에 의해 복구할 수 없다.
3. 기계 학습에서의 함의
3.1 학습의 정보론적 한계
기계 학습에서 학습 과정은 다음의 마르코프 연쇄로 모형화할 수 있다:
\theta \to D \to \hat{\theta}(D)
여기서 \theta는 참 매개변수, D는 훈련 데이터, \hat{\theta}는 학습된 매개변수이다. DPI에 의해:
I(\theta; \hat{\theta}) \leq I(\theta; D)
학습 알고리즘이 참 매개변수에 대해 획득할 수 있는 정보량은 훈련 데이터가 참 매개변수에 대해 포함하는 정보량을 초과할 수 없다. 이는 어떠한 영리한 학습 알고리즘도 데이터에 없는 정보를 무에서 생성할 수 없음을 의미하며, 학습의 근본적 한계를 규정한다.
3.2 표현 학습에서의 병목
심층 신경망의 각 층을 T_l (l = 1, 2, \ldots, L)로 표기하면, 순전파(forward pass)는 마르코프 연쇄를 형성한다:
Y \to X \to T_1 \to T_2 \to \cdots \to T_L \to \hat{Y}
DPI에 의해:
I(Y; \hat{Y}) \leq I(Y; T_L) \leq \cdots \leq I(Y; T_1) \leq I(Y; X)
각 층의 처리에 의해 목표 변수 Y에 대한 정보는 감소할 수 있다. 이 관찰은 정보 병목(information bottleneck) 이론의 기초가 된다: 학습의 목표는 입력에 대한 불필요한 정보를 최대한 압축(I(X; T) 최소화)하면서 목표에 대한 관련 정보를 최대한 보존(I(Y; T) 최대화)하는 것이다.
3.3 특징 추출의 한계
특징 추출(feature extraction) 함수 f: \mathcal{X} \to \mathcal{Z}가 결정론적이면, X \to Z = f(X)는 마르코프 연쇄의 특수한 경우이며:
I(Y; Z) \leq I(Y; X)
특징 추출에 의해 목표 변수에 대한 정보가 손실될 수 있다. 충분 통계량(sufficient statistic) Z가 존재하면 I(Y; Z) = I(Y; X)이 달성되어 정보 손실이 없으나, 일반적 특징 추출에서는 정보 손실이 불가피하다. DPI는 어떤 특징이 목표에 대해 보존할 수 있는 정보의 상한을 규정한다.
4. 통신 이론에서의 적용
4.1 채널 연결과 용량 감소
두 채널 (\mathcal{X}, p_1(y \vert x), \mathcal{Y})와 (\mathcal{Y}, p_2(z \vert y), \mathcal{Z})를 직렬로 연결하면, 전체 채널은 마르코프 연쇄 X \to Y \to Z를 형성한다. DPI에 의해:
C_{XZ} \leq \min(C_{XY}, C_{YZ})
직렬 연결된 채널의 용량은 개별 채널 용량의 최솟값 이하이다. 채널을 거칠수록 정보가 손실되며, 전체 시스템의 용량은 가장 약한 고리에 의해 제한된다.
4.2 후처리에 의한 상호 정보량 비증가
채널 출력 Y에 임의의 후처리(post-processing) g를 적용하여 Z = g(Y)를 생성하면:
I(X; Z) \leq I(X; Y)
이는 복호기의 출력이 채널 출력보다 더 많은 정보를 가질 수 없음을 의미하며, 복호기 설계의 이론적 한계를 규정한다.
5. 충분 통계량과 등호 조건
5.1 등호의 조건
I(X; Z) = I(X; Y)가 성립하는 조건은 Z가 X에 대한 Y의 충분 통계량인 경우이다. 이는 X \to Z \to Y도 마르코프 연쇄를 형성함을 의미하며, Z가 Y에 포함된 X에 관한 모든 정보를 보존함을 뜻한다.
통계학에서 충분 통계량은 데이터를 요약하되 매개변수에 관한 정보를 전혀 손실하지 않는 통계량이며, DPI의 등호 조건은 이 개념의 정보론적 특성화를 제공한다.
5.2 가역 처리
처리 함수 g가 가역(invertible)이면, Y를 Z = g(Y)로부터 완전히 복원할 수 있으므로 I(X; Z) = I(X; Y)이다. 가역 처리는 정보를 손실하지 않는다. 비가역 처리만이 정보 손실을 유발한다.
6. 결론
데이터 처리 부등식은 정보 처리 과정에서의 정보 비생성 원리를 수학적으로 정식화한 근본적 부등식이다. 이 부등식은 기계 학습에서 학습 알고리즘의 성능 상한, 표현 학습에서 정보 병목의 이론적 기초, 통신 이론에서 채널 연결의 용량 한계, 통계학에서 충분 통계량의 정보론적 특성화 등 광범위한 영역에서 핵심적 역할을 수행한다. DPI는 “데이터에 없는 정보는 어떠한 처리에 의해서도 생성할 수 없다“는 원리를 관통하며, 이는 정보 이론이 데이터 과학 전반에 부과하는 가장 근본적인 제약 중 하나이다.