7.25 채널 용량(Channel Capacity)의 정의와 최대화 조건

1. 채널 용량의 형식적 정의

1.1 이산 무기억 채널에서의 정의

이산 무기억 채널(DMC) $(\mathcal{X}, p(y \vert x), \mathcal{Y})$ 의 채널 용량(channel capacity)은 입력 분포 $p(x)$ 에 대한 상호 정보량 $I(X; Y)$ 의 최대값으로 정의된다:

$C = \max_{p(x)} I(X; Y) = \max_{p(x)} \left[\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x) p(y \vert x) \log_2 \frac{p(y \vert x)}{\sum_{x'} p(x') p(y \vert x')}\right]$

여기서 최대화는 입력 알파벳 $\mathcal{X}$ 위의 모든 확률 분포 $p(x)$ 에 대해 수행된다. 채널의 전이 확률 $p(y \vert x)$ 는 고정되어 있으므로, 채널 용량은 채널의 고유한 특성이다.

1.2 조작적 의미

잡음 채널 부호화 정리에 의해, 채널 용량은 다음의 조작적 의미를 가진다:

$R < C$ 인 모든 전송률 $R$ 은 달성 가능하다 (오류 확률을 임의로 줄일 수 있다).
$R > C$ 인 전송률은 달성 불가능하다 (오류 확률이 0으로 수렴하지 않는다).

따라서 $C$ 는 채널을 통해 신뢰성 있게 전송할 수 있는 정보의 최대 전송률이다.

2. 최대화 문제의 수학적 구조

2.1 볼록 최적화

상호 정보량 $I(X; Y)$ 는 입력 분포 $p(x)$ 에 대해 오목 함수(concave function)이다. 이는 다음으로 확인된다:

$I(X; Y) = H(Y) - H(Y \vert X)$ 에서, $H(Y \vert X) = \sum_x p(x) H(Y \vert X = x)$ 는 $p(x)$ 에 대해 선형이고, $H(Y) = H(\sum_x p(x) p(y \vert x))$ 는 $p(x)$ 에 대해 오목이다 (엔트로피의 오목성). 따라서 $I(X; Y) = H(Y) - H(Y \vert X)$ 는 오목에서 선형을 뺀 것이므로 오목이다.

입력 분포 $p(x)$ 의 제약 집합(확률 단체, probability simplex)은 볼록이고, 목적 함수가 오목이므로, 채널 용량 최대화 문제는 볼록 최적화 문제이다. 따라서 극대가 전역 최대이며, 최적 입력 분포가 존재한다.

2.2 KKT 조건

최적 입력 분포 $p^*(x)$ 는 카루시-쿤-터커(Karush-Kuhn-Tucker, KKT) 조건을 만족한다. 라그랑주 함수를 구성하고 최적 조건을 유도하면, 최적 입력 분포에서 다음이 성립한다:

$I(x; Y) = \sum_y p(y \vert x) \log_2 \frac{p(y \vert x)}{p^*(y)} = C \quad \text{for all } x \text{ with } p^*(x) > 0$

$I(x; Y) \leq C \quad \text{for all } x \text{ with } p^*(x) = 0$

여기서 $p^*(y) = \sum_x p^*(x) p(y \vert x)$ 는 최적 입력 분포에 의해 유도되는 출력 분포이다. 이 조건의 의미는, 최적 분포에서 양의 확률을 부여받는 모든 입력 기호가 동일한 상호 정보량(= 채널 용량)을 기여하며, 확률이 0인 기호는 그보다 작거나 같은 상호 정보량을 기여한다는 것이다.

3. 대칭 채널의 채널 용량

3.1 대칭 채널의 정의

채널의 전이 확률 행렬의 각 행이 동일한 확률 값들의 순열(permutation)이고, 각 열도 동일한 확률 값들의 순열인 채널을 대칭 채널(symmetric channel)이라 한다. 보다 일반적으로, 열의 합이 모두 동일한 약 대칭 채널(weakly symmetric channel)이 정의된다.

3.2 대칭 채널의 용량

대칭 채널에서 균등 입력 분포 $p(x) = 1/\lvert\mathcal{X}\rvert$ 가 용량을 달성한다. 이때:

$C = \log_2 \lvert\mathcal{X}\rvert - H(\text{전이 확률 행렬의 한 행})$

예를 들어, 이진 대칭 채널(BSC)에서:

$C = 1 - H_b(p) = 1 + p\log_2 p + (1-p)\log_2(1-p)$

4. 블라호프-아리모토 알고리즘

4.1 수치적 계산

일반적 채널에서 채널 용량의 해석적 계산이 불가능한 경우, 블라호프-아리모토 알고리즘(Blahut-Arimoto algorithm)이 수치적 계산에 사용된다. 이 알고리즘은 리처드 블라호프(Richard Blahut, 1972)와 스구루 아리모토(Suguru Arimoto, 1972)가 독립적으로 제안하였다.

알고리즘은 입력 분포 $p(x)$ 와 보조 분포 $q(x \vert y)$ 를 교대로 갱신하는 반복법이다:

E-단계: $q^{(t)}(x \vert y) = \frac{p^{(t)}(x) p(y \vert x)}{\sum_{x'} p^{(t)}(x') p(y \vert x')}$

M-단계: $p^{(t+1)}(x) = \frac{\exp\left(\sum_y p(y \vert x) \log q^{(t)}(x \vert y)\right)}{\sum_{x'} \exp\left(\sum_y p(y \vert x') \log q^{(t)}(x' \vert y)\right)}$

이 알고리즘은 상호 정보량이 단조 증가하며 채널 용량에 수렴함이 보장된다. 수렴 속도는 지수적이다.

5. 연속 채널의 채널 용량

5.1 가산 백색 가우시안 잡음 채널

연속 입출력 채널의 가장 기본적인 모형인 AWGN 채널에서 $Y = X + Z$ , $Z \sim \mathcal{N}(0, N)$ 이고 전력 제약 $E[X^2] \leq S$ 가 주어진다. 채널 용량은:

$C = \frac{1}{2} \log_2\left(1 + \frac{S}{N}\right) \quad \text{bits per channel use}$

최적 입력 분포는 $X \sim \mathcal{N}(0, S)$ 이다. 가우시안 입력이 최적인 이유는, 주어진 분산 제약 하에서 차분 엔트로피를 최대화하는 분포가 가우시안이기 때문이다.

5.2 대역 제한 AWGN 채널

대역폭 $W$ Hz, 신호 전력 $S$ 와트, 잡음 전력 스펙트럼 밀도 $N_0/2$ 인 연속 시간 AWGN 채널의 용량은 섀넌-하틀리 공식에 의해:

$C = W \log_2\left(1 + \frac{S}{N_0 W}\right) \quad \text{bits per second}$

$W \to \infty$ 의 극한에서 $C \to S/(N_0 \ln 2) = S \log_2 e / N_0$ 으로 유한한 값에 수렴한다. 이는 무한 대역폭이 주어져도 전력 제약에 의해 용량이 유한하게 제한됨을 의미한다.

6. 채널 용량의 성질

6.1 연속성

채널 용량은 전이 확률 $p(y \vert x)$ 에 대해 연속이다. 채널 특성의 미세한 변화가 용량의 불연속적 변화를 야기하지 않는다.

6.2 비음성

$C \geq 0$ 이며, 등호는 $X$ 와 $Y$ 가 모든 입력 분포에 대해 독립인 경우에만 성립한다. 이는 채널이 입력에 관한 정보를 전혀 전달하지 않는 경우에 해당한다.

6.3 상한

$C \leq \min(\log_2 \lvert\mathcal{X}\rvert, \log_2 \lvert\mathcal{Y}\rvert)$ 이다. 채널 용량은 입력 또는 출력 알파벳의 크기에 의해 상한이 설정된다.

7. 결론

채널 용량은 통신 채널의 가장 근본적인 특성으로, 입력 분포에 대한 상호 정보량의 최대화로 정의된다. 오목 최적화 문제의 구조 덕분에 전역 최대가 보장되며, KKT 조건에 의한 해석적 특성화와 블라호프-아리모토 알고리즘에 의한 수치적 계산이 가능하다. 채널 용량은 잡음 채널 부호화 정리에 의해 신뢰성 있는 통신의 정확한 한계로서의 조작적 의미를 획득하며, 이는 통신 시스템 설계의 이론적 목표를 규정한다.