30.36 고유값 분해의 딥러닝 적용: 가중치 행렬 초기화와 안정성 분석

1. 딥러닝에서 고유값 분해의 역할

딥러닝에서 가중치 행렬의 고유값은 신호의 전파, 기울기의 흐름, 학습의 안정성을 지배하는 핵심 지표이다. 신경망의 각 층이 선형 변환 $x \mapsto Wx$ 를 포함하므로, 가중치 행렬 $W$ 의 고유값(또는 특이값)은 입력 신호가 층을 통과할 때의 확대/축소 비율을 결정한다.

2. 가중치 행렬 초기화와 스펙트럼 제어

2.1 초기화 문제의 본질

$L$ 개 층으로 구성된 심층 신경망에서 비선형성을 무시하면, 네트워크의 출력은

$y = W_L W_{L-1} \cdots W_1 x$

이다. 행렬 곱 $\prod_{l=1}^{L} W_l$ 의 특이값이 네트워크의 전체적 스케일링을 결정한다. 각 $W_l$ 의 특이값이 1보다 크면 $\prod W_l$ 의 특이값이 지수적으로 증가하고(신호 폭발), 1보다 작으면 지수적으로 감소한다(신호 소실).

따라서 가중치 초기화의 핵심 목표는 각 층의 가중치 행렬의 특이값이 1 근처에 분포하도록 제어하는 것이다.

2.2 Xavier/Glorot 초기화

Xavier 초기화(Glorot & Bengio, 2010)는 가중치를 다음 분포에서 추출한다:

$W_{ij} \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}} + n_{\text{out}}}\right)$

여기서 $n_{\text{in}}$ 과 $n_{\text{out}}$ 은 입력 및 출력 차원이다. 이 초기화에서 $W^T W$ 의 기대 고유값은 $2n_{\text{in}} / (n_{\text{in}} + n_{\text{out}}) \approx 1$ ( $n_{\text{in}} \approx n_{\text{out}}$ 일 때)이 되어, 활성화의 분산이 층 간에 보존된다.

2.3 He 초기화

ReLU 활성화 함수를 사용하는 네트워크에서는 He 초기화(He et al., 2015)가 사용된다:

$W_{ij} \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}}}\right)$

ReLU가 입력의 약 절반을 0으로 만드므로, 분산을 2배로 보정하여 활성화 분산의 층 간 보존을 달성한다.

2.4 직교 초기화(Orthogonal Initialization)

직교 초기화는 가중치 행렬을 직교 행렬(또는 직교 행렬에 스케일링을 적용한 것)로 설정하는 방법이다:

$W = \alpha Q, \quad Q^T Q = I$

직교 행렬의 모든 특이값은 1이므로, $W$ 의 특이값은 모두 $\alpha$ 이다. $\alpha = 1$ 로 설정하면 모든 특이값이 정확히 1이 되어, 신호 전파가 등방적(isotropic)으로 보존된다.

직교 초기화의 장점:

특이값이 정확히 1이므로 신호 폭발/소실이 원천적으로 방지된다.
심층 네트워크에서 초기 학습 단계의 안정성이 향상된다.
특히 순환 신경망의 순환 가중치 행렬 초기화에 효과적이다.

구현 방법은 임의의 행렬에 QR 분해를 적용하여 $Q$ 인수를 추출하는 것이다.

3. 학습 동역학의 안정성과 헤시안의 고유값

3.1 손실 곡면의 곡률 분석

손실 함수 $L(\theta)$ 의 헤시안 행렬 $H = \nabla^2 L(\theta)$ 의 고유값은 각 방향의 곡률을 결정한다. 헤시안의 고유값 스펙트럼은 학습 동역학에 직접적 영향을 미친다:

최대 고유값 $\lambda_{\max}$ : 손실 곡면의 최대 곡률. 학습률(learning rate) $\eta$ 는 $\eta < 2/\lambda_{\max}$ 를 만족하여야 경사 하강법이 수렴한다.
최소 고유값 $\lambda_{\min}$ : 가장 평탄한 방향의 곡률. $\lambda_{\min} > 0$ 이면 극소점, $\lambda_{\min} < 0$ 이면 안장점이다.
조건수 $\kappa = \lambda_{\max}/\lambda_{\min}$ : 경사 하강법의 수렴 속도를 결정한다. $\kappa$ 가 크면 (ill-conditioned) 수렴이 느리고 지그재그 궤적을 보인다.

3.2 스펙트럼 반지름과 학습률의 관계

경사 하강법 $\theta_{k+1} = \theta_k - \eta \nabla L(\theta_k)$ 를 극소점 $\theta^*$ 근방에서 선형화하면

$\theta_{k+1} - \theta^* \approx (I - \eta H)(\theta_k - \theta^*)$

수렴 조건은 $(I - \eta H)$ 의 스펙트럼 반지름이 1 미만인 것, 즉 $\lvert 1 - \eta \lambda_i \rvert < 1$ ( $\forall i$ )이다. 이로부터 $0 < \eta < 2/\lambda_{\max}$ 가 도출된다. 최적 학습률은 $\eta^* = 2/(\lambda_{\max} + \lambda_{\min})$ 이며, 이때 수렴 비율은 $(\kappa - 1)/(\kappa + 1)$ 이다.

4. 가중치 행렬의 스펙트럼 정규화

4.1 스펙트럼 정규화(Spectral Normalization)

Miyato et al. (2018)이 제안한 스펙트럼 정규화는 가중치 행렬 $W$ 를 그 최대 특이값 $\sigma_1(W)$ 로 나누어 정규화하는 기법이다:

$\bar{W} = \frac{W}{\sigma_1(W)}$

정규화된 $\bar{W}$ 의 최대 특이값은 1이므로, $\bar{W}$ 에 의한 선형 변환의 Lipschitz 상수는 최대 1이 된다. $\sigma_1(W)$ 는 멱승법으로 효율적으로 추정한다.

이 기법은 GAN의 판별자(discriminator)에서 Lipschitz 연속성을 강제하여 학습을 안정화하는 데 사용된다.

4.2 가중치 감쇠(Weight Decay)와 고유값

L2 정칙화(가중치 감쇠) $\tilde{L}(\theta) = L(\theta) + \frac{\lambda}{2} \lVert \theta \rVert^2$ 의 헤시안은 $\tilde{H} = H + \lambda I$ 이다. 정칙화 항은 헤시안의 모든 고유값에 $\lambda$ 를 더하여:

음의 고유값을 양으로 전환하여 안장점을 극소점으로 변환할 수 있다.
조건수를 $(\lambda_{\max} + \lambda) / (\lambda_{\min} + \lambda)$ 로 줄여 학습을 안정화한다.
0에 가까운 고유값에 의한 수치적 불안정성을 완화한다.

5. 배치 정규화의 스펙트럼적 해석

배치 정규화(Batch Normalization, Ioffe & Szegedy, 2015)는 각 미니배치에서 활성화의 평균과 분산을 정규화한다. 이 과정의 야코비안을 분석하면, 배치 정규화가 역전파 시 기울기의 스케일을 조절하여 야코비안 행렬의 특이값을 1 근처로 유지하는 효과를 가짐을 확인할 수 있다.

구체적으로, 배치 정규화 층의 야코비안은 대략 $\frac{1}{\sigma}(I - \frac{1}{m}\mathbf{1}\mathbf{1}^T - \frac{1}{\sigma^2}\hat{x}\hat{x}^T)$ 의 형태이며, 이 행렬의 특이값은 $1/\sigma$ 에 가까워 스케일이 정규화된다.

6. 가중치 행렬의 계수와 저차원 근사

학습된 가중치 행렬 $W$ 의 특이값 분해 $W = U \Sigma V^T$ 에서, 작은 특이값에 대응하는 성분을 제거하면 저계수 근사(low-rank approximation)를 얻는다:

$W_k = \sum_{i=1}^{k} \sigma_i u_i v_i^T$

이는 모형의 매개변수 수를 줄이는 모형 압축(model compression) 기법에 활용된다. 학습된 가중치 행렬의 특이값이 급속히 감소하면, 소수의 특이값만으로 가중치 행렬을 효과적으로 근사할 수 있으며, 이는 가중치 행렬이 본질적으로 저차원임을 시사한다.

7. 수치 안정성과 조건수

신경망의 순전파(forward pass)와 역전파(backward pass)에서 가중치 행렬의 조건수 $\kappa(W) = \sigma_{\max}(W) / \sigma_{\min}(W)$ 는 수치 안정성의 핵심 지표이다.

$\kappa(W) \approx 1$ : 등방적 변환. 수치적으로 안정하며, 모든 방향의 기울기가 균등하게 전파된다.
$\kappa(W) \gg 1$ : 이방적(anisotropic) 변환. 특정 방향의 기울기가 증폭/소실되며, 학습이 불안정해질 수 있다.

직교 초기화는 $\kappa(W) = 1$ 을 보장하며, 학습 과정에서도 $\kappa(W)$ 를 모니터링하거나 제약함으로써 안정성을 유지하는 기법이 연구되고 있다.