30.36 고유값 분해의 딥러닝 적용: 가중치 행렬 초기화와 안정성 분석
1. 딥러닝에서 고유값 분해의 역할
딥러닝에서 가중치 행렬의 고유값은 신호의 전파, 기울기의 흐름, 학습의 안정성을 지배하는 핵심 지표이다. 신경망의 각 층이 선형 변환 x \mapsto Wx를 포함하므로, 가중치 행렬 W의 고유값(또는 특이값)은 입력 신호가 층을 통과할 때의 확대/축소 비율을 결정한다.
2. 가중치 행렬 초기화와 스펙트럼 제어
2.1 초기화 문제의 본질
L개 층으로 구성된 심층 신경망에서 비선형성을 무시하면, 네트워크의 출력은
y = W_L W_{L-1} \cdots W_1 x
이다. 행렬 곱 \prod_{l=1}^{L} W_l의 특이값이 네트워크의 전체적 스케일링을 결정한다. 각 W_l의 특이값이 1보다 크면 \prod W_l의 특이값이 지수적으로 증가하고(신호 폭발), 1보다 작으면 지수적으로 감소한다(신호 소실).
따라서 가중치 초기화의 핵심 목표는 각 층의 가중치 행렬의 특이값이 1 근처에 분포하도록 제어하는 것이다.
2.2 Xavier/Glorot 초기화
Xavier 초기화(Glorot & Bengio, 2010)는 가중치를 다음 분포에서 추출한다:
W_{ij} \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}} + n_{\text{out}}}\right)
여기서 n_{\text{in}}과 n_{\text{out}}은 입력 및 출력 차원이다. 이 초기화에서 W^T W의 기대 고유값은 2n_{\text{in}} / (n_{\text{in}} + n_{\text{out}}) \approx 1 (n_{\text{in}} \approx n_{\text{out}}일 때)이 되어, 활성화의 분산이 층 간에 보존된다.
2.3 He 초기화
ReLU 활성화 함수를 사용하는 네트워크에서는 He 초기화(He et al., 2015)가 사용된다:
W_{ij} \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}}}\right)
ReLU가 입력의 약 절반을 0으로 만드므로, 분산을 2배로 보정하여 활성화 분산의 층 간 보존을 달성한다.
2.4 직교 초기화(Orthogonal Initialization)
직교 초기화는 가중치 행렬을 직교 행렬(또는 직교 행렬에 스케일링을 적용한 것)로 설정하는 방법이다:
W = \alpha Q, \quad Q^T Q = I
직교 행렬의 모든 특이값은 1이므로, W의 특이값은 모두 \alpha이다. \alpha = 1로 설정하면 모든 특이값이 정확히 1이 되어, 신호 전파가 등방적(isotropic)으로 보존된다.
직교 초기화의 장점:
- 특이값이 정확히 1이므로 신호 폭발/소실이 원천적으로 방지된다.
- 심층 네트워크에서 초기 학습 단계의 안정성이 향상된다.
- 특히 순환 신경망의 순환 가중치 행렬 초기화에 효과적이다.
구현 방법은 임의의 행렬에 QR 분해를 적용하여 Q 인수를 추출하는 것이다.
3. 학습 동역학의 안정성과 헤시안의 고유값
3.1 손실 곡면의 곡률 분석
손실 함수 L(\theta)의 헤시안 행렬 H = \nabla^2 L(\theta)의 고유값은 각 방향의 곡률을 결정한다. 헤시안의 고유값 스펙트럼은 학습 동역학에 직접적 영향을 미친다:
- 최대 고유값 \lambda_{\max}: 손실 곡면의 최대 곡률. 학습률(learning rate) \eta는 \eta < 2/\lambda_{\max}를 만족하여야 경사 하강법이 수렴한다.
- 최소 고유값 \lambda_{\min}: 가장 평탄한 방향의 곡률. \lambda_{\min} > 0이면 극소점, \lambda_{\min} < 0이면 안장점이다.
- 조건수 \kappa = \lambda_{\max}/\lambda_{\min}: 경사 하강법의 수렴 속도를 결정한다. \kappa가 크면 (ill-conditioned) 수렴이 느리고 지그재그 궤적을 보인다.
3.2 스펙트럼 반지름과 학습률의 관계
경사 하강법 \theta_{k+1} = \theta_k - \eta \nabla L(\theta_k)를 극소점 \theta^* 근방에서 선형화하면
\theta_{k+1} - \theta^* \approx (I - \eta H)(\theta_k - \theta^*)
수렴 조건은 (I - \eta H)의 스펙트럼 반지름이 1 미만인 것, 즉 \lvert 1 - \eta \lambda_i \rvert < 1 (\forall i)이다. 이로부터 0 < \eta < 2/\lambda_{\max}가 도출된다. 최적 학습률은 \eta^* = 2/(\lambda_{\max} + \lambda_{\min})이며, 이때 수렴 비율은 (\kappa - 1)/(\kappa + 1)이다.
4. 가중치 행렬의 스펙트럼 정규화
4.1 스펙트럼 정규화(Spectral Normalization)
Miyato et al. (2018)이 제안한 스펙트럼 정규화는 가중치 행렬 W를 그 최대 특이값 \sigma_1(W)로 나누어 정규화하는 기법이다:
\bar{W} = \frac{W}{\sigma_1(W)}
정규화된 \bar{W}의 최대 특이값은 1이므로, \bar{W}에 의한 선형 변환의 Lipschitz 상수는 최대 1이 된다. \sigma_1(W)는 멱승법으로 효율적으로 추정한다.
이 기법은 GAN의 판별자(discriminator)에서 Lipschitz 연속성을 강제하여 학습을 안정화하는 데 사용된다.
4.2 가중치 감쇠(Weight Decay)와 고유값
L2 정칙화(가중치 감쇠) \tilde{L}(\theta) = L(\theta) + \frac{\lambda}{2} \lVert \theta \rVert^2의 헤시안은 \tilde{H} = H + \lambda I이다. 정칙화 항은 헤시안의 모든 고유값에 \lambda를 더하여:
- 음의 고유값을 양으로 전환하여 안장점을 극소점으로 변환할 수 있다.
- 조건수를 (\lambda_{\max} + \lambda) / (\lambda_{\min} + \lambda)로 줄여 학습을 안정화한다.
- 0에 가까운 고유값에 의한 수치적 불안정성을 완화한다.
5. 배치 정규화의 스펙트럼적 해석
배치 정규화(Batch Normalization, Ioffe & Szegedy, 2015)는 각 미니배치에서 활성화의 평균과 분산을 정규화한다. 이 과정의 야코비안을 분석하면, 배치 정규화가 역전파 시 기울기의 스케일을 조절하여 야코비안 행렬의 특이값을 1 근처로 유지하는 효과를 가짐을 확인할 수 있다.
구체적으로, 배치 정규화 층의 야코비안은 대략 \frac{1}{\sigma}(I - \frac{1}{m}\mathbf{1}\mathbf{1}^T - \frac{1}{\sigma^2}\hat{x}\hat{x}^T)의 형태이며, 이 행렬의 특이값은 1/\sigma에 가까워 스케일이 정규화된다.
6. 가중치 행렬의 계수와 저차원 근사
학습된 가중치 행렬 W의 특이값 분해 W = U \Sigma V^T에서, 작은 특이값에 대응하는 성분을 제거하면 저계수 근사(low-rank approximation)를 얻는다:
W_k = \sum_{i=1}^{k} \sigma_i u_i v_i^T
이는 모형의 매개변수 수를 줄이는 모형 압축(model compression) 기법에 활용된다. 학습된 가중치 행렬의 특이값이 급속히 감소하면, 소수의 특이값만으로 가중치 행렬을 효과적으로 근사할 수 있으며, 이는 가중치 행렬이 본질적으로 저차원임을 시사한다.
7. 수치 안정성과 조건수
신경망의 순전파(forward pass)와 역전파(backward pass)에서 가중치 행렬의 조건수 \kappa(W) = \sigma_{\max}(W) / \sigma_{\min}(W)는 수치 안정성의 핵심 지표이다.
- \kappa(W) \approx 1: 등방적 변환. 수치적으로 안정하며, 모든 방향의 기울기가 균등하게 전파된다.
- \kappa(W) \gg 1: 이방적(anisotropic) 변환. 특정 방향의 기울기가 증폭/소실되며, 학습이 불안정해질 수 있다.
직교 초기화는 \kappa(W) = 1을 보장하며, 학습 과정에서도 \kappa(W)를 모니터링하거나 제약함으로써 안정성을 유지하는 기법이 연구되고 있다.