11.9 가중치 초기화(Weight Initialization) 기법

11.9 가중치 초기화(Weight Initialization) 기법

가중치 초기화(weight initialization)는 신경망의 학습 시작 시점에서 가중치와 편향에 초기 값을 부여하는 절차이다. 초기화는 학습의 수렴 속도와 안정성, 그리고 도달 가능한 해의 품질에 직접적 영향을 미치므로, 학술적으로 중요한 설계 결정이다. 이 절에서는 초기화의 학술적 동기, 주요 기법, 활성화 함수와의 정합, 학술적 분석을 학습 순서에 따라 기술한다.

1. 초기화의 학술적 동기

신경망의 학습은 손실 함수의 비볼록 표면 위에서의 최적화이므로, 초기 점의 선택은 학습의 결과에 영향을 미친다. 초기화의 학술적 목적은 다음과 같다.

  • 대칭성의 파괴: 모든 가중치가 동일한 값으로 초기화되면 동일 층의 단위들이 동일하게 학습되어 표현력의 손실이 발생한다. 이를 방지하기 위하여 가중치는 무작위로 초기화된다.
  • 신호의 전파 안정성: 순전파에서 활성화의 분산이 층마다 안정적으로 유지되어야 한다.
  • 기울기의 전파 안정성: 역전파에서 기울기의 분산이 층마다 안정적으로 유지되어야 한다.

기울기 소실(vanishing gradient)과 기울기 폭발(exploding gradient) 문제는 초기화가 적절하지 않을 때 발생하는 대표적 학습 가능성 문제이다.

2. 단순 무작위 초기화

가중치를 평균 0과 작은 분산을 가지는 정규 분포 또는 균등 분포에서 무작위로 추출하는 방법이다. 그러나 이러한 단순 초기화는 깊은 신경망에서 활성화의 분산이 층을 따라 감쇠하거나 증폭되는 문제를 발생시킨다.

3. Xavier (Glorot) 초기화

Glorot과 Bengio가 2010년에 Understanding the difficulty of training deep feedforward neural networks에서 제안한 초기화 기법이다. 이 기법은 입력과 출력의 차원 d_{\text{in}}d_{\text{out}}을 고려하여 가중치의 분산을 다음과 같이 설정한다.

\text{Var}(w) = \frac{2}{d_{\text{in}} + d_{\text{out}}}

균등 분포를 사용하는 경우 다음과 같다.

w \sim \mathcal{U}\left(-\sqrt{\frac{6}{d_{\text{in}} + d_{\text{out}}}}, \sqrt{\frac{6}{d_{\text{in}} + d_{\text{out}}}}\right)

이 기법은 시그모이드와 쌍곡 탄젠트와 같이 0 근처에서 선형에 가까운 활성화 함수에 적합하도록 설계되었으며, 순전파와 역전파의 분산 모두를 안정화하는 학술적 균형을 추구한다.

4. He 초기화

He, Zhang, Ren, Sun이 2015년에 Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification에서 제안한 초기화 기법이다. 이 기법은 정류 선형 단위(ReLU) 활성화의 비대칭성을 고려하여 가중치의 분산을 다음과 같이 설정한다.

\text{Var}(w) = \frac{2}{d_{\text{in}}}

이 기법은 ReLU와 그 변형(Leaky ReLU, PReLU 등)에 적합하며, 순전파에서 활성화의 분산을 층마다 안정적으로 유지한다. He 초기화는 깊은 합성곱 신경망의 학습 가능성에 학술적으로 중요한 기여를 하였다.

11.9.5 직교 초기화

직교 초기화(orthogonal initialization)는 가중치 행렬을 직교 행렬로 초기화하는 기법이다. 직교 행렬은 노름을 보존하는 변환이므로, 신호와 기울기의 전파에서 분산을 안정적으로 유지한다. Saxe, McClelland, Ganguli가 2014년에 Exact solutions to the nonlinear dynamics of learning in deep linear neural networks에서 제안한 이 기법은 깊은 선형 신경망의 학습 동역학에 관한 학술적 분석에 기반한다.

11.9.6 편향의 초기화

편향은 일반적으로 0으로 초기화된다. 다만 일부 활성화 함수(예: Leaky ReLU, ELU)와 일부 응용에서는 편향에 작은 양수 값을 부여하여 출력의 분포를 조정하는 학술적 기법이 사용된다. 또한 LSTM의 망각 게이트(forget gate)의 편향을 1과 같은 양수 값으로 초기화하는 것이 학술적으로 권고되며, Jozefowicz 외의 An Empirical Exploration of Recurrent Network Architectures (2015)는 이러한 권고의 학술적 근거를 제시한다.

11.9.7 활성화 함수와의 정합

초기화 기법은 활성화 함수의 학술적 특성에 따라 선택되어야 한다. 일반적으로 권고되는 정합은 다음과 같다.

활성화 함수권고 초기화
시그모이드, 쌍곡 탄젠트Xavier 초기화
ReLU, Leaky ReLU, PReLUHe 초기화
GELU, SwishHe 초기화의 변형
선형 (잔차 연결 내)직교 또는 항등 초기화

11.9.8 학술적 분석

초기화의 학술적 분석은 신경망의 깊이가 무한히 커질 때의 신호와 기울기의 분산 동역학으로 다루어진다. Schoenholz 외의 Deep Information Propagation (2017)은 깊은 신경망의 신호 전파를 평균장(mean-field) 이론으로 분석하고, “혼돈의 가장자리(edge of chaos)“라는 학술적 개념을 통하여 초기화의 임계 조건을 제시하였다. 이러한 분석은 초기화의 선택이 단순한 경험적 규칙이 아니라 학술적 기반을 가짐을 보여준다.

11.9.9 출처 및 버전 정보

  • Glorot, X., Bengio, Y., Understanding the difficulty of training deep feedforward neural networks, International Conference on Artificial Intelligence and Statistics, 2010
  • He, K., Zhang, X., Ren, S., Sun, J., Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, IEEE International Conference on Computer Vision, 2015
  • Saxe, A. M., McClelland, J. L., Ganguli, S., Exact solutions to the nonlinear dynamics of learning in deep linear neural networks, International Conference on Learning Representations, 2014
  • Jozefowicz, R., Zaremba, W., Sutskever, I., An Empirical Exploration of Recurrent Network Architectures, International Conference on Machine Learning, 2015
  • Schoenholz, S. S., Gilmer, J., Ganguli, S., Sohl-Dickstein, J., Deep Information Propagation, International Conference on Learning Representations, 2017
  • Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016