13.12 기울기 소실(Vanishing Gradient)과 기울기 폭발(Exploding Gradient)

13.12 기울기 소실(Vanishing Gradient)과 기울기 폭발(Exploding Gradient)

기울기 소실(vanishing gradient)과 기울기 폭발(exploding gradient)은 깊은 신경망의 학습에서 발생하는 학술적 학습 가능성 문제이다. 이 두 문제는 역전파 시 기울기가 층을 따라 전파되면서 기하급수적으로 감소하거나 증가하는 현상으로, 학습의 정체나 발산을 발생시킨다. 이 절에서는 두 문제의 학술적 정의, 원인, 영향, 완화 기법, 학술적 의의를 학습 순서에 따라 기술한다.

1. 학술적 정의

기울기 소실은 역전파 시 기울기가 층을 따라 전파되면서 그 절대값이 기하급수적으로 감소하여 0에 가까워지는 현상이다. 기울기 폭발은 반대로 기울기의 절대값이 기하급수적으로 증가하여 매우 큰 값이 되는 현상이다.

두 현상은 모두 깊은 신경망의 학습에서 학술적으로 발견되어 왔으며, 1990년대 초기 신경망 연구의 침체에 영향을 미친 학술적 한계로 평가된다.

2. 학술적 원인

두 문제의 학술적 원인은 역전파의 연쇄 법칙에서 기울기가 여러 행렬의 곱으로 표현되는 데에 있다. L개의 층을 가진 신경망의 입력층 매개 변수에 대한 손실의 기울기는 다음과 같이 표현될 수 있다.

\frac{\partial \mathcal{L}}{\partial \theta^{(1)}} \propto \prod_{\ell=2}^{L} W^{(\ell)} \cdot \text{diag}(\varphi^{(\ell) \prime}(\mathbf{z}^{(\ell)}))

이 곱이 1보다 작은 항을 지속적으로 곱하면 기울기는 기하급수적으로 감소하고, 1보다 큰 항을 지속적으로 곱하면 기울기는 기하급수적으로 증가한다.

13.12.2.1 활성화 함수의 영향

시그모이드와 쌍곡 탄젠트와 같은 포화 활성화 함수의 도함수는 입력의 절대값이 큰 영역에서 0에 가까운 값을 가진다. 이러한 활성화 함수가 깊은 신경망에서 사용되면 도함수의 곱이 매우 작아져 기울기 소실이 발생한다.

13.12.2.2 가중치 초기화의 영향

부적절한 가중치 초기화는 활성화의 분산이 층을 따라 감쇠하거나 증폭되는 현상을 발생시키며, 이는 기울기에도 동일한 영향을 미친다. Glorot과 Bengio의 Understanding the difficulty of training deep feedforward neural networks (2010)는 이러한 학술적 분석을 제시하였다.

13.12.2.3 순환 신경망에서의 영향

순환 신경망(RNN)에서는 시간 단계가 깊이의 역할을 하므로, 긴 시계열에서 기울기 소실과 폭발이 더욱 학술적으로 두드러진다. Bengio, Simard, Frasconi의 Learning Long-Term Dependencies with Gradient Descent is Difficult (1994)와 Pascanu, Mikolov, Bengio의 On the difficulty of training Recurrent Neural Networks (2013)는 이러한 문제를 학술적으로 분석한 대표적 학술 문헌이다.

13.12.3 학습에 미치는 영향

기울기 소실과 폭발의 학습에 미치는 영향은 다음과 같다.

13.12.3.1 기울기 소실

  • 깊은 층의 가중치는 갱신되지만 입력층에 가까운 얕은 층의 가중치는 거의 갱신되지 않는다.
  • 학습이 정체되거나 매우 느리게 진행된다.
  • 깊이가 큰 신경망의 학습이 학술적으로 어렵다.

13.12.3.2 기울기 폭발

  • 매개 변수의 갱신이 과도하게 커져 학습이 발산한다.
  • 손실 값이 NaN(Not-a-Number)이 되는 수치적 불안정성이 발생한다.
  • 학습이 진동하거나 완전히 실패한다.

13.12.4 완화 기법

기울기 소실과 폭발을 완화하기 위하여 학술적으로 다음의 기법이 제안되어 왔다.

13.12.4.1 활성화 함수의 변경

비포화 활성화 함수(예: ReLU와 그 변형)는 양의 영역에서 도함수가 1이므로 기울기 소실을 완화한다. Glorot, Bordes, Bengio의 Deep Sparse Rectifier Neural Networks (2011)는 ReLU의 학술적 효과를 분석하였다.

13.12.4.2 가중치 초기화 기법

Xavier 초기화와 He 초기화는 활성화와 기울기의 분산을 층을 따라 안정적으로 유지하도록 설계되어 있다. 이러한 초기화 기법은 기울기 소실과 폭발을 학술적으로 완화한다.

13.12.4.3 정규화 기법

배치 정규화(batch normalisation), 층 정규화(layer normalisation), 그룹 정규화(group normalisation) 등은 활성화의 통계량을 정규화하여 기울기의 안정적 전파를 보장한다. Ioffe와 Szegedy의 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (2015)는 이를 학술적으로 도입한 사례이다.

13.12.4.4 잔차 연결

잔차 연결(residual connection)은 층의 입력을 출력에 더하는 구조로, 기울기가 직접 경로로 전파되도록 한다. He, Zhang, Ren, Sun의 Deep Residual Learning for Image Recognition (2016)은 잔차 연결을 통하여 매우 깊은 신경망의 학습이 학술적으로 가능함을 보고하였다.

13.12.4.5 게이트 메커니즘

LSTM과 GRU는 게이트 메커니즘을 사용하여 정보의 흐름과 기울기의 전파를 학습 가능 매개 변수로 조절한다. 이러한 구조는 순환 신경망에서의 기울기 소실 문제를 학술적으로 완화한다.

13.12.4.6 기울기 클리핑

기울기 클리핑(gradient clipping)은 기울기의 노름이 사전에 정의된 임계값을 넘으면 그 노름을 제한하는 기법이다. 이는 기울기 폭발을 학술적으로 완화한다. Pascanu, Mikolov, Bengio의 학술 문헌은 이 기법의 효과를 분석하였다.

13.12.5 학술적 의의

기울기 소실과 폭발 문제와 그 완화 기법의 학술적 의의는 다음과 같다.

  • 깊은 신경망 학습의 학술적 어려움의 정량적 이해
  • 활성화 함수, 초기화, 정규화의 설계에 대한 학술적 원리의 제공
  • 잔차 연결과 같은 새로운 아키텍처 설계의 학술적 동기
  • 심층 학습의 실용화에 직접적 기여

13.12.6 출처 및 버전 정보

  • Hochreiter, S., Untersuchungen zu dynamischen neuronalen Netzen, Diplomarbeit, Technische Universität München, 1991
  • Bengio, Y., Simard, P., Frasconi, P., Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 1994
  • Hochreiter, S., Schmidhuber, J., Long Short-Term Memory, Neural Computation, 1997
  • Glorot, X., Bengio, Y., Understanding the difficulty of training deep feedforward neural networks, International Conference on Artificial Intelligence and Statistics, 2010
  • Glorot, X., Bordes, A., Bengio, Y., Deep Sparse Rectifier Neural Networks, International Conference on Artificial Intelligence and Statistics, 2011
  • Pascanu, R., Mikolov, T., Bengio, Y., On the difficulty of training Recurrent Neural Networks, International Conference on Machine Learning, 2013
  • Ioffe, S., Szegedy, C., Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, International Conference on Machine Learning, 2015
  • He, K., Zhang, X., Ren, S., Sun, J., Deep Residual Learning for Image Recognition, IEEE Conference on Computer Vision and Pattern Recognition, 2016
  • He, K., Zhang, X., Ren, S., Sun, J., Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification, IEEE International Conference on Computer Vision, 2015
  • Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016