Chapter 13. 역전파 알고리즘과 경사 하강법

역전파(backpropagation) 알고리즘과 경사 하강법(gradient descent)은 인공 신경망의 학습을 가능하게 하는 학술적 핵심 기법이다. 역전파는 손실 함수의 매개 변수에 대한 기울기를 효율적으로 계산하는 알고리즘이며, 경사 하강법은 이 기울기를 사용하여 매개 변수를 갱신하는 최적화 절차이다. 이 장에서는 두 기법의 학술적 정의, 원리, 변형, 그리고 학습 과정에서의 학술적 고려 사항을 학습 순서에 따라 다룬다.

1. 학습 목표

경사 하강법의 학술적 원리와 그 변형의 차이를 이해한다.
연쇄 법칙과 계산 그래프에 기반한 역전파 알고리즘의 유도와 계산 절차를 이해한다.
모멘텀, AdaGrad, RMSProp, Adam과 같은 최적화기의 학술적 원리를 학습한다.
학습률 스케줄링, 기울기 소실과 폭발, 기울기 클리핑의 학술적 의의를 이해한다.

2. 학습 순서

이 장은 경사 하강법의 기본 원리에서 출발하여, 손실 함수의 기울기와 최적화 방향, 연쇄 법칙과 계산 그래프, 역전파 알고리즘의 유도로 점진적으로 진행한다. 그 후 확률적 경사 하강법과 미니배치 경사 하강법, 그리고 모멘텀, AdaGrad, RMSProp, Adam 등 주요 최적화기의 학술적 정의를 학습한다. 마지막으로 학습률 스케줄링, 기울기 소실과 폭발, 기울기 클리핑을 다룬다.

3. 출처 및 버전 정보

Rumelhart, D. E., Hinton, G. E., Williams, R. J., Learning representations by back-propagating errors, Nature, 1986
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Bishop, C. M., Pattern Recognition and Machine Learning, Springer, 2006
Kingma, D. P., Ba, J., Adam: A Method for Stochastic Optimization, International Conference on Learning Representations, 2015
Bottou, L., Curtis, F. E., Nocedal, J., Optimization Methods for Large-Scale Machine Learning, SIAM Review, 2018