13.11 학습률 스케줄링(Learning Rate Scheduling)
학습률 스케줄링(learning rate scheduling)은 학습이 진행됨에 따라 학습률을 사전에 정의된 일정에 따라 변경하는 학술적 기법이다. 학습률은 매개 변수 갱신의 크기를 결정하므로 학습의 수렴성, 안정성, 일반화 성능에 직접적 영향을 미친다. 이 절에서는 학습률 스케줄링의 학술적 동기, 주요 일정, 워밍업, 적응적 일정, 학술적 분석을 학습 순서에 따라 기술한다.
1. 학술적 동기
학습 초기에는 비교적 큰 학습률이 빠른 수렴을 가능하게 한다. 그러나 학습이 진행되면서 매개 변수가 손실 함수의 극소값에 가까워질수록 큰 학습률은 진동을 발생시킨다. 따라서 학습률을 학습의 진행에 따라 점진적으로 감소시키는 것이 학술적으로 권고된다. 학습률 스케줄링은 이러한 점진적 조정을 사전에 정의된 일정에 따라 수행한다.
또한 일부 모형의 학습에서는 학습 초기에 학습률을 매우 작은 값에서 점진적으로 증가시키는 워밍업(warm-up)이 학술적으로 효과적임이 보고되어 있다.
2. 주요 학습률 일정
2.1 일정 학습률(constant learning rate)
학습 전반에 걸쳐 동일한 학습률을 사용한다. 가장 단순한 일정이지만, 학습의 후반에서 진동이 발생할 수 있다.
2.2 단계 감쇠(step decay)
사전에 정의된 시점마다 학습률을 일정 비율로 감소시킨다. 일반적으로 다음과 같이 표현된다.
\eta_t = \eta_0 \cdot \gamma^{\lfloor t / s \rfloor}
여기서 \eta_0는 초기 학습률, \gamma \in (0, 1)는 감쇠 비율, s는 감쇠 주기이다.
13.11.2.3 지수 감쇠(exponential decay)
매 갱신마다 학습률을 일정 비율로 감소시킨다.
\eta_t = \eta_0 \cdot \gamma^{t}
지수 감쇠는 매끄러운 학습률 감소를 제공한다.
2.3 코사인 감쇠(cosine annealing)
학습률을 코사인 함수에 따라 감소시킨다. Loshchilov와 Hutter가 2017년에 SGDR: Stochastic Gradient Descent with Warm Restarts에서 학술적으로 제안하였다.
\eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\left(\frac{t}{T} \pi\right)\right)
여기서 T는 일정 주기, \eta_{\min}과 \eta_{\max}는 최소와 최대 학습률이다. 코사인 감쇠는 학습 후반에서 학습률이 매우 작아져 정밀한 수렴이 가능하도록 한다.
13.11.2.5 다항식 감쇠(polynomial decay)
학습률을 다항식 함수에 따라 감소시킨다.
\eta_t = (\eta_0 - \eta_{\text{end}})\left(1 - \frac{t}{T}\right)^{p} + \eta_{\text{end}}
여기서 p는 다항식의 차수이다.
2.4 역시간 감쇠(inverse time decay)
학습률을 시간의 역수에 따라 감소시킨다.
\eta_t = \frac{\eta_0}{1 + \gamma t}
이 일정은 Robbins-Monro 조건을 만족하므로 확률적 경사 하강법의 수렴 보장을 제공한다.
13.11.3 워밍업
워밍업(warm-up)은 학습 초기에 학습률을 매우 작은 값에서 점진적으로 증가시키는 일정이다. 워밍업은 다음의 학술적 동기를 가진다.
- 학습 초기의 큰 매개 변수 갱신에 의한 발산을 방지
- 사전 학습된 가중치의 큰 변화를 회피
- 큰 미니배치 학습에서의 학습 안정화
선형 워밍업의 예는 다음과 같다.
\eta_t = \eta_0 \cdot \min\left(1, \frac{t}{T_{\text{warm}}}\right)
여기서 T_{\text{warm}}은 워밍업 단계 수이다. 워밍업이 끝난 후에는 다른 일정(예: 코사인 감쇠)이 적용된다. Goyal 외의 Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour (2017)와 Vaswani 외의 Attention Is All You Need (2017)는 워밍업의 학술적 효과를 보고한 대표적 사례이다.
3. 주기적 일정
주기적 일정(cyclical schedule)은 학습률을 주기적으로 증가와 감소시키는 일정이다. Smith의 Cyclical Learning Rates for Training Neural Networks (2017)는 학습률을 정해진 범위에서 주기적으로 변화시키는 일정을 학술적으로 제안하였다. 주기적 일정은 학습이 지역 최소값에서 벗어나는 데에 도움을 줄 수 있으며, 학습률의 미세 조정 부담을 감소시킨다.
또한 코사인 감쇠와 결합된 주기적 재시작(warm restart)은 SGDR에서 학술적으로 제안되었으며, 학습률을 일정 주기마다 초기값으로 재설정하여 학습이 새로운 영역을 탐색할 수 있도록 한다.
4. 적응적 일정
검증 손실의 변화에 따라 학습률을 조정하는 적응적 일정도 학술적으로 사용된다. 대표적 사례는 다음과 같다.
- ReduceLROnPlateau: 검증 손실의 개선이 일정 횟수 동안 관찰되지 않을 때 학습률을 일정 비율로 감소시킨다.
- 학습 손실 기반 조정: 학습 손실의 변화율에 따라 학습률을 조정한다.
이러한 적응적 일정은 학습 데이터와 모형의 특성에 자동으로 적응한다.
5. 학술적 분석
학습률 스케줄링의 학술적 분석은 다음의 결과를 제시한다.
- 학습률의 감소 속도가 너무 빠르면 학습이 정체된다.
- 학습률의 감소 속도가 너무 느리면 학습이 진동한다.
- 워밍업은 큰 미니배치 학습에서 학습의 안정성을 향상시킨다.
- 코사인 감쇠는 다양한 과제에서 학술적으로 우수한 결과를 보고한다.
- 학습률 일정과 미니배치 크기는 상호 관련된다.
6. 출처 및 버전 정보
- Robbins, H., Monro, S., A Stochastic Approximation Method, The Annals of Mathematical Statistics, 1951
- Smith, L. N., Cyclical Learning Rates for Training Neural Networks, IEEE Winter Conference on Applications of Computer Vision, 2017
- Loshchilov, I., Hutter, F., SGDR: Stochastic Gradient Descent with Warm Restarts, International Conference on Learning Representations, 2017
- Goyal, P., 외, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour, arXiv:1706.02677, 2017
- Vaswani, A., 외, Attention Is All You Need, Advances in Neural Information Processing Systems, 2017
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016