13.9 RMSProp 최적화기

RMSProp (Root Mean Square Propagation) 최적화기는 AdaGrad의 학습률 감소 한계를 완화하기 위하여 학술적으로 제안된 적응적 학습률 알고리즘이다. RMSProp은 누적 제곱 기울기 대신 지수 이동 평균(exponential moving average)을 사용하여, 과거의 기울기 정보가 시간에 따라 점진적으로 감쇠하도록 한다. 이 절에서는 RMSProp의 학술적 동기, 정의, 학술적 특성, AdaGrad와의 비교, 활용 사례를 학습 순서에 따라 기술한다.

1. 학술적 동기

AdaGrad는 학습률을 누적 기울기 크기에 의하여 감소시키므로, 학습이 진행됨에 따라 학습률이 단조적으로 감소한다. 이러한 단조 감소는 비볼록 문제에서 학습률이 너무 빠르게 작아져 학습이 정체되는 학술적 한계를 발생시킨다.

RMSProp은 이 한계를 완화하기 위하여 누적이 아닌 지수 이동 평균을 사용한다. 지수 이동 평균은 과거의 정보를 지수적으로 감쇠시키므로, 누적 기울기 크기가 무한히 증가하지 않는다.

2. 정의

RMSProp은 Hinton이 2012년에 Coursera Neural Networks for Machine Learning 강의에서 학술적으로 제안하였다. 갱신 규칙은 다음과 같다.

각 매개 변수에 대하여 제곱 기울기의 지수 이동 평균을 정의한다.

$E[g^{2}]_i^{(t)} = \beta E[g^{2}]_i^{(t-1)} + (1 - \beta) \left( \nabla_\theta \mathcal{L}(\theta^{(t)}) \right)_i^{2}$

여기서 $\beta \in [0, 1)$ 은 감쇠 계수이며, 일반적으로 0.9와 같은 값이 사용된다.

매개 변수의 갱신은 다음과 같이 표현된다.

$\theta_i^{(t+1)} = \theta_i^{(t)} - \frac{\eta}{\sqrt{E[g^{2}]_i^{(t)} + \varepsilon}} \cdot \left( \nabla_\theta \mathcal{L}(\theta^{(t)}) \right)_i$

여기서 $\eta$ 는 기본 학습률, $\varepsilon$ 은 0으로의 나눗셈을 회피하기 위한 작은 양의 상수이다.

3. 학술적 특성

RMSProp의 주요 학술적 특성은 다음과 같다.

매개 변수별 적응적 학습률
지수 이동 평균에 의한 학습률의 적응적 조정
학습률의 단조 감소 회피
비볼록 문제에서의 학술적 효과
단순한 구현
추가 메모리: 매개 변수와 동일한 크기의 이동 평균 벡터 저장이 요구됨

4. AdaGrad와의 비교

RMSProp과 AdaGrad의 학술적 비교는 다음과 같다.

항목	AdaGrad	RMSProp
누적 방법	단순 누적 합	지수 이동 평균
학습률의 변화	단조 감소	적응적 변화
비볼록 문제에서의 효과	제한적	효과적
추가 매개 변수	$\eta$ , $\varepsilon$	$\eta$ , $\beta$ , $\varepsilon$
학술적 도입 시점	2011	2012

RMSProp은 비볼록 문제, 특히 깊은 신경망 학습에서 AdaGrad보다 학술적으로 일반적으로 우수한 결과를 보인다.

5. 모멘텀과의 결합

RMSProp은 모멘텀과 결합되어 학습의 안정성과 속도를 추가로 향상시킬 수 있다. 모멘텀이 결합된 RMSProp의 갱신 규칙은 다음과 같이 표현된다.

$\mathbf{v}^{(t+1)} = \mu \mathbf{v}^{(t)} + \frac{\eta}{\sqrt{E[g^{2}]^{(t)} + \varepsilon}} \cdot \nabla_\theta \mathcal{L}(\theta^{(t)})$
$\theta^{(t+1)} = \theta^{(t)} - \mathbf{v}^{(t+1)}$

이 결합은 학습률의 적응적 조정과 모멘텀에 의한 진동 완화를 동시에 달성하며, Adam과 같은 후속 최적화기의 학술적 출발점이 된다.

6. 학술적 의의

RMSProp은 다음의 학술적 의의를 가진다.

AdaGrad의 학습률 감소 한계의 완화
깊은 신경망 학습에서의 학술적 효과
Adam과 같은 후속 적응적 최적화기의 학술적 출발점
강의 자료에서 학술적으로 도입된 후 광범위하게 채택된 사례

RMSProp은 정식 학술 논문이 아닌 강의 자료에서 처음 제안되었지만, 그 학술적 효과와 단순성으로 인하여 광범위하게 채택되었다.

7. 활용 사례

RMSProp은 다음의 학술적 활용 사례에서 사용된다.

순환 신경망의 학습: 시계열 데이터를 다루는 RNN과 LSTM의 학습에서 학술적으로 우수한 결과 보고
강화 학습: DeepMind의 Deep Q-Network (DQN)에서 RMSProp이 채택되어 학술적으로 알려졌다.
깊은 합성곱 신경망: 일부 영상 분류 과제에서 사용
Adam의 출현 이전: Adam이 학술적으로 광범위하게 채택되기 이전에는 RMSProp이 표준 적응적 최적화기로 사용되었다.

8. 출처 및 버전 정보

Tieleman, T., Hinton, G., Lecture 6.5 - rmsprop: Divide the gradient by a running average of its recent magnitude, COURSERA: Neural Networks for Machine Learning, 2012
Duchi, J., Hazan, E., Singer, Y., Adaptive Subgradient Methods for Online Learning and Stochastic Optimization, Journal of Machine Learning Research, 2011
Mnih, V., 외, Playing Atari with Deep Reinforcement Learning, NIPS Deep Learning Workshop, 2013
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Kingma, D. P., Ba, J., Adam: A Method for Stochastic Optimization, International Conference on Learning Representations, 2015