13.8 AdaGrad 최적화기

AdaGrad (Adaptive Gradient) 최적화기는 매개 변수마다 적응적 학습률을 부여하는 학술적 기법이다. AdaGrad는 학습 과정에서 자주 갱신되는 매개 변수에 대하여 학습률을 감소시키고, 드물게 갱신되는 매개 변수에 대하여 학습률을 유지함으로써 희소한 특징을 가지는 데이터에 대한 학습을 효과적으로 수행한다. 이 절에서는 AdaGrad의 정의, 학술적 동기, 갱신 규칙, 학술적 특성, 한계, 활용 사례를 학습 순서에 따라 기술한다.

1. 학술적 동기

표준 경사 하강법은 모든 매개 변수에 동일한 학습률을 적용한다. 그러나 일부 매개 변수는 학습 과정에서 자주 갱신되고 큰 기울기를 가지는 반면, 다른 매개 변수는 드물게 갱신되고 작은 기울기를 가진다. 단일 학습률은 이러한 차이를 학술적으로 다루지 못한다.

AdaGrad는 이러한 학술적 한계를 완화하기 위하여, 각 매개 변수의 누적 기울기 크기에 따라 학습률을 적응적으로 조정한다. 이 학술적 동기는 자연 언어 처리와 같이 희소한 특징을 가지는 데이터에서 특히 강조되었다.

2. 정의

AdaGrad는 Duchi, Hazan, Singer가 2011년에 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization에서 학술적으로 제안하였다. 갱신 규칙은 다음과 같다.

각 매개 변수 $\theta_i$ 에 대하여 누적 제곱 기울기를 정의한다.

$G_i^{(t)} = \sum_{\tau = 1}^{t} \left( \nabla_\theta \mathcal{L}(\theta^{(\tau)}) \right)_i^{2}$

매개 변수의 갱신은 다음과 같이 표현된다.

$\theta_i^{(t+1)} = \theta_i^{(t)} - \frac{\eta}{\sqrt{G_i^{(t)} + \varepsilon}} \cdot \left( \nabla_\theta \mathcal{L}(\theta^{(t)}) \right)_i$

여기서 $\eta$ 는 기본 학습률, $\varepsilon$ 은 0으로의 나눗셈을 회피하기 위한 작은 양의 상수(일반적으로 $10^{-8}$ )이다.

이 갱신 규칙은 각 매개 변수마다 누적 기울기 크기의 제곱근으로 학습률을 나누어 적응적 학습률을 적용한다. 자주 갱신되는 매개 변수는 누적 기울기 크기가 크므로 학습률이 작아지고, 드물게 갱신되는 매개 변수는 학습률이 상대적으로 유지된다.

3. 학술적 특성

AdaGrad의 주요 학술적 특성은 다음과 같다.

매개 변수별 적응적 학습률
단일 하이퍼파라미터 $\eta$ : 학습률의 미세 조정 부담이 감소
희소한 특징에서의 효과: 자연 언어 처리 등에서 학술적으로 우수한 성능 보고
볼록 문제에서의 수렴 보장: 원래 학술 문헌은 볼록 온라인 학습에서의 후회(regret) 경계를 학술적으로 제시
추가 메모리: 매개 변수와 동일한 크기의 누적 기울기 벡터 저장이 요구됨

4. 한계

AdaGrad는 다음의 학술적 한계를 가진다.

4.1 학습률의 단조 감소

누적 기울기는 항상 증가하므로 학습률이 단조 감소한다. 이로 인하여 학습 후반에 학습률이 너무 작아져 학습이 정체될 수 있다. 이 한계는 비볼록 문제에서 특히 학술적으로 문제가 된다.

4.2 비볼록 문제에서의 효과 제한

볼록 문제에서는 AdaGrad의 학습률 감소가 학술적으로 정당화되지만, 비볼록 신경망의 손실 표면에서는 학습률의 감소가 너무 빠를 수 있다. 이러한 한계를 완화하기 위하여 RMSProp과 Adam 등의 변형이 제안되었다.

4.3 초기 학습률에 대한 민감성

AdaGrad의 학습률은 초기 학습률 $\eta$ 에 의하여 결정되며, 이 값의 선택이 학습의 결과에 영향을 미친다.

5. 학술적 의의

AdaGrad는 다음의 학술적 의의를 가진다.

매개 변수별 적응적 학습률의 학술적 도입
후속 적응적 최적화기(RMSProp, Adam 등)의 학술적 출발점
볼록 온라인 학습의 후회 경계의 학술적 분석
희소한 특징을 가지는 데이터에 대한 효과적 학습

6. 활용 사례

AdaGrad는 다음의 학술적 활용 사례에서 사용된다.

자연 언어 처리: 단어 임베딩 학습과 같이 희소한 특징을 가지는 과제
순위 학습(learning to rank): 정보 검색에서의 학습
추천 시스템: 사용자별 매개 변수의 적응적 학습
일부 깊은 신경망의 학습: 다만 비볼록 문제에서는 RMSProp과 Adam이 일반적으로 선호된다.

7. 출처 및 버전 정보

Duchi, J., Hazan, E., Singer, Y., Adaptive Subgradient Methods for Online Learning and Stochastic Optimization, Journal of Machine Learning Research, 2011
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016
Bottou, L., Curtis, F. E., Nocedal, J., Optimization Methods for Large-Scale Machine Learning, SIAM Review, 2018
McMahan, H. B., Streeter, M., Adaptive Bound Optimization for Online Convex Optimization, Conference on Learning Theory, 2010