13.10 Adam 최적화기
Adam (Adaptive Moment Estimation) 최적화기는 1차 모멘트(평균)와 2차 모멘트(분산) 추정을 결합한 적응적 학습률 알고리즘이다. Adam은 모멘텀과 RMSProp의 장점을 통합한 학술적 결과로, 심층 학습의 표준 최적화기로 광범위하게 채택되어 왔다. 이 절에서는 Adam의 정의, 학술적 동기, 갱신 규칙, 편향 보정, 학술적 특성, 변형, 활용 사례를 학습 순서에 따라 기술한다.
1. 학술적 동기
모멘텀은 갱신의 방향에 관성을 부여하여 수렴 속도를 향상시키며, RMSProp은 매개 변수별 적응적 학습률을 부여한다. 두 기법은 학술적으로 상호 보완적이며, 그 결합은 학습의 안정성과 속도를 동시에 향상시킬 수 있다. Adam은 이 결합을 학술적으로 정형화한 결과이다.
2. 정의
Adam은 Kingma와 Ba가 2015년에 Adam: A Method for Stochastic Optimization에서 학술적으로 제안하였다. 갱신 규칙은 다음과 같다.
각 매개 변수에 대하여 1차 모멘트 추정량과 2차 모멘트 추정량을 정의한다.
\mathbf{m}^{(t)} = \beta_1 \mathbf{m}^{(t-1)} + (1 - \beta_1) \mathbf{g}^{(t)}
\mathbf{v}^{(t)} = \beta_2 \mathbf{v}^{(t-1)} + (1 - \beta_2) (\mathbf{g}^{(t)})^{2}
여기서 \mathbf{g}^{(t)} = \nabla_\theta \mathcal{L}(\theta^{(t)})는 t번째 갱신에서의 기울기, \beta_1과 \beta_2는 각각 1차 모멘트와 2차 모멘트의 지수 이동 평균의 감쇠 계수이다. 일반적으로 \beta_1 = 0.9, \beta_2 = 0.999가 사용된다.
3. 편향 보정
지수 이동 평균은 초기 단계에서 0을 향한 편향(bias)을 가진다. Adam은 이를 보정하기 위하여 편향 보정된(bias-corrected) 추정량을 사용한다.
\hat{\mathbf{m}}^{(t)} = \frac{\mathbf{m}^{(t)}}{1 - \beta_1^{t}}
\hat{\mathbf{v}}^{(t)} = \frac{\mathbf{v}^{(t)}}{1 - \beta_2^{t}}
이 보정은 학습 초기에 추정량이 작은 값으로 시작되는 학술적 편향을 회피한다.
4. 매개 변수 갱신
Adam의 매개 변수 갱신은 다음과 같이 표현된다.
\theta^{(t+1)} = \theta^{(t)} - \frac{\eta}{\sqrt{\hat{\mathbf{v}}^{(t)}} + \varepsilon} \cdot \hat{\mathbf{m}}^{(t)}
여기서 \eta는 학습률, \varepsilon은 0으로의 나눗셈을 회피하기 위한 작은 양의 상수(일반적으로 10^{-8})이다. 이 갱신 규칙은 1차 모멘트의 추정량을 2차 모멘트의 추정량의 제곱근으로 나누는 형태로, 매개 변수별 적응적 학습률을 적용한다.
13.10.5 학술적 특성
Adam의 주요 학술적 특성은 다음과 같다.
- 1차 모멘트와 2차 모멘트 추정의 결합
- 매개 변수별 적응적 학습률
- 편향 보정에 의한 학습 초기의 안정성
- 단일 학습률 \eta의 사용으로 미세 조정 부담 감소
- 다양한 과제에 대한 학술적·실용적 효과
- 추가 메모리: 매개 변수의 약 2배 크기의 모멘트 벡터 저장이 요구됨
13.10.6 권장 매개 변수 값
Adam의 원래 학술 논문은 다음의 값을 권장한다.
- 학습률 \eta = 0.001
- \beta_1 = 0.9
- \beta_2 = 0.999
- \varepsilon = 10^{-8}
이 권장 값은 다양한 과제에서 학술적·실용적으로 우수한 결과를 보이며, 미세 조정 없이도 사용 가능한 경우가 많다.
13.10.7 학술적 변형
Adam의 학술적 변형은 다음과 같다.
- AdamW: Loshchilov와 Hutter가 2019년에 Decoupled Weight Decay Regularization에서 제안한 변형으로, 가중치 감쇠를 손실 함수의 정칙화 항이 아닌 매개 변수 갱신과 분리된 형태로 적용한다.
- AMSGrad: Reddi, Kale, Kumar가 2018년에 On the Convergence of Adam and Beyond에서 제안한 변형으로, 2차 모멘트의 최대값을 사용하여 수렴성을 학술적으로 보강한다.
- AdaMax: Adam의 원래 학술 논문에서 함께 제시된 변형으로, 2차 모멘트 대신 무한 노름을 사용한다.
- Nadam: Dozat가 2016년에 Incorporating Nesterov Momentum into Adam에서 제안한 변형으로, Nesterov 가속을 Adam에 결합한다.
이러한 변형은 Adam의 학술적·실용적 한계를 완화하기 위하여 제안되었다.
13.10.8 학술적 한계
Adam은 다음의 학술적 한계가 보고되어 있다.
- 일부 과제에서의 수렴성 문제: Reddi 외의 학술 분석에 따라 일부 비볼록 문제에서 Adam이 수렴하지 않을 수 있다.
- 일반화 성능: 일부 학술 문헌은 Adam이 표준 SGD에 비하여 일반화 성능이 약간 낮을 수 있음을 보고한다.
- 가중치 감쇠와의 상호작용: 표준 Adam의 가중치 감쇠 적용이 학술적으로 부적절할 수 있으며, AdamW가 이를 완화한다.
13.10.9 활용 사례
Adam은 다음의 학술적 활용 사례에서 사용된다.
- 트랜스포머 모형의 학습: BERT, GPT, T5 등 대규모 언어 모형의 학습에서 표준 최적화기로 사용
- 컴퓨터 비전 모형의 학습: Vision Transformer, EfficientNet 등의 학습에 사용
- 강화 학습: 다양한 강화 학습 알고리즘에서 정책망과 가치망의 학습에 사용
- 생성 모델: GAN, VAE, 확산 모델 등 생성 모형의 학습에 광범위하게 사용
- 일반 심층 학습: 대부분의 심층 학습 응용에서 기본 최적화기로 채택
13.10.10 출처 및 버전 정보
- Kingma, D. P., Ba, J., Adam: A Method for Stochastic Optimization, International Conference on Learning Representations, 2015
- Loshchilov, I., Hutter, F., Decoupled Weight Decay Regularization, International Conference on Learning Representations, 2019
- Reddi, S. J., Kale, S., Kumar, S., On the Convergence of Adam and Beyond, International Conference on Learning Representations, 2018
- Dozat, T., Incorporating Nesterov Momentum into Adam, ICLR Workshop, 2016
- Wilson, A. C., Roelofs, R., Stern, M., Srebro, N., Recht, B., The Marginal Value of Adaptive Gradient Methods in Machine Learning, Advances in Neural Information Processing Systems, 2017
- Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016