Chapter 65. 옵티마이저의 진화 4: Adam의 1차 및 2차 모멘트 추정 수학 Chapter 65. 옵티마이저의 진화 4: Adam의 1차 및 2차 모멘트 추정 수학 65.1AdaGrad와 모멘텀의 통합 동기: 적응형 학습률과 관성의 결합 65.2Adam(Adaptive Moment Estimation) 알고리즘의 제안 배경 65.31차 모멘트 추정: 그래디언트의 지수 이동 평균 정의 65.42차 모멘트 추정: 그래디언트 제곱의 지수 이동 평균 정의 65.5지수 감쇠율 β₁과 β₂의 의미와 기본값 설정 근거 65.6초기 편향 문제: 0 벡터 초기화에 따른 모멘트 과소 추정 65.7편향 보정(Bias Correction) 항의 수학적 유도 65.8편향 보정된 1차 모멘트 추정량의 기대값 증명 65.9편향 보정된 2차 모멘트 추정량의 기대값 증명 65.10Adam의 완전한 파라미터 갱신 규칙과 수식 전개 65.11ε(엡실론) 상수의 수치적 안정성 역할과 설정 전략 65.12Adam의 볼록 최적화 후회 경계(Regret Bound) 분석 65.13Adam과 SGD의 수렴 경로 비교: 손실 곡면 궤적 분석 65.14Adam과 RMSProp의 구조적 관계와 차이점 65.15Adam의 비볼록 최적화에서의 수렴 실패 사례 분석 65.16AMSGrad: Adam의 비수렴 문제에 대한 이론적 보정 65.17AMSGrad의 최대 2차 모멘트 유지 메커니즘과 수학적 증명 65.18RAdam(Rectified Adam): 분산 적응형 학습률 워밍업 기법 65.19RAdam의 자유도 기반 학습률 분산 추정과 보정 항 도출 65.20Adam 계열 옵티마이저의 하이퍼파라미터 민감도 분석 65.21대규모 언어 모델 사전 훈련에서 Adam의 표준적 적용 65.22Adam의 메모리 요구량과 대규모 파라미터 공간에서의 효율화 전략 65.23저정밀(Mixed Precision) 훈련 환경에서 Adam의 수치적 안정성 65.24Adam 계열 옵티마이저의 이론적 한계와 차세대 연구 방향