Chapter 64. 옵티마이저의 진화 3: AdaGrad와 RMSProp의 파라미터별 적응형 학습률 Chapter 64. 옵티마이저의 진화 3: AdaGrad와 RMSProp의 파라미터별 적응형 학습률 64.1균일 학습률의 한계와 파라미터별 적응의 필요성 64.2희소 그래디언트 문제와 파라미터 빈도 불균형 분석 64.3AdaGrad 알고리즘의 수학적 정의와 갱신 규칙 64.4그래디언트 누적 제곱합 행렬의 구조와 역할 64.5AdaGrad의 파라미터별 학습률 스케일링 메커니즘 64.6AdaGrad의 볼록 최적화 후회 경계(Regret Bound) 증명 64.7희소 데이터 환경에서 AdaGrad의 우수성 분석 64.8AdaGrad의 단조 감소 학습률 문제와 학습 조기 정체 64.9자연어 처리 임베딩 학습에서 AdaGrad의 적용 사례 64.10RMSProp의 제안 배경: 제프리 힌턴(Geoffrey Hinton)의 미공개 강의 64.11RMSProp의 수학적 정의와 지수 이동 평균(EMA) 갱신 규칙 64.12감쇠 계수(Decay Rate)와 그래디언트 제곱의 지수 가중 평균 64.13RMSProp의 비정상(Non-stationary) 목적 함수 적응 능력 64.14AdaGrad와 RMSProp의 그래디언트 누적 방식 수학적 비교 64.15학습률 감쇠 곡선의 비교 분석: 단조 감소 대 지수 이동 평균 64.16RMSProp의 학습률 하한 유지와 장기 학습 안정성 64.17AdaDelta 알고리즘: 초기 학습률 제거와 헤시안 근사 64.18적응형 학습률과 손실 곡면 곡률(Curvature)의 관계 64.19고차원 파라미터 공간에서의 적응형 스케일링 기하학적 해석 64.20심층 합성곱 신경망 학습에서 AdaGrad와 RMSProp의 실험적 비교 64.21순환 신경망(RNN) 훈련에서 RMSProp의 기울기 폭발 억제 효과 64.22적응형 옵티마이저의 일반화 성능 논쟁과 이론적 탐구 64.23Adam 옵티마이저로의 발전 경로: 모멘텀과 적응형 학습률의 통합