Chapter 66. 정규화와 최적화 결합: AdamW와 가중치 감쇠(Weight Decay) 분리 증명 Chapter 66. 정규화와 최적화 결합: AdamW와 가중치 감쇠(Weight Decay) 분리 증명 66.1과적합(Overfitting) 문제와 정규화(Regularization)의 필요성 66.2L2 정규화의 수학적 정의와 목적 함수 내 페널티 항 66.3L2 정규화와 가중치 감쇠(Weight Decay)의 등가성: SGD에서의 증명 66.4적응형 옵티마이저에서 L2 정규화와 가중치 감쇠의 비등가성 66.5Adam 옵티마이저에서 L2 정규화 적용 시 발생하는 구조적 왜곡 66.6적응형 학습률에 의한 정규화 효과 감쇠 메커니즘 분석 66.7일마 루스치케이넨(Ilya Loshchilov)과 프랭크 후터(Frank Hutter)의 분리 제안 66.8분리된 가중치 감쇠(Decoupled Weight Decay)의 수학적 형식화 66.9AdamW의 완전한 갱신 규칙과 L2 정규화 Adam과의 수식 비교 66.10AdamW에서 가중치 감쇠 계수 λ의 역할과 스케일링 특성 66.11가중치 감쇠와 학습률 스케줄링의 독립적 조절 가능성 66.12AdamW의 파라미터 공간 탐색 궤적과 일반화 성능 향상 근거 66.13고정 가중치 감쇠 대 스케줄드 가중치 감쇠 전략 비교 66.14코사인 어닐링(Cosine Annealing)과 AdamW의 결합: SGDR 기법 66.15워밍업(Warmup) 스케줄과 AdamW의 초기 학습 안정성 66.16선형 워밍업-코사인 감쇠 스케줄의 수학적 구성 66.17대규모 언어 모델 사전 훈련에서 AdamW의 표준적 지위 66.18GPT 및 BERT 계열 모델의 AdamW 하이퍼파라미터 설정 사례 66.19분산 훈련 환경에서 AdamW의 그래디언트 동기화와 안정성 66.20AdamW와 혼합 정밀도(Mixed Precision) 훈련의 결합 전략 66.21LAMB(Layer-wise Adaptive Moments for Batch Training) 옵티마이저와의 비교 66.22가중치 감쇠의 암묵적 정규화 효과에 대한 이론적 해석 66.23AdamW 기반 최적화의 한계와 차세대 정규화-최적화 통합 연구 동향