Chapter 26. 트랜스포머의 학습과 최적화 Chapter 26. 트랜스포머의 학습과 최적화 26.1트랜스포머 학습의 전체 절차 26.2사전 학습(Pre-Training)과 미세 조정(Fine-Tuning) 26.3학습률 워밍업(Learning Rate Warm-Up) 26.4코사인 학습률 스케줄링(Cosine Learning Rate Scheduling) 26.5AdamW 최적화기와 가중치 감쇠 26.6레이블 스무딩(Label Smoothing) 26.7드롭아웃의 적용 위치와 비율 26.8혼합 정밀도 학습(Mixed Precision Training) 26.9경사 누적(Gradient Accumulation) 26.10분산 학습(Distributed Training) 기초 26.11데이터 병렬 처리(Data Parallelism) 26.12트랜스포머 학습의 수렴 특성과 진단