Chapter 61. 미니 배치(Mini-batch)와 확률적 경사하강법(SGD)의 지형 탐색 Chapter 61. 미니 배치(Mini-batch)와 확률적 경사하강법(SGD)의 지형 탐색 61.1배치 경사하강법(Batch Gradient Descent)의 정의와 전체 데이터셋 기반 갱신 61.2배치 경사하강법의 수렴 보장과 대규모 데이터에서의 연산 비효율성 61.3확률적 경사하강법(Stochastic Gradient Descent)의 정의와 단일 샘플 갱신 61.4SGD의 기울기 추정과 기대값 불편 추정량(Unbiased Estimator) 증명 61.5SGD의 확률적 노이즈와 손실 지형(Loss Landscape) 탐색 메커니즘 61.6미니 배치(Mini-batch) 경사하강법의 정의와 절충 전략 61.7미니 배치 크기(Batch Size)에 따른 기울기 분산 변화의 수학적 분석 61.8미니 배치 샘플링 전략: 무작위 셔플링과 에포크(Epoch) 단위 반복 61.9손실 지형의 기하학적 특성: 볼록 함수와 비볼록 함수 구분 61.10비볼록 손실 지형에서의 극소점(Local Minimum)과 전역 최소점(Global Minimum) 61.11안장점(Saddle Point)의 정의와 고차원 최적화에서의 빈도 분석 61.12손실 곡면의 곡률(Curvature)과 헤시안(Hessian) 행렬의 역할 61.13조건수(Condition Number)와 타원형 등고선에서의 진동 현상 61.14SGD의 암묵적 정규화(Implicit Regularization) 효과와 일반화 능력 61.15미니 배치 크기와 학습률(Learning Rate)의 선형 스케일링 법칙 61.16대규모 배치 학습의 일반화 성능 저하 문제와 날카로운 최소점(Sharp Minima) 61.17평평한 최소점(Flat Minima)과 일반화 성능 간의 관계 이론 61.18학습률 감쇄(Learning Rate Decay) 스케줄의 수학적 설계 61.19단계적 감쇄(Step Decay)와 지수 감쇄(Exponential Decay) 전략 61.20코사인 어닐링(Cosine Annealing) 학습률 스케줄의 주기적 감쇄 원리 61.21워밍업(Warmup) 단계의 필요성과 대규모 배치 학습에서의 안정화 61.22순환 학습률(Cyclical Learning Rate)과 슈퍼 컨버전스(Super-Convergence) 61.23학습률 탐색(Learning Rate Finder) 기법과 최적 학습률 범위 결정 61.24미니 배치 SGD의 수렴 속도 이론: 볼록 및 비볼록 설정 분석 61.25기울기 누적(Gradient Accumulation)을 통한 가상 대규모 배치 구현 61.26데이터 병렬화(Data Parallelism)와 미니 배치 분산 학습 아키텍처 61.27동기식(Synchronous) 및 비동기식(Asynchronous) 분산 SGD 비교 61.28대규모 분산 학습에서의 기울기 압축(Gradient Compression)과 통신 최적화 61.29SGD 변형들의 수렴 속도 비교: 이론적 상한(Upper Bound) 분석 61.30미니 배치 SGD의 실무적 하이퍼파라미터 튜닝 전략과 진단 기법