Chapter 55. 경사하강법(Gradient Descent) 아키텍처와 미적분학적 기초 Chapter 55. 경사하강법(Gradient Descent) 아키텍처와 미적분학적 기초 55.1경사하강법의 역사적 기원과 최적화 이론에서의 위치 55.2다변수 함수의 편미분(Partial Derivative) 정의와 연산 55.3그래디언트 벡터(Gradient Vector)의 기하학적 의미 55.4방향 도함수(Directional Derivative)와 최대 변화율 방향 55.5그래디언트의 음의 방향과 최급강하(Steepest Descent) 원리 55.6배치 경사하강법(Batch Gradient Descent)의 알고리즘 구조 55.7배치 경사하강법의 수렴 조건과 볼록 함수에서의 수렴 증명 55.8학습률(Learning Rate)의 수학적 역할과 수렴 안정성 분석 55.9고정 학습률에서의 진동(Oscillation)과 발산(Divergence) 조건 55.10립시츠 연속(Lipschitz Continuity) 조건과 최적 학습률 상한 55.11확률적 경사하강법(Stochastic Gradient Descent)의 수학적 정의 55.12확률적 경사하강법의 분산(Variance) 분석과 노이즈 효과 55.13미니배치 경사하강법(Mini-batch SGD)의 분산 감소 메커니즘 55.14배치 크기(Batch Size)와 일반화 성능 간의 이론적 관계 55.15경사하강법의 수렴 속도(Convergence Rate): 선형 및 초선형 수렴 55.16조건수(Condition Number)와 최적화 문제의 난이도 정량화 55.17등고선(Contour) 분석을 통한 경사하강법 경로 시각적 해석 55.18뉴턴 방법(Newton’s Method)과 2차 최적화의 수학적 구조 55.19헤시안 행렬(Hessian Matrix)의 계산 비용과 근사 기법 55.20준뉴턴법(Quasi-Newton Methods): BFGS와 L-BFGS 알고리즘 55.21자연 경사(Natural Gradient)와 피셔 정보 행렬(Fisher Information Matrix) 55.22경사 클리핑(Gradient Clipping)의 수학적 정당성과 기울기 폭발 방지 55.23경사 누적(Gradient Accumulation)의 실무적 구현과 유효 배치 크기 55.24학습률 탐색(Learning Rate Finder) 알고리즘의 원리 55.25순환 학습률(Cyclical Learning Rate)의 이론적 근거 55.261사이클 정책(One-Cycle Policy)의 초수렴(Super-Convergence) 메커니즘 55.27경사하강법의 암묵적 정규화(Implicit Regularization) 효과 55.28확률적 그래디언트 노이즈와 평탄 최솟값(Flat Minima) 탐색 55.29분산 경사하강법(Distributed SGD)과 통신 효율성 문제 55.30경사하강법 변형들의 수렴 특성 비교와 실무적 선택 기준