13.2 손실 함수의 기울기와 최적화 방향

손실 함수의 기울기(gradient)는 신경망 학습에서 매개 변수 갱신의 방향과 크기를 결정하는 학술적 핵심 정보이다. 이 절에서는 기울기의 학술적 정의, 방향 미분과의 관계, 최급 강하 방향, 손실 함수의 기울기에 관한 학술적 특성을 학습 순서에 따라 기술한다.

1. 기울기의 학술적 정의

다변수 함수 $f: \mathbb{R}^{n} \to \mathbb{R}$ 의 기울기는 각 변수에 대한 편미분의 벡터로 정의된다.

$\nabla f(\mathbf{x}) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)^\top$

기울기는 함수의 1계 도함수의 다변수 일반화이며, 함수의 변화율과 그 방향을 동시에 표현한다.

13.2.2 방향 미분과의 관계

함수 $f$ 의 점 $\mathbf{x}$ 에서 단위 벡터 $\mathbf{u}$ 방향의 변화율은 방향 미분(directional derivative)으로 정의되며, 다음과 같이 기울기와의 내적으로 표현된다.

$D_{\mathbf{u}} f(\mathbf{x}) = \nabla f(\mathbf{x})^\top \mathbf{u}$

이 표현으로부터 다음의 학술적 결과가 도출된다.

방향 미분의 최대값은 $\mathbf{u} = \nabla f(\mathbf{x}) / \|\nabla f(\mathbf{x})\|$ 일 때 달성되며, 그 값은 $\|\nabla f(\mathbf{x})\|$ 이다.
방향 미분의 최소값은 $\mathbf{u} = -\nabla f(\mathbf{x}) / \|\nabla f(\mathbf{x})\|$ 일 때 달성되며, 그 값은 $-\|\nabla f(\mathbf{x})\|$ 이다.
기울기에 수직인 방향에서는 방향 미분이 0이다(즉, 함수 값이 변화하지 않는다).

이로부터 기울기는 함수가 가장 빠르게 증가하는 방향이며, 그 반대 방향은 함수가 가장 빠르게 감소하는 방향임이 학술적으로 도출된다.

2. 최급 강하 방향

함수의 극소값을 찾기 위한 최급 강하(steepest descent) 방향은 기울기의 반대 방향이다.

$\mathbf{d} = -\nabla f(\mathbf{x})$

경사 하강법은 매개 변수를 이 방향으로 이동시키는 절차이며, 이는 1차 정보만을 사용하는 가장 단순한 최적화 방법이다.

13.2.4 신경망 손실 함수의 기울기

신경망의 손실 함수 $\mathcal{L}(\theta)$ 의 매개 변수 $\theta$ 에 대한 기울기는 다음과 같이 표현된다.

$\nabla_\theta \mathcal{L}(\theta) = \left( \frac{\partial \mathcal{L}}{\partial \theta_1}, \frac{\partial \mathcal{L}}{\partial \theta_2}, \dots, \frac{\partial \mathcal{L}}{\partial \theta_n} \right)^\top$

이 기울기는 역전파 알고리즘에 의하여 계산된다. 역전파는 연쇄 법칙과 계산 그래프를 활용하여 매개 변수의 수에 비례하는 시간 복잡도로 기울기를 계산할 수 있는 학술적·실용적 알고리즘이다.

3. 기울기의 학술적 특성

신경망 손실 함수의 기울기는 다음의 학술적 특성을 가진다.

비선형성: 손실 함수가 비선형이므로 기울기는 매개 변수의 비선형 함수이다.
비볼록성: 손실 함수가 비볼록이므로 기울기가 0인 점이 다수 존재할 수 있으며, 이러한 점은 지역 최소값, 안장점, 또는 평탄한 영역일 수 있다.
잡음성: 학습 데이터의 무작위 표본 추출에 의하여 기울기에는 통계적 잡음이 포함된다(미니배치 학습의 경우).
컨디션 수: 기울기의 방향이 매개 변수의 척도에 따라 다르며, 컨디션 수가 큰 문제에서는 학습이 어려워진다.

4. 정류점과 안장점

기울기가 0인 점은 학술적으로 정류점(stationary point)으로 불린다. 정류점은 다음의 세 가지 학술적 분류를 가진다.

지역 최소값(local minimum): 헤시안이 양정치(positive definite)
지역 최대값(local maximum): 헤시안이 음정치(negative definite)
안장점(saddle point): 헤시안이 부정치(indefinite)

심층 신경망의 손실 표면에서는 안장점이 지역 최소값보다 학술적으로 더 자주 발견된다는 분석 결과가 Dauphin 외의 Identifying and attacking the saddle point problem in high-dimensional non-convex optimization (2014)에서 제시된 바 있다.

5. 기울기의 노름과 학습률의 결합

경사 하강법의 갱신은 학습률과 기울기의 곱으로 결정된다. 따라서 기울기의 노름 $\|\nabla_\theta \mathcal{L}\|$ 은 갱신의 크기에 직접적 영향을 미친다.

기울기의 노름이 매우 큰 경우: 갱신이 과도하게 커져 학습이 발산할 수 있다. 이를 완화하기 위하여 기울기 클리핑이 사용된다.
기울기의 노름이 매우 작은 경우: 갱신이 미미하여 학습이 정체된다. 이를 완화하기 위하여 적응적 학습률 알고리즘(예: Adam)이 사용된다.

6. 출처 및 버전 정보

Nocedal, J., Wright, S. J., Numerical Optimization, Springer, 2006
Boyd, S., Vandenberghe, L., Convex Optimization, Cambridge University Press, 2004
Dauphin, Y. N., 외, Identifying and attacking the saddle point problem in high-dimensional non-convex optimization, Advances in Neural Information Processing Systems, 2014
Bottou, L., Curtis, F. E., Nocedal, J., Optimization Methods for Large-Scale Machine Learning, SIAM Review, 2018
Goodfellow, I., Bengio, Y., Courville, A., Deep Learning, MIT Press, 2016