7.90 모멘텀 기반 경사 하강법

1. 모멘텀의 도입 배경

경사 하강법은 악조건(ill-conditioned) 목적 함수에서 지그재그 현상으로 인해 수렴이 느려진다. 물리학의 관성 개념에 착안하여, 이전 갱신 방향의 관성을 유지함으로써 진동을 억제하고 일관된 방향으로의 진행을 가속하는 것이 모멘텀(momentum) 방법의 핵심 아이디어이다.

2. 고전적 모멘텀 (폴리악 모멘텀)

폴리악(Polyak, 1964)이 제안한 중구 방법(heavy ball method)은 다음과 같은 갱신 규칙을 갖는다.

\mathbf{v}_{k+1} = \beta \mathbf{v}_k - \alpha \nabla f(\mathbf{x}_k)

\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{v}_{k+1}

여기서 \mathbf{v}_k는 속도(velocity) 벡터, \alpha > 0은 학습률, \beta \in [0, 1)은 모멘텀 계수이다. \beta = 0이면 표준 경사 하강법으로 환원된다. 통상적으로 \beta = 0.9가 사용된다.

속도 벡터를 전개하면 과거 그래디언트의 지수 가중 이동 평균(exponentially weighted moving average)임을 확인할 수 있다.

\mathbf{v}_{k+1} = -\alpha \sum_{j=0}^{k} \beta^{k-j} \nabla f(\mathbf{x}_j)

감쇠 인자 \beta^{k-j}에 의해 최근 그래디언트에 더 큰 가중치가 부여되며, 일관된 방향의 그래디언트 성분은 누적되어 가속되고 진동하는 성분은 상쇄된다.

3. 이차 함수에서의 해석

이차 목적 함수 f(\mathbf{x}) = \frac{1}{2}\mathbf{x}^T\mathbf{A}\mathbf{x} - \mathbf{b}^T\mathbf{x} (\mathbf{A} \succ 0)에서 중구 방법의 최적 매개변수는 다음과 같다.

\alpha^* = \left(\frac{2}{\sqrt{\lambda_{\max}} + \sqrt{\lambda_{\min}}}\right)^2, \quad \beta^* = \left(\frac{\sqrt{\kappa} - 1}{\sqrt{\kappa} + 1}\right)^2

이때 수렴률은 다음과 같다.

\rho^* = \frac{\sqrt{\kappa} - 1}{\sqrt{\kappa} + 1}

이는 경사 하강법의 수렴률 (\kappa - 1)/(\kappa + 1)에 비해 현저한 개선이다. 예를 들어, \kappa = 100일 때 경사 하강법의 수렴률은 0.98이지만, 모멘텀 방법의 수렴률은 0.82로 크게 향상된다.

4. 네스테로프 가속 경사법

네스테로프(Nesterov, 1983)가 제안한 가속 경사법(accelerated gradient method)은 그래디언트를 현재 위치가 아닌 모멘텀에 의해 예측된 미래 위치에서 평가한다.

\mathbf{y}_{k} = \mathbf{x}_k + \beta_k(\mathbf{x}_k - \mathbf{x}_{k-1})

\mathbf{x}_{k+1} = \mathbf{y}_k - \alpha \nabla f(\mathbf{y}_k)

여기서 \beta_k는 모멘텀 매개변수이다. 이 방법은 “전방 관측(lookahead)” 전략으로 이해할 수 있으며, 모멘텀에 의한 이동이 목적 함수를 악화시키는 경우 이를 조기에 보정할 수 있다.

4.1 최적 수렴률

f가 볼록이고 \nabla fL-리프시츠 연속일 때, 네스테로프 가속법은 다음의 수렴률을 달성한다.

f(\mathbf{x}_k) - f(\mathbf{x}^*) = O\left(\frac{1}{k^2}\right)

이는 경사 하강법의 O(1/k)에 비해 이차적으로 빠르며, 네스테로프는 이 수렴률이 1차 방법(그래디언트만 사용하는 방법)으로 달성 가능한 최적 수렴률임을 증명하였다. \epsilon-정확도를 달성하기 위해 경사 하강법이 O(1/\epsilon)회 반복을 요구하는 반면, 가속법은 O(1/\sqrt{\epsilon})회 반복이면 충분하다.

f\mu-강볼록이면, 수렴률은 다음과 같이 향상된다.

f(\mathbf{x}_k) - f(\mathbf{x}^*) \leq O\left(\left(1 - \sqrt{\frac{\mu}{L}}\right)^k\right) = O\left(\left(\frac{\sqrt{\kappa} - 1}{\sqrt{\kappa} + 1}\right)^k\right)

5. 네스테로프 모멘텀의 대안적 표현

실용적 구현에서 네스테로프 모멘텀은 다음과 같은 동치 형태로 표현되기도 한다.

\mathbf{v}_{k+1} = \beta \mathbf{v}_k - \alpha \nabla f(\mathbf{x}_k + \beta \mathbf{v}_k)

\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{v}_{k+1}

또는 변수 치환에 의해 다음과 같은 형태로도 사용된다.

\mathbf{v}_{k+1} = \beta \mathbf{v}_k - \alpha \nabla f(\mathbf{x}_k)

\mathbf{x}_{k+1} = \mathbf{x}_k + \beta \mathbf{v}_{k+1} - \alpha \nabla f(\mathbf{x}_k)

6. 확률적 설정에서의 모멘텀

6.1 SGD with Momentum

확률적 경사 하강법에 모멘텀을 결합한 것이 실용적으로 가장 널리 사용되는 형태이다.

\mathbf{v}_{k+1} = \beta \mathbf{v}_k - \alpha \mathbf{g}_k

\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{v}_{k+1}

여기서 \mathbf{g}_k는 확률적 또는 미니 배치 그래디언트이다. 모멘텀은 확률적 그래디언트의 잡음을 평활화하는 저역 통과 필터(low-pass filter) 역할을 수행하며, 잡음이 있는 환경에서 안정적인 진행 방향을 유지하는 데 기여한다.

6.2 네스테로프 모멘텀의 확률적 설정에서의 효과

확률적 설정에서 네스테로프 모멘텀의 이론적 이점이 결정론적 설정만큼 뚜렷하지 않을 수 있다. 확률적 그래디언트의 잡음이 가속의 이득을 상쇄할 수 있기 때문이다. 그럼에도 불구하고, 실용적으로는 네스테로프 모멘텀이 고전적 모멘텀과 유사하거나 약간 나은 성능을 보이는 경우가 많다.

7. 모멘텀의 연속 시간 해석

모멘텀 방법은 감쇠 진동계의 이산화로 해석할 수 있다. 중구 방법의 연속 시간 한계는 다음의 2차 상미분 방정식이다.

\ddot{\mathbf{x}}(t) + \gamma \dot{\mathbf{x}}(t) + \nabla f(\mathbf{x}(t)) = \mathbf{0}

여기서 \gamma > 0은 감쇠 계수이다. 이는 포텐셜 f 내에서 감쇠력을 받으며 운동하는 입자의 역학 방정식으로, 감쇠에 의해 에너지가 소산되며 최종적으로 포텐셜의 극소점에 정착한다. 네스테로프 가속법의 연속 시간 한계는 시간 의존 감쇠를 갖는 다음의 방정식에 대응한다.

\ddot{\mathbf{x}}(t) + \frac{3}{t} \dot{\mathbf{x}}(t) + \nabla f(\mathbf{x}(t)) = \mathbf{0}

감쇠 계수 3/t가 시간에 따라 감소하며, 이 특수한 감쇠 구조가 O(1/k^2) 수렴률을 산출한다.

8. 로봇 공학에서의 모멘텀 활용

모멘텀 기반 방법은 로봇 학습에서 다음과 같은 맥락에서 활용된다.

심층 신경망 학습: 로봇 인식, 모방 학습, 정책 근사에 사용되는 신경망의 학습에서 SGD with Momentum은 표준 최적화기이다. \beta = 0.9, 학습률 감쇠 스케줄과의 결합이 일반적이다.

경사 기반 궤적 최적화: CHOMP(Covariant Hamiltonian Optimization for Motion Planning)와 같은 경사 기반 경로 최적화에서 모멘텀을 도입하여 수렴을 가속하고 국소 최적점으로부터의 탈출을 촉진한다.

9. 참고 문헌

  • Polyak, B. T. (1964). “Some Methods of Speeding Up the Convergence of Iteration Methods.” USSR Computational Mathematics and Mathematical Physics, 4(5), 1–17.
  • Nesterov, Y. (1983). “A Method of Solving a Convex Programming Problem with Convergence Rate O(1/k^2).” Soviet Mathematics Doklady, 27(2), 372–376.
  • Sutskever, I., Martens, J., Dahl, G., & Hinton, G. (2013). “On the Importance of Initialization and Momentum in Deep Learning.” Proceedings of ICML, 1139–1147.
  • Su, W., Boyd, S., & Candès, E. J. (2016). “A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights.” Journal of Machine Learning Research, 17(153), 1–43.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.

version: 1.0