7.87 학습률의 선택과 수렴 영향

1. 학습률의 역할

경사 하강법 \mathbf{x}_{k+1} = \mathbf{x}_k - \alpha_k \nabla f(\mathbf{x}_k)에서 학습률(learning rate) \alpha_k는 갱신 크기를 결정하는 핵심 초매개변수(hyperparameter)이다. 학습률이 지나치게 크면 갱신이 최적점을 넘어서서 발산할 수 있고, 지나치게 작으면 수렴이 극도로 느려진다. 적절한 학습률의 선택은 경사 하강법의 성능을 좌우하는 가장 중요한 설계 요소이다.

2. 학습률과 안정성 조건

2.1 이차 함수에서의 안정성 범위

이차 목적 함수 f(\mathbf{x}) = \frac{1}{2}\mathbf{x}^T\mathbf{A}\mathbf{x} - \mathbf{b}^T\mathbf{x} (\mathbf{A} \succ 0)에서 고정 학습률 \alpha의 안정성 조건은 다음과 같다.

0 < \alpha < \frac{2}{\lambda_{\max}(\mathbf{A})}

\alpha > 2/\lambda_{\max}이면 오차가 기하급수적으로 증가하여 발산한다. \alpha = 2/\lambda_{\max}에서는 최대 고유값 방향에서 진동이 발생하며 수렴하지 않는다.

2.2 일반 함수에서의 조건

\nabla fL-리프시츠 연속이면, 학습률 \alpha \leq 1/L에서 다음의 충분 감소가 보장된다.

f(\mathbf{x}_{k+1}) \leq f(\mathbf{x}_k) - \frac{\alpha}{2}(2 - \alpha L) \lVert \nabla f(\mathbf{x}_k) \rVert^2

\alpha < 2/L이면 우변의 감소량이 양수이므로 목적 함수가 단조 감소한다. \alpha = 1/L에서 감소량이 최대화된다.

3. 학습률이 수렴 속도에 미치는 영향

3.1 강볼록 함수에서의 수렴률

\mu-강볼록이고 L-매끄러운 함수에서 고정 학습률 \alpha의 수렴률은 다음과 같다.

\lVert \mathbf{x}_{k+1} - \mathbf{x}^* \rVert^2 \leq (1 - 2\alpha\mu + \alpha^2 L^2) \lVert \mathbf{x}_k - \mathbf{x}^* \rVert^2

수렴률 \rho(\alpha) = 1 - 2\alpha\mu + \alpha^2 L^2를 최소화하는 최적 학습률은 다음과 같다.

\alpha^* = \frac{\mu}{L^2} \quad \Rightarrow \quad \rho^* = 1 - \frac{\mu^2}{L^2} = 1 - \frac{1}{\kappa^2}

그러나 리프시츠 조건의 보다 정밀한 분석에서는 \alpha^* = 2/(\mu + L)이 최적이며, 이때 수렴률은 다음과 같다.

\rho^* = \frac{\kappa - 1}{\kappa + 1}

조건수 \kappa = L/\mu가 클수록 수렴률이 1에 가까워져 수렴이 느려진다.

4. 학습률 스케줄

4.1 고정 학습률(Constant Learning Rate)

\alpha_k = \alpha, \quad \forall k

가장 단순하지만, 최적 \alpha의 사전 지식이 필요하다. 결정론적 경사 하강법에서는 적절한 고정 학습률로 정류점에 수렴한다.

4.2 시간 감쇠(Time-Based Decay)

\alpha_k = \frac{\alpha_0}{1 + \beta k}

\alpha_0는 초기 학습률, \beta는 감쇠율이다. 초기에 큰 스텝으로 빠르게 진행하고, 후기에 작은 스텝으로 정밀하게 수렴한다. 확률적 경사 하강법에서는 잡음의 영향을 줄이기 위해 감쇠가 필수적이다.

4.3 지수 감쇠(Exponential Decay)

\alpha_k = \alpha_0 \gamma^k, \quad 0 < \gamma < 1

기하급수적으로 학습률이 감소하며, 감쇠 인자 \gamma가 1에 가까울수록 느리게 감소한다.

4.4 단계적 감쇠(Step Decay)

일정한 반복 횟수(epoch)마다 학습률을 불연속적으로 축소한다.

\alpha_k = \alpha_0 \gamma^{\lfloor k/T \rfloor}

여기서 T는 감쇠 주기, \gamma는 감쇠 비율이다. 심층 학습에서 널리 사용되는 스케줄이다.

4.5 코사인 어닐링(Cosine Annealing)

\alpha_k = \alpha_{\min} + \frac{1}{2}(\alpha_0 - \alpha_{\min})\left(1 + \cos\frac{\pi k}{K}\right)

여기서 K는 총 반복 횟수이다. 코사인 함수에 의해 학습률이 매끄럽게 감소하며, 초기와 말기에서 감소가 완만하고 중간에서 급격한 특성을 갖는다.

4.6 워밍업(Warmup)

학습 초기에 학습률을 영에서 목표값까지 점진적으로 증가시키는 기법이다.

\alpha_k = \frac{k}{k_{warm}} \alpha_0, \quad k \leq k_{warm}

초기의 큰 그래디언트에 의한 불안정을 방지하며, 이후 주 스케줄로 전환된다. 대규모 배치 학습에서 특히 효과적이다.

5. 적응적 학습률

5.1 바르질라이-보르바인(Barzilai-Borwein, BB) 방법

이전 반복의 그래디언트 변화를 이용하여 학습률을 적응적으로 설정한다.

\alpha_k^{BB1} = \frac{\mathbf{s}_{k-1}^T \mathbf{s}_{k-1}}{\mathbf{s}_{k-1}^T \mathbf{y}_{k-1}}, \quad \alpha_k^{BB2} = \frac{\mathbf{s}_{k-1}^T \mathbf{y}_{k-1}}{\mathbf{y}_{k-1}^T \mathbf{y}_{k-1}}

여기서 \mathbf{s}_{k-1} = \mathbf{x}_k - \mathbf{x}_{k-1}, \mathbf{y}_{k-1} = \nabla f(\mathbf{x}_k) - \nabla f(\mathbf{x}_{k-1})이다. BB 학습률은 헤시안의 곡률 정보를 간접적으로 반영하며, 추가 저장 없이 수렴을 가속한다. 그러나 단조 감소를 보장하지 않으므로, 비단조 직선 탐색(nonmonotone line search)과 결합하여 사용되는 경우가 많다.

5.2 리프시츠 상수의 적응적 추정

역추적 직선 탐색을 통해 리프시츠 상수의 국소 추정치를 적응적으로 갱신한다.

\hat{L}_k = \frac{\lVert \nabla f(\mathbf{x}_k) - \nabla f(\mathbf{x}_{k-1}) \rVert}{\lVert \mathbf{x}_k - \mathbf{x}_{k-1} \rVert}

이 추정치를 기반으로 \alpha_k = 1/\hat{L}_k를 설정하면, 함수의 국소적 곡률에 적응하는 학습률을 얻을 수 있다.

6. 학습률 선택의 실용적 지침

  1. 너무 큰 학습률의 징후: 목적 함수가 진동하거나 발산한다. 학습률을 1/2 또는 1/10로 축소한다.
  2. 너무 작은 학습률의 징후: 목적 함수가 극히 느리게 감소한다. 학습률을 2배 또는 10배로 증가시킨다.
  3. 격자 탐색: \alpha \in \{10^{-4}, 10^{-3}, 10^{-2}, 10^{-1}, 1\}과 같은 로그 스케일 격자에서 최적 학습률을 탐색한다.
  4. 학습 곡선 관찰: 목적 함수의 반복에 따른 변화를 도시하여 학습률의 적절성을 시각적으로 판단한다.

7. 로봇 공학에서의 고려 사항

로봇 학습과 최적화에서 학습률의 선택은 다음과 같은 특수한 맥락에서 이루어진다.

온라인 학습: 로봇이 운용 중 실시간으로 파라미터를 갱신하는 경우, 학습률은 환경 변화에 대한 적응성과 잡음에 대한 안정성 사이의 균형을 결정한다. 적응적 학습률이 이러한 상황에 유리하다.

안전 제약: 로봇 제어 파라미터의 급격한 변화는 물리적 안전 문제를 야기할 수 있으므로, 학습률에 상한을 부과하여 갱신 크기를 제한하는 것이 필요할 수 있다.

다중 스케일 문제: 로봇 시스템의 파라미터가 서로 다른 스케일(예: 길이 [m]와 관성 [kg·m²])을 가질 때, 성분별로 다른 학습률을 적용하는 것이 효과적이다. 이는 파라미터 정규화 또는 적응적 학습률 방법으로 해결된다.

8. 참고 문헌

  • Nocedal, J., & Wright, S. J. (2006). Numerical Optimization (2nd ed.). Springer.
  • Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Springer.
  • Barzilai, J., & Borwein, J. M. (1988). “Two-Point Step Size Gradient Methods.” IMA Journal of Numerical Analysis, 8(1), 141–148.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  • Bottou, L., Curtis, F. E., & Nocedal, J. (2018). “Optimization Methods for Large-Scale Machine Learning.” SIAM Review, 60(2), 223–311.

version: 1.0