7.123 신뢰 영역법

1. 기본 원리

신뢰 영역법(trust-region method)은 현재 점 \mathbf{x}_k 주위에서 목적 함수의 모델(통상 2차 모델)이 신뢰할 수 있는 영역을 명시적으로 제한하고, 그 영역 내에서 모델을 최소화하여 다음 반복점을 결정하는 최적화 방법이다. 직선 탐색법이 먼저 방향을 결정하고 스텝 크기를 선택하는 반면, 신뢰 영역법은 방향과 크기를 동시에 결정한다.

2. 신뢰 영역 하위 문제

각 반복에서 다음의 제약된 이차 최소화 문제를 풀어야 한다.

\min_{\mathbf{d}} \quad m_k(\mathbf{d}) = f(\mathbf{x}_k) + \nabla f(\mathbf{x}_k)^T\mathbf{d} + \frac{1}{2}\mathbf{d}^T\mathbf{B}_k\mathbf{d}

\text{s.t.} \quad \lVert \mathbf{d} \rVert \leq \Delta_k

여기서 \mathbf{B}_k는 헤시안 또는 그 근사, \Delta_k > 0은 신뢰 영역의 반지름이다. 이 하위 문제의 해 \mathbf{d}_k^*는 코시 점(Cauchy point)과 뉴턴 점 사이에 놓이며, 신뢰 영역의 경계에 위치할 수 있다.

3. 실제 감소와 예측 감소

실제 감소(actual reduction)와 예측 감소(predicted reduction)의 비율이 갱신의 수용 여부와 신뢰 영역의 크기 조절에 사용된다.

\rho_k = \frac{f(\mathbf{x}_k) - f(\mathbf{x}_k + \mathbf{d}_k)}{m_k(\mathbf{0}) - m_k(\mathbf{d}_k)}

  • \rho_k \approx 1: 모델이 정확하므로 \Delta_k를 증가시킨다.
  • \rho_k > 0 충분히 큼: 스텝을 수용하고 \Delta_k를 유지하거나 증가시킨다.
  • \rho_k 작음 또는 음수: 모델이 부정확하므로 스텝을 기각하고 \Delta_k를 축소한다.

4. 알고리즘

  1. 초기점 \mathbf{x}_0, 초기 반지름 \Delta_0, 매개변수 0 < \eta_1 < \eta_2 < 1, 0 < \gamma_1 < 1 < \gamma_2
  2. k = 0, 1, 2, \ldots에 대해:
  3. \quad 신뢰 영역 하위 문제를 풀어 \mathbf{d}_k를 구한다.
  4. \quad \rho_k를 계산한다.
  5. \quad if \rho_k \geq \eta_1: \mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{d}_k (수용)
  6. \quad else: \mathbf{x}_{k+1} = \mathbf{x}_k (기각)
  7. \quad 반지름 갱신:
  • \rho_k < \eta_1: \Delta_{k+1} = \gamma_1 \Delta_k (축소)
  • \eta_1 \leq \rho_k < \eta_2: \Delta_{k+1} = \Delta_k (유지)
  • \rho_k \geq \eta_2 and \lVert \mathbf{d}_k \rVert = \Delta_k: \Delta_{k+1} = \gamma_2 \Delta_k (확대)

통상적 매개변수: \eta_1 = 0.1, \eta_2 = 0.75, \gamma_1 = 0.25, \gamma_2 = 2.

5. 하위 문제의 해법

5.1 정확 해: 모레-소렌센 방법

신뢰 영역 하위 문제의 전역 최적해는 다음의 조건을 만족하는 (\mathbf{d}^*, \mu^*)이다.

(\mathbf{B}_k + \mu^*\mathbf{I})\mathbf{d}^* = -\nabla f(\mathbf{x}_k)

\mu^* \geq 0, \quad \mu^*(\lVert \mathbf{d}^* \rVert - \Delta_k) = 0

\mathbf{B}_k + \mu^*\mathbf{I} \succeq 0

\lVert \mathbf{d}^* \rVert < \Delta_k이면 \mu^* = 0이고 비제약 뉴턴 스텝이 된다. \lVert \mathbf{d}^* \rVert = \Delta_k이면 \mu^* > 0이며, 이는 대각 정규화된 뉴턴 방정식을 풀어야 한다. 모레-소렌센(Moré-Sorensen) 알고리즘은 \mu에 대한 세속 방정식(secular equation) 1/\lVert \mathbf{d}(\mu) \rVert = 1/\Delta_k를 뉴턴 반복으로 풀어 정밀한 해를 산출한다.

5.2 근사 해: 코시 점과 도그레그

코시 점(Cauchy point): 최급경사 방향 -\nabla f(\mathbf{x}_k)를 따라 신뢰 영역 내에서 모델을 최소화하는 점이다. 계산 비용이 O(n)이며, 전역 수렴을 보장하기 위한 최소한의 조건을 만족한다.

도그레그 방법(Dogleg method): 코시 점과 뉴턴 점을 잇는 절선 경로를 따라 신뢰 영역 경계와의 교점을 구한다. \mathbf{B}_k \succ 0일 때 적용 가능하며, 정밀 해에 비해 계산이 단순하면서도 양호한 성능을 제공한다.

슈타이하우그-토인트 방법(Steihaug-Toint method): 켤레 그래디언트법으로 하위 문제를 근사적으로 풀며, 음의 곡률이 감지되거나 신뢰 영역 경계에 도달하면 즉시 종료한다. 대규모 문제에서 헤시안을 명시적으로 형성할 필요 없이 헤시안-벡터 곱만으로 해를 구할 수 있어 효율적이다.

6. 직선 탐색법과의 비교

특성신뢰 영역법직선 탐색법
결정 순서방향과 크기 동시 결정방향 결정 후 크기 결정
비양정치 헤시안자연스럽게 처리헤시안 수정 필요
수렴 보장코시 감소 조건으로 전역 수렴울프 조건으로 전역 수렴
구현 복잡도하위 문제 해법 필요상대적으로 단순

7. 수렴 이론

적절한 조건(코시 감소 조건)하에서 신뢰 영역법은 다음의 전역 수렴을 보장한다.

\liminf_{k \to \infty} \lVert \nabla f(\mathbf{x}_k) \rVert = 0

정확 헤시안 \mathbf{B}_k = \nabla^2 f(\mathbf{x}_k)를 사용하고 최적해 근방에서 신뢰 영역이 활성이지 않으면(\lVert \mathbf{d}_k \rVert < \Delta_k), 이차 수렴이 달성된다.

8. 로봇 공학에서의 응용

신뢰 영역법은 비선형 최소 제곱 문제에서 레벤버그-마쿼트 알고리즘의 이론적 기반을 형성한다. 로봇 캘리브레이션, SLAM 백엔드 최적화, 번들 조정 등의 문제에서 신뢰 영역 기반 비선형 최소 제곱 해법이 핵심적으로 사용된다.

9. 참고 문헌

  • Conn, A. R., Gould, N. I. M., & Toint, P. L. (2000). Trust-Region Methods. SIAM.
  • Nocedal, J., & Wright, S. J. (2006). Numerical Optimization (2nd ed.). Springer.
  • Moré, J. J., & Sorensen, D. C. (1983). “Computing a Trust Region Step.” SIAM Journal on Scientific and Statistical Computing, 4(3), 553–572.

version: 1.0