7.22 극값의 판정과 이차 충분 조건

1. 임계점과 극값의 정의

1.1 임계점

n변수 스칼라 함수 f: \mathbb{R}^n \to \mathbb{R}C^1급일 때, 그래디언트가 영벡터인 점 \mathbf{x}^*임계점(critical point) 또는 정류점(stationary point)이라 한다.

\nabla f(\mathbf{x}^*) = \mathbf{0}

이는 모든 편도함수가 동시에 0이 되는 조건, 즉

\frac{\partial f}{\partial x_i}(\mathbf{x}^*) = 0, \quad i = 1, 2, \dots, n

과 동치이다. 임계점에서의 일차 전미분이 0이므로, 함수의 국소 거동은 이차 이상의 도함수에 의해 결정된다.

1.2 극값의 정의

\mathbf{x}^*의 적당한 열린 근방(open neighborhood) \mathcal{N}(\mathbf{x}^*)가 존재하여 다음 조건을 만족하면, \mathbf{x}^*를 극값점(extremum)이라 한다.

  • 극소점(local minimum): 모든 \mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}에 대해 f(\mathbf{x}) > f(\mathbf{x}^*)
  • 극대점(local maximum): 모든 \mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}에 대해 f(\mathbf{x}) < f(\mathbf{x}^*)

부등식에 등호를 허용하면 각각 광의의 극소(weak local minimum)와 광의의 극대(weak local maximum)가 된다.

2. 일차 필요 조건

2.1 정리

f가 점 \mathbf{x}^*에서 미분 가능하고 극값을 가지면, \nabla f(\mathbf{x}^*) = \mathbf{0}이다.

2.2 증명의 개요

\mathbf{x}^*가 극소점이라 가정하자. 임의의 방향 벡터 \mathbf{d} \in \mathbb{R}^n에 대해 일변수 함수 g(t) = f(\mathbf{x}^* + t\mathbf{d})를 정의하면, gt = 0에서 극소값을 가진다. 따라서

g'(0) = \nabla f(\mathbf{x}^*)^T \mathbf{d} = 0

이 모든 \mathbf{d}에 대해 성립하므로 \nabla f(\mathbf{x}^*) = \mathbf{0}이다.

일차 필요 조건은 극값점이 반드시 임계점임을 보장하지만, 그 역은 성립하지 않는다. 임계점이 극대인지, 극소인지, 또는 안장점(saddle point)인지를 판정하기 위해서는 이차 조건이 필요하다.

3. 이차 충분 조건

3.1 정리

fC^2급이고 \mathbf{x}^*가 임계점(\nabla f(\mathbf{x}^*) = \mathbf{0})일 때,

  1. \mathbf{H}_f(\mathbf{x}^*)양정치(positive definite)이면, \mathbf{x}^*엄밀한 극소점(strict local minimum)이다.
  2. \mathbf{H}_f(\mathbf{x}^*)음정치(negative definite)이면, \mathbf{x}^*엄밀한 극대점(strict local maximum)이다.
  3. \mathbf{H}_f(\mathbf{x}^*)부정치(indefinite)이면, \mathbf{x}^*안장점(saddle point)이다.

3.2 증명의 개요

임계점 \mathbf{x}^*에서의 이차 테일러 근사는

f(\mathbf{x}^* + \boldsymbol{\delta}) = f(\mathbf{x}^*) + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} + O(\lVert \boldsymbol{\delta} \rVert^3)

이다. \mathbf{H}_f(\mathbf{x}^*)가 양정치이면, 최소 고유값 \lambda_{\min} > 0에 의해

\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq \lambda_{\min} \lVert \boldsymbol{\delta} \rVert^2 > 0

이 모든 \boldsymbol{\delta} \neq \mathbf{0}에 대해 성립한다. 충분히 작은 \lVert \boldsymbol{\delta} \rVert에 대해 이차 항이 나머지 항을 지배하므로

f(\mathbf{x}^* + \boldsymbol{\delta}) - f(\mathbf{x}^*) \geq \frac{\lambda_{\min}}{2} \lVert \boldsymbol{\delta} \rVert^2 - C \lVert \boldsymbol{\delta} \rVert^3 > 0

이 성립하여 \mathbf{x}^*가 엄밀한 극소점임이 증명된다. 음정치의 경우는 -f에 같은 논증을 적용하면 된다.

부정치의 경우에는 양의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 증가하고, 음의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 감소하므로, \mathbf{x}^*는 극값이 될 수 없다.

4. 이차 필요 조건

임계점 \mathbf{x}^*가 극소점이면, 헤시안 행렬 \mathbf{H}_f(\mathbf{x}^*)는 양의 반정치(positive semi-definite)이다.

\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq 0, \quad \forall\, \boldsymbol{\delta} \in \mathbb{R}^n

이는 충분 조건에서의 양정치 조건보다 약한 조건이다. 양의 반정치이지만 양정치가 아닌 경우(즉, 일부 고유값이 0인 경우)에는 이차 조건만으로 극값 여부를 판정할 수 없으며, 고차 도함수에 의한 추가 분석이 필요하다.

5. 변수 함수의 이차 판정법

5.1 판별식에 의한 분류

2변수 함수 f(x, y)의 임계점 (x_0, y_0)에서 헤시안 행렬은

\mathbf{H}_f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{xy} & f_{yy} \end{pmatrix}

이다. 판별식(discriminant)을

D = f_{xx} f_{yy} - f_{xy}^2 = \det(\mathbf{H}_f)

로 정의하면, 다음의 판정 기준이 성립한다.

조건판정 결과
D > 0이고 f_{xx} > 0극소점
D > 0이고 f_{xx} < 0극대점
D < 0안장점
D = 0판정 불능

D > 0이고 f_{xx} > 0이면 헤시안의 두 고유값이 모두 양수(양정치)이며, D > 0이고 f_{xx} < 0이면 두 고유값이 모두 음수(음정치)이다. D < 0이면 고유값의 부호가 다르므로 부정치이다.

5.2 계산 예시

f(x, y) = x^4 + y^4 - 2x^2의 임계점을 구하면

f_x = 4x^3 - 4x = 0 \implies x = 0, \pm 1

f_y = 4y^3 = 0 \implies y = 0

이므로 임계점은 (0, 0), (1, 0), (-1, 0)이다. 이계 편도함수는

f_{xx} = 12x^2 - 4, \quad f_{xy} = 0, \quad f_{yy} = 12y^2

각 임계점에서의 판별식과 판정 결과는 다음과 같다.

임계점f_{xx}f_{yy}f_{xy}D판정
(0, 0)-4000판정 불능
(1, 0)8000판정 불능
(-1, 0)8000판정 불능

이 예시에서는 모든 임계점에서 D = 0이므로 이차 판정법으로는 판정할 수 없다. 이 경우 고차 도함수나 직접적인 함수값 비교를 통해 극값을 판정해야 한다.

6. n변수로의 일반화

6.1 실베스터 판정법에 의한 적용

n변수 함수의 임계점에서 헤시안 \mathbf{H}_f의 정부호를 판정하기 위해 실베스터 판정법(Sylvester’s criterion)을 적용한다. 선행 주소행렬식(leading principal minor)을 D_k = \det(\mathbf{H}_k), k = 1, \dots, n으로 정의하면

  • 양정치 (극소): D_1 > 0, D_2 > 0, \dots, D_n > 0
  • 음정치 (극대): D_1 < 0, D_2 > 0, D_3 < 0, \dots, 즉 (-1)^k D_k > 0

음정치 조건에서 선행 주소행렬식의 부호가 교대함에 주의하라.

6.2 고유값에 의한 직접 판정

헤시안의 고유값 \lambda_1, \lambda_2, \dots, \lambda_n을 직접 계산하여 판정할 수도 있다.

  • 모든 \lambda_i > 0: 양정치 → 극소점
  • 모든 \lambda_i < 0: 음정치 → 극대점
  • 양수와 음수 고유값 공존: 부정치 → 안장점
  • \lambda_i \geq 0이고 일부 \lambda_i = 0: 양의 반정치 → 판정 불능
  • \lambda_i \leq 0이고 일부 \lambda_i = 0: 음의 반정치 → 판정 불능

수치적으로는 고유값이 정확히 0인지 판단하기 어려우므로, 적절한 수치적 허용 오차(numerical tolerance) \epsilon을 설정하여 \lvert \lambda_i \rvert < \epsilon인 경우를 0으로 간주한다.

7. 제약 조건하의 극값 판정

7.1 등식 제약 문제

등식 제약 조건 \mathbf{h}(\mathbf{x}) = \mathbf{0} (\mathbf{h}: \mathbb{R}^n \to \mathbb{R}^p, p < n)하에서 f를 최적화하는 문제에서는, 라그랑지안(Lagrangian)

\mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}) = f(\mathbf{x}) + \boldsymbol{\lambda}^T \mathbf{h}(\mathbf{x})

의 헤시안만으로는 충분하지 않다. 이 경우 접선 공간에서의 이차 충분 조건(bordered Hessian condition 또는 projected Hessian condition)이 적용된다.

제약 야코비 행렬 \mathbf{J}_h(\mathbf{x}^*) \in \mathbb{R}^{p \times n}의 영공간(null space)이 접선 공간 \mathcal{T}를 형성한다.

\mathcal{T} = \{\mathbf{v} \in \mathbb{R}^n : \mathbf{J}_h(\mathbf{x}^*) \mathbf{v} = \mathbf{0}\}

이차 충분 조건은 라그랑지안의 헤시안 \nabla^2_{\mathbf{x}} \mathcal{L}이 접선 공간 \mathcal{T} 위에서 양정치(극소의 경우) 또는 음정치(극대의 경우)인 것이다.

\mathbf{v}^T \nabla^2_{\mathbf{x}} \mathcal{L}(\mathbf{x}^*, \boldsymbol{\lambda}^*) \mathbf{v} > 0, \quad \forall\, \mathbf{v} \in \mathcal{T} \setminus \{\mathbf{0}\}

7.2 연변 헤시안에 의한 판정

2변수 함수에 하나의 등식 제약 h(x, y) = 0이 있는 경우, 연변 헤시안(bordered Hessian)

\bar{\mathbf{H}} = \begin{pmatrix} 0 & h_x & h_y \\ h_x & \mathcal{L}_{xx} & \mathcal{L}_{xy} \\ h_y & \mathcal{L}_{xy} & \mathcal{L}_{yy} \end{pmatrix}

의 행렬식 부호로 극값을 판정한다. \det(\bar{\mathbf{H}}) > 0이면 극대, \det(\bar{\mathbf{H}}) < 0이면 극소이다.

8. 이차 충분 조건이 판정 불능인 경우의 처리

헤시안이 양의 반정치 또는 음의 반정치인 경우(일부 고유값이 0), 이차 충분 조건은 적용할 수 없다. 이러한 퇴화(degenerate) 임계점에서는 다음의 접근법이 사용된다.

고차 도함수 분석. 0 고유값에 대응하는 고유 벡터 방향 \mathbf{v}를 따라 함수의 고차 방향 도함수를 조사한다. 일변수 함수 g(t) = f(\mathbf{x}^* + t\mathbf{v})에 대해 0이 아닌 최저 차수 도함수의 차수와 부호로 극값을 판정한다.

섭동 분석. 헤시안이 반정치인 임계점은 매개변수의 미소 섭동(perturbation)에 의해 극값점과 안장점으로 분기(bifurcation)할 수 있다. 이러한 구조적 불안정성은 로봇 최적화 문제에서 수치적 어려움의 원인이 된다.

9. 극값 판정의 체계적 절차

다변수 함수 f의 극값 판정은 다음의 순서로 수행한다.

  1. \nabla f(\mathbf{x}) = \mathbf{0}을 풀어 모든 임계점 \mathbf{x}^*를 구한다.
  2. 각 임계점에서 헤시안 행렬 \mathbf{H}_f(\mathbf{x}^*)를 계산한다.
  3. 헤시안의 고유값 또는 선행 주소행렬식을 통해 정부호를 판정한다.
  4. 양정치이면 극소, 음정치이면 극대, 부정치이면 안장점으로 분류한다.
  5. 반정치인 경우 고차 분석을 수행한다.

이 절차는 무제약 최적화 문제에서 임계점의 성격을 규명하는 표준적 방법이며, 수치 최적화 알고리즘의 종료 조건 설계에도 직접 활용된다.


10. 참고 문헌

  • Apostol, T. M. (1974). Mathematical Analysis. 2nd ed. Addison-Wesley.
  • Nocedal, J., & Wright, S. J. (2006). Numerical Optimization. 2nd ed. Springer.
  • Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
  • Bertsekas, D. P. (1999). Nonlinear Programming. 2nd ed. Athena Scientific.
  • Marsden, J. E., & Tromba, A. J. (2012). Vector Calculus. 6th ed. W. H. Freeman.

v 0.2