7.22 극값의 판정과 이차 충분 조건

1. 임계점과 극값의 정의

1.1 임계점

$n$ 변수 스칼라 함수 $f: \mathbb{R}^n \to \mathbb{R}$ 가 $C^1$ 급일 때, 그래디언트가 영벡터인 점 $\mathbf{x}^*$ 를 임계점(critical point) 또는 정류점(stationary point)이라 한다.

$\nabla f(\mathbf{x}^*) = \mathbf{0}$

이는 모든 편도함수가 동시에 0이 되는 조건, 즉

$\frac{\partial f}{\partial x_i}(\mathbf{x}^*) = 0, \quad i = 1, 2, \dots, n$

과 동치이다. 임계점에서의 일차 전미분이 0이므로, 함수의 국소 거동은 이차 이상의 도함수에 의해 결정된다.

1.2 극값의 정의

점 $\mathbf{x}^*$ 의 적당한 열린 근방(open neighborhood) $\mathcal{N}(\mathbf{x}^*)$ 가 존재하여 다음 조건을 만족하면, $\mathbf{x}^*$ 를 극값점(extremum)이라 한다.

극소점(local minimum): 모든 $\mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}$ 에 대해 $f(\mathbf{x}) > f(\mathbf{x}^*)$
극대점(local maximum): 모든 $\mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}$ 에 대해 $f(\mathbf{x}) < f(\mathbf{x}^*)$

부등식에 등호를 허용하면 각각 광의의 극소(weak local minimum)와 광의의 극대(weak local maximum)가 된다.

2. 일차 필요 조건

2.1 정리

$f$ 가 점 $\mathbf{x}^*$ 에서 미분 가능하고 극값을 가지면, $\nabla f(\mathbf{x}^*) = \mathbf{0}$ 이다.

2.2 증명의 개요

$\mathbf{x}^*$ 가 극소점이라 가정하자. 임의의 방향 벡터 $\mathbf{d} \in \mathbb{R}^n$ 에 대해 일변수 함수 $g(t) = f(\mathbf{x}^* + t\mathbf{d})$ 를 정의하면, $g$ 는 $t = 0$ 에서 극소값을 가진다. 따라서

$g'(0) = \nabla f(\mathbf{x}^*)^T \mathbf{d} = 0$

이 모든 $\mathbf{d}$ 에 대해 성립하므로 $\nabla f(\mathbf{x}^*) = \mathbf{0}$ 이다.

일차 필요 조건은 극값점이 반드시 임계점임을 보장하지만, 그 역은 성립하지 않는다. 임계점이 극대인지, 극소인지, 또는 안장점(saddle point)인지를 판정하기 위해서는 이차 조건이 필요하다.

3. 이차 충분 조건

3.1 정리

$f$ 가 $C^2$ 급이고 $\mathbf{x}^*$ 가 임계점( $\nabla f(\mathbf{x}^*) = \mathbf{0}$ )일 때,

$\mathbf{H}_f(\mathbf{x}^*)$ 가 양정치(positive definite)이면, $\mathbf{x}^*$ 는 엄밀한 극소점(strict local minimum)이다.
$\mathbf{H}_f(\mathbf{x}^*)$ 가 음정치(negative definite)이면, $\mathbf{x}^*$ 는 엄밀한 극대점(strict local maximum)이다.
$\mathbf{H}_f(\mathbf{x}^*)$ 가 부정치(indefinite)이면, $\mathbf{x}^*$ 는 안장점(saddle point)이다.

3.2 증명의 개요

임계점 $\mathbf{x}^*$ 에서의 이차 테일러 근사는

$f(\mathbf{x}^* + \boldsymbol{\delta}) = f(\mathbf{x}^*) + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} + O(\lVert \boldsymbol{\delta} \rVert^3)$

이다. $\mathbf{H}_f(\mathbf{x}^*)$ 가 양정치이면, 최소 고유값 $\lambda_{\min} > 0$ 에 의해

$\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq \lambda_{\min} \lVert \boldsymbol{\delta} \rVert^2 > 0$

이 모든 $\boldsymbol{\delta} \neq \mathbf{0}$ 에 대해 성립한다. 충분히 작은 $\lVert \boldsymbol{\delta} \rVert$ 에 대해 이차 항이 나머지 항을 지배하므로

$f(\mathbf{x}^* + \boldsymbol{\delta}) - f(\mathbf{x}^*) \geq \frac{\lambda_{\min}}{2} \lVert \boldsymbol{\delta} \rVert^2 - C \lVert \boldsymbol{\delta} \rVert^3 > 0$

이 성립하여 $\mathbf{x}^*$ 가 엄밀한 극소점임이 증명된다. 음정치의 경우는 $-f$ 에 같은 논증을 적용하면 된다.

부정치의 경우에는 양의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 증가하고, 음의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 감소하므로, $\mathbf{x}^*$ 는 극값이 될 수 없다.

4. 이차 필요 조건

임계점 $\mathbf{x}^*$ 가 극소점이면, 헤시안 행렬 $\mathbf{H}_f(\mathbf{x}^*)$ 는 양의 반정치(positive semi-definite)이다.

$\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq 0, \quad \forall\, \boldsymbol{\delta} \in \mathbb{R}^n$

이는 충분 조건에서의 양정치 조건보다 약한 조건이다. 양의 반정치이지만 양정치가 아닌 경우(즉, 일부 고유값이 0인 경우)에는 이차 조건만으로 극값 여부를 판정할 수 없으며, 고차 도함수에 의한 추가 분석이 필요하다.

5. 변수 함수의 이차 판정법

5.1 판별식에 의한 분류

2변수 함수 $f(x, y)$ 의 임계점 $(x_0, y_0)$ 에서 헤시안 행렬은

$\mathbf{H}_f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{xy} & f_{yy} \end{pmatrix}$

이다. 판별식(discriminant)을

$D = f_{xx} f_{yy} - f_{xy}^2 = \det(\mathbf{H}_f)$

로 정의하면, 다음의 판정 기준이 성립한다.

조건	판정 결과
$D > 0$ 이고 $f_{xx} > 0$	극소점
$D > 0$ 이고 $f_{xx} < 0$	극대점
$D < 0$	안장점
$D = 0$	판정 불능

$D > 0$ 이고 $f_{xx} > 0$ 이면 헤시안의 두 고유값이 모두 양수(양정치)이며, $D > 0$ 이고 $f_{xx} < 0$ 이면 두 고유값이 모두 음수(음정치)이다. $D < 0$ 이면 고유값의 부호가 다르므로 부정치이다.

5.2 계산 예시

$f(x, y) = x^4 + y^4 - 2x^2$ 의 임계점을 구하면

$f_x = 4x^3 - 4x = 0 \implies x = 0, \pm 1$

$f_y = 4y^3 = 0 \implies y = 0$

이므로 임계점은 $(0, 0)$ , $(1, 0)$ , $(-1, 0)$ 이다. 이계 편도함수는

$f_{xx} = 12x^2 - 4, \quad f_{xy} = 0, \quad f_{yy} = 12y^2$

각 임계점에서의 판별식과 판정 결과는 다음과 같다.

임계점	$f_{xx}$	$f_{yy}$	$f_{xy}$	$D$	판정
$(0, 0)$	$-4$	$0$	$0$	$0$	판정 불능
$(1, 0)$	$8$	$0$	$0$	$0$	판정 불능
$(-1, 0)$	$8$	$0$	$0$	$0$	판정 불능

이 예시에서는 모든 임계점에서 $D = 0$ 이므로 이차 판정법으로는 판정할 수 없다. 이 경우 고차 도함수나 직접적인 함수값 비교를 통해 극값을 판정해야 한다.

6. $n$ 변수로의 일반화

6.1 실베스터 판정법에 의한 적용

$n$ 변수 함수의 임계점에서 헤시안 $\mathbf{H}_f$ 의 정부호를 판정하기 위해 실베스터 판정법(Sylvester’s criterion)을 적용한다. 선행 주소행렬식(leading principal minor)을 $D_k = \det(\mathbf{H}_k)$ , $k = 1, \dots, n$ 으로 정의하면

양정치 (극소): $D_1 > 0, D_2 > 0, \dots, D_n > 0$
음정치 (극대): $D_1 < 0, D_2 > 0, D_3 < 0, \dots$ , 즉 $(-1)^k D_k > 0$

음정치 조건에서 선행 주소행렬식의 부호가 교대함에 주의하라.

6.2 고유값에 의한 직접 판정

헤시안의 고유값 $\lambda_1, \lambda_2, \dots, \lambda_n$ 을 직접 계산하여 판정할 수도 있다.

모든 $\lambda_i > 0$ : 양정치 → 극소점
모든 $\lambda_i < 0$ : 음정치 → 극대점
양수와 음수 고유값 공존: 부정치 → 안장점
$\lambda_i \geq 0$ 이고 일부 $\lambda_i = 0$ : 양의 반정치 → 판정 불능
$\lambda_i \leq 0$ 이고 일부 $\lambda_i = 0$ : 음의 반정치 → 판정 불능

수치적으로는 고유값이 정확히 0인지 판단하기 어려우므로, 적절한 수치적 허용 오차(numerical tolerance) $\epsilon$ 을 설정하여 $\lvert \lambda_i \rvert < \epsilon$ 인 경우를 0으로 간주한다.

7. 제약 조건하의 극값 판정

7.1 등식 제약 문제

등식 제약 조건 $\mathbf{h}(\mathbf{x}) = \mathbf{0}$ ( $\mathbf{h}: \mathbb{R}^n \to \mathbb{R}^p$ , $p < n$ )하에서 $f$ 를 최적화하는 문제에서는, 라그랑지안(Lagrangian)

$\mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}) = f(\mathbf{x}) + \boldsymbol{\lambda}^T \mathbf{h}(\mathbf{x})$

의 헤시안만으로는 충분하지 않다. 이 경우 접선 공간에서의 이차 충분 조건(bordered Hessian condition 또는 projected Hessian condition)이 적용된다.

제약 야코비 행렬 $\mathbf{J}_h(\mathbf{x}^*) \in \mathbb{R}^{p \times n}$ 의 영공간(null space)이 접선 공간 $\mathcal{T}$ 를 형성한다.

$\mathcal{T} = \{\mathbf{v} \in \mathbb{R}^n : \mathbf{J}_h(\mathbf{x}^*) \mathbf{v} = \mathbf{0}\}$

이차 충분 조건은 라그랑지안의 헤시안 $\nabla^2_{\mathbf{x}} \mathcal{L}$ 이 접선 공간 $\mathcal{T}$ 위에서 양정치(극소의 경우) 또는 음정치(극대의 경우)인 것이다.

$\mathbf{v}^T \nabla^2_{\mathbf{x}} \mathcal{L}(\mathbf{x}^*, \boldsymbol{\lambda}^*) \mathbf{v} > 0, \quad \forall\, \mathbf{v} \in \mathcal{T} \setminus \{\mathbf{0}\}$

7.2 연변 헤시안에 의한 판정

2변수 함수에 하나의 등식 제약 $h(x, y) = 0$ 이 있는 경우, 연변 헤시안(bordered Hessian)

$\bar{\mathbf{H}} = \begin{pmatrix} 0 & h_x & h_y \\ h_x & \mathcal{L}_{xx} & \mathcal{L}_{xy} \\ h_y & \mathcal{L}_{xy} & \mathcal{L}_{yy} \end{pmatrix}$

의 행렬식 부호로 극값을 판정한다. $\det(\bar{\mathbf{H}}) > 0$ 이면 극대, $\det(\bar{\mathbf{H}}) < 0$ 이면 극소이다.

8. 이차 충분 조건이 판정 불능인 경우의 처리

헤시안이 양의 반정치 또는 음의 반정치인 경우(일부 고유값이 0), 이차 충분 조건은 적용할 수 없다. 이러한 퇴화(degenerate) 임계점에서는 다음의 접근법이 사용된다.

고차 도함수 분석. 0 고유값에 대응하는 고유 벡터 방향 $\mathbf{v}$ 를 따라 함수의 고차 방향 도함수를 조사한다. 일변수 함수 $g(t) = f(\mathbf{x}^* + t\mathbf{v})$ 에 대해 0이 아닌 최저 차수 도함수의 차수와 부호로 극값을 판정한다.

섭동 분석. 헤시안이 반정치인 임계점은 매개변수의 미소 섭동(perturbation)에 의해 극값점과 안장점으로 분기(bifurcation)할 수 있다. 이러한 구조적 불안정성은 로봇 최적화 문제에서 수치적 어려움의 원인이 된다.

9. 극값 판정의 체계적 절차

다변수 함수 $f$ 의 극값 판정은 다음의 순서로 수행한다.

$\nabla f(\mathbf{x}) = \mathbf{0}$ 을 풀어 모든 임계점 $\mathbf{x}^*$ 를 구한다.
각 임계점에서 헤시안 행렬 $\mathbf{H}_f(\mathbf{x}^*)$ 를 계산한다.
헤시안의 고유값 또는 선행 주소행렬식을 통해 정부호를 판정한다.
양정치이면 극소, 음정치이면 극대, 부정치이면 안장점으로 분류한다.
반정치인 경우 고차 분석을 수행한다.

이 절차는 무제약 최적화 문제에서 임계점의 성격을 규명하는 표준적 방법이며, 수치 최적화 알고리즘의 종료 조건 설계에도 직접 활용된다.

10. 참고 문헌

Apostol, T. M. (1974). Mathematical Analysis. 2nd ed. Addison-Wesley.
Nocedal, J., & Wright, S. J. (2006). Numerical Optimization. 2nd ed. Springer.
Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
Bertsekas, D. P. (1999). Nonlinear Programming. 2nd ed. Athena Scientific.
Marsden, J. E., & Tromba, A. J. (2012). Vector Calculus. 6th ed. W. H. Freeman.

v 0.2