7.22 극값의 판정과 이차 충분 조건
1. 임계점과 극값의 정의
1.1 임계점
n변수 스칼라 함수 f: \mathbb{R}^n \to \mathbb{R}가 C^1급일 때, 그래디언트가 영벡터인 점 \mathbf{x}^*를 임계점(critical point) 또는 정류점(stationary point)이라 한다.
\nabla f(\mathbf{x}^*) = \mathbf{0}
이는 모든 편도함수가 동시에 0이 되는 조건, 즉
\frac{\partial f}{\partial x_i}(\mathbf{x}^*) = 0, \quad i = 1, 2, \dots, n
과 동치이다. 임계점에서의 일차 전미분이 0이므로, 함수의 국소 거동은 이차 이상의 도함수에 의해 결정된다.
1.2 극값의 정의
점 \mathbf{x}^*의 적당한 열린 근방(open neighborhood) \mathcal{N}(\mathbf{x}^*)가 존재하여 다음 조건을 만족하면, \mathbf{x}^*를 극값점(extremum)이라 한다.
- 극소점(local minimum): 모든 \mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}에 대해 f(\mathbf{x}) > f(\mathbf{x}^*)
- 극대점(local maximum): 모든 \mathbf{x} \in \mathcal{N}(\mathbf{x}^*) \setminus \{\mathbf{x}^*\}에 대해 f(\mathbf{x}) < f(\mathbf{x}^*)
부등식에 등호를 허용하면 각각 광의의 극소(weak local minimum)와 광의의 극대(weak local maximum)가 된다.
2. 일차 필요 조건
2.1 정리
f가 점 \mathbf{x}^*에서 미분 가능하고 극값을 가지면, \nabla f(\mathbf{x}^*) = \mathbf{0}이다.
2.2 증명의 개요
\mathbf{x}^*가 극소점이라 가정하자. 임의의 방향 벡터 \mathbf{d} \in \mathbb{R}^n에 대해 일변수 함수 g(t) = f(\mathbf{x}^* + t\mathbf{d})를 정의하면, g는 t = 0에서 극소값을 가진다. 따라서
g'(0) = \nabla f(\mathbf{x}^*)^T \mathbf{d} = 0
이 모든 \mathbf{d}에 대해 성립하므로 \nabla f(\mathbf{x}^*) = \mathbf{0}이다.
일차 필요 조건은 극값점이 반드시 임계점임을 보장하지만, 그 역은 성립하지 않는다. 임계점이 극대인지, 극소인지, 또는 안장점(saddle point)인지를 판정하기 위해서는 이차 조건이 필요하다.
3. 이차 충분 조건
3.1 정리
f가 C^2급이고 \mathbf{x}^*가 임계점(\nabla f(\mathbf{x}^*) = \mathbf{0})일 때,
- \mathbf{H}_f(\mathbf{x}^*)가 양정치(positive definite)이면, \mathbf{x}^*는 엄밀한 극소점(strict local minimum)이다.
- \mathbf{H}_f(\mathbf{x}^*)가 음정치(negative definite)이면, \mathbf{x}^*는 엄밀한 극대점(strict local maximum)이다.
- \mathbf{H}_f(\mathbf{x}^*)가 부정치(indefinite)이면, \mathbf{x}^*는 안장점(saddle point)이다.
3.2 증명의 개요
임계점 \mathbf{x}^*에서의 이차 테일러 근사는
f(\mathbf{x}^* + \boldsymbol{\delta}) = f(\mathbf{x}^*) + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} + O(\lVert \boldsymbol{\delta} \rVert^3)
이다. \mathbf{H}_f(\mathbf{x}^*)가 양정치이면, 최소 고유값 \lambda_{\min} > 0에 의해
\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq \lambda_{\min} \lVert \boldsymbol{\delta} \rVert^2 > 0
이 모든 \boldsymbol{\delta} \neq \mathbf{0}에 대해 성립한다. 충분히 작은 \lVert \boldsymbol{\delta} \rVert에 대해 이차 항이 나머지 항을 지배하므로
f(\mathbf{x}^* + \boldsymbol{\delta}) - f(\mathbf{x}^*) \geq \frac{\lambda_{\min}}{2} \lVert \boldsymbol{\delta} \rVert^2 - C \lVert \boldsymbol{\delta} \rVert^3 > 0
이 성립하여 \mathbf{x}^*가 엄밀한 극소점임이 증명된다. 음정치의 경우는 -f에 같은 논증을 적용하면 된다.
부정치의 경우에는 양의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 증가하고, 음의 고유값에 대응하는 고유 벡터 방향에서는 함수값이 감소하므로, \mathbf{x}^*는 극값이 될 수 없다.
4. 이차 필요 조건
임계점 \mathbf{x}^*가 극소점이면, 헤시안 행렬 \mathbf{H}_f(\mathbf{x}^*)는 양의 반정치(positive semi-definite)이다.
\boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}^*) \boldsymbol{\delta} \geq 0, \quad \forall\, \boldsymbol{\delta} \in \mathbb{R}^n
이는 충분 조건에서의 양정치 조건보다 약한 조건이다. 양의 반정치이지만 양정치가 아닌 경우(즉, 일부 고유값이 0인 경우)에는 이차 조건만으로 극값 여부를 판정할 수 없으며, 고차 도함수에 의한 추가 분석이 필요하다.
5. 변수 함수의 이차 판정법
5.1 판별식에 의한 분류
2변수 함수 f(x, y)의 임계점 (x_0, y_0)에서 헤시안 행렬은
\mathbf{H}_f = \begin{pmatrix} f_{xx} & f_{xy} \\ f_{xy} & f_{yy} \end{pmatrix}
이다. 판별식(discriminant)을
D = f_{xx} f_{yy} - f_{xy}^2 = \det(\mathbf{H}_f)
로 정의하면, 다음의 판정 기준이 성립한다.
| 조건 | 판정 결과 |
|---|---|
| D > 0이고 f_{xx} > 0 | 극소점 |
| D > 0이고 f_{xx} < 0 | 극대점 |
| D < 0 | 안장점 |
| D = 0 | 판정 불능 |
D > 0이고 f_{xx} > 0이면 헤시안의 두 고유값이 모두 양수(양정치)이며, D > 0이고 f_{xx} < 0이면 두 고유값이 모두 음수(음정치)이다. D < 0이면 고유값의 부호가 다르므로 부정치이다.
5.2 계산 예시
f(x, y) = x^4 + y^4 - 2x^2의 임계점을 구하면
f_x = 4x^3 - 4x = 0 \implies x = 0, \pm 1
f_y = 4y^3 = 0 \implies y = 0
이므로 임계점은 (0, 0), (1, 0), (-1, 0)이다. 이계 편도함수는
f_{xx} = 12x^2 - 4, \quad f_{xy} = 0, \quad f_{yy} = 12y^2
각 임계점에서의 판별식과 판정 결과는 다음과 같다.
| 임계점 | f_{xx} | f_{yy} | f_{xy} | D | 판정 |
|---|---|---|---|---|---|
| (0, 0) | -4 | 0 | 0 | 0 | 판정 불능 |
| (1, 0) | 8 | 0 | 0 | 0 | 판정 불능 |
| (-1, 0) | 8 | 0 | 0 | 0 | 판정 불능 |
이 예시에서는 모든 임계점에서 D = 0이므로 이차 판정법으로는 판정할 수 없다. 이 경우 고차 도함수나 직접적인 함수값 비교를 통해 극값을 판정해야 한다.
6. n변수로의 일반화
6.1 실베스터 판정법에 의한 적용
n변수 함수의 임계점에서 헤시안 \mathbf{H}_f의 정부호를 판정하기 위해 실베스터 판정법(Sylvester’s criterion)을 적용한다. 선행 주소행렬식(leading principal minor)을 D_k = \det(\mathbf{H}_k), k = 1, \dots, n으로 정의하면
- 양정치 (극소): D_1 > 0, D_2 > 0, \dots, D_n > 0
- 음정치 (극대): D_1 < 0, D_2 > 0, D_3 < 0, \dots, 즉 (-1)^k D_k > 0
음정치 조건에서 선행 주소행렬식의 부호가 교대함에 주의하라.
6.2 고유값에 의한 직접 판정
헤시안의 고유값 \lambda_1, \lambda_2, \dots, \lambda_n을 직접 계산하여 판정할 수도 있다.
- 모든 \lambda_i > 0: 양정치 → 극소점
- 모든 \lambda_i < 0: 음정치 → 극대점
- 양수와 음수 고유값 공존: 부정치 → 안장점
- \lambda_i \geq 0이고 일부 \lambda_i = 0: 양의 반정치 → 판정 불능
- \lambda_i \leq 0이고 일부 \lambda_i = 0: 음의 반정치 → 판정 불능
수치적으로는 고유값이 정확히 0인지 판단하기 어려우므로, 적절한 수치적 허용 오차(numerical tolerance) \epsilon을 설정하여 \lvert \lambda_i \rvert < \epsilon인 경우를 0으로 간주한다.
7. 제약 조건하의 극값 판정
7.1 등식 제약 문제
등식 제약 조건 \mathbf{h}(\mathbf{x}) = \mathbf{0} (\mathbf{h}: \mathbb{R}^n \to \mathbb{R}^p, p < n)하에서 f를 최적화하는 문제에서는, 라그랑지안(Lagrangian)
\mathcal{L}(\mathbf{x}, \boldsymbol{\lambda}) = f(\mathbf{x}) + \boldsymbol{\lambda}^T \mathbf{h}(\mathbf{x})
의 헤시안만으로는 충분하지 않다. 이 경우 접선 공간에서의 이차 충분 조건(bordered Hessian condition 또는 projected Hessian condition)이 적용된다.
제약 야코비 행렬 \mathbf{J}_h(\mathbf{x}^*) \in \mathbb{R}^{p \times n}의 영공간(null space)이 접선 공간 \mathcal{T}를 형성한다.
\mathcal{T} = \{\mathbf{v} \in \mathbb{R}^n : \mathbf{J}_h(\mathbf{x}^*) \mathbf{v} = \mathbf{0}\}
이차 충분 조건은 라그랑지안의 헤시안 \nabla^2_{\mathbf{x}} \mathcal{L}이 접선 공간 \mathcal{T} 위에서 양정치(극소의 경우) 또는 음정치(극대의 경우)인 것이다.
\mathbf{v}^T \nabla^2_{\mathbf{x}} \mathcal{L}(\mathbf{x}^*, \boldsymbol{\lambda}^*) \mathbf{v} > 0, \quad \forall\, \mathbf{v} \in \mathcal{T} \setminus \{\mathbf{0}\}
7.2 연변 헤시안에 의한 판정
2변수 함수에 하나의 등식 제약 h(x, y) = 0이 있는 경우, 연변 헤시안(bordered Hessian)
\bar{\mathbf{H}} = \begin{pmatrix} 0 & h_x & h_y \\ h_x & \mathcal{L}_{xx} & \mathcal{L}_{xy} \\ h_y & \mathcal{L}_{xy} & \mathcal{L}_{yy} \end{pmatrix}
의 행렬식 부호로 극값을 판정한다. \det(\bar{\mathbf{H}}) > 0이면 극대, \det(\bar{\mathbf{H}}) < 0이면 극소이다.
8. 이차 충분 조건이 판정 불능인 경우의 처리
헤시안이 양의 반정치 또는 음의 반정치인 경우(일부 고유값이 0), 이차 충분 조건은 적용할 수 없다. 이러한 퇴화(degenerate) 임계점에서는 다음의 접근법이 사용된다.
고차 도함수 분석. 0 고유값에 대응하는 고유 벡터 방향 \mathbf{v}를 따라 함수의 고차 방향 도함수를 조사한다. 일변수 함수 g(t) = f(\mathbf{x}^* + t\mathbf{v})에 대해 0이 아닌 최저 차수 도함수의 차수와 부호로 극값을 판정한다.
섭동 분석. 헤시안이 반정치인 임계점은 매개변수의 미소 섭동(perturbation)에 의해 극값점과 안장점으로 분기(bifurcation)할 수 있다. 이러한 구조적 불안정성은 로봇 최적화 문제에서 수치적 어려움의 원인이 된다.
9. 극값 판정의 체계적 절차
다변수 함수 f의 극값 판정은 다음의 순서로 수행한다.
- \nabla f(\mathbf{x}) = \mathbf{0}을 풀어 모든 임계점 \mathbf{x}^*를 구한다.
- 각 임계점에서 헤시안 행렬 \mathbf{H}_f(\mathbf{x}^*)를 계산한다.
- 헤시안의 고유값 또는 선행 주소행렬식을 통해 정부호를 판정한다.
- 양정치이면 극소, 음정치이면 극대, 부정치이면 안장점으로 분류한다.
- 반정치인 경우 고차 분석을 수행한다.
이 절차는 무제약 최적화 문제에서 임계점의 성격을 규명하는 표준적 방법이며, 수치 최적화 알고리즘의 종료 조건 설계에도 직접 활용된다.
10. 참고 문헌
- Apostol, T. M. (1974). Mathematical Analysis. 2nd ed. Addison-Wesley.
- Nocedal, J., & Wright, S. J. (2006). Numerical Optimization. 2nd ed. Springer.
- Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
- Bertsekas, D. P. (1999). Nonlinear Programming. 2nd ed. Athena Scientific.
- Marsden, J. E., & Tromba, A. J. (2012). Vector Calculus. 6th ed. W. H. Freeman.
v 0.2