7.21 이차 테일러 근사와 이차 형식

1. 다변수 함수의 이차 테일러 전개

1.1 일반 공식

$n$ 변수 스칼라 함수 $f: \mathbb{R}^n \to \mathbb{R}$ 가 $C^2$ 급일 때, 점 $\mathbf{x}_0$ 주위에서의 이차 테일러 전개(second-order Taylor expansion)는 다음과 같다.

$f(\mathbf{x}) = f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T (\mathbf{x} - \mathbf{x}_0) + \frac{1}{2} (\mathbf{x} - \mathbf{x}_0)^T \mathbf{H}_f(\mathbf{x}_0) (\mathbf{x} - \mathbf{x}_0) + R_2(\mathbf{x})$

여기서 $\nabla f(\mathbf{x}_0) \in \mathbb{R}^n$ 은 그래디언트 벡터, $\mathbf{H}_f(\mathbf{x}_0) \in \mathbb{R}^{n \times n}$ 은 헤시안 행렬이며, $R_2(\mathbf{x})$ 는 나머지 항(remainder term)으로서

$R_2(\mathbf{x}) = O(\lVert \mathbf{x} - \mathbf{x}_0 \rVert^3)$

을 만족한다. 변위 벡터 $\boldsymbol{\delta} = \mathbf{x} - \mathbf{x}_0$ 를 도입하면, 이차 테일러 근사(quadratic approximation)는

$f(\mathbf{x}_0 + \boldsymbol{\delta}) \approx f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T \boldsymbol{\delta} + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}_0) \boldsymbol{\delta}$

이다.

1.2 성분 표기

각 성분을 명시적으로 전개하면

$f(\mathbf{x}_0 + \boldsymbol{\delta}) \approx f(\mathbf{x}_0) + \sum_{i=1}^{n} \frac{\partial f}{\partial x_i}(\mathbf{x}_0) \delta_i + \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \frac{\partial^2 f}{\partial x_i \partial x_j}(\mathbf{x}_0) \delta_i \delta_j$

이다. 이차 항의 이중 합에서 $\mathbf{H}_f$ 의 대칭성에 의해 교차 항(cross term) $\delta_i \delta_j$ 와 $\delta_j \delta_i$ 의 계수가 동일하므로, 다음과 같이 정리할 수 있다.

$\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} H_{ij} \delta_i \delta_j = \frac{1}{2} \sum_{i=1}^{n} H_{ii} \delta_i^2 + \sum_{i<j} H_{ij} \delta_i \delta_j$

1.3 변수의 경우

$f(x, y)$ 의 점 $(x_0, y_0)$ 주위 이차 테일러 근사를 명시적으로 기술하면

$f(x_0 + \delta_x, y_0 + \delta_y) \approx f(x_0, y_0) + f_x \delta_x + f_y \delta_y + \frac{1}{2} \left( f_{xx} \delta_x^2 + 2 f_{xy} \delta_x \delta_y + f_{yy} \delta_y^2 \right)$

이다. 여기서 $f_x, f_y$ 는 일계 편도함수, $f_{xx}, f_{xy}, f_{yy}$ 는 이계 편도함수이며 모두 $(x_0, y_0)$ 에서 평가한 값이다.

2. 이차 형식의 정의

2.1 일반 이차 형식

$n$ 차원 벡터 $\mathbf{v} \in \mathbb{R}^n$ 과 대칭 행렬 $\mathbf{A} \in \mathbb{R}^{n \times n}$ 에 의해 정의되는 이차 형식(quadratic form)은

$Q(\mathbf{v}) = \mathbf{v}^T \mathbf{A} \mathbf{v} = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} v_i v_j$

이다. 이차 형식은 실수값 스칼라 함수이며, $\mathbf{v}$ 에 대해 동차 2차(homogeneous of degree 2)이다. 즉,

$Q(\alpha \mathbf{v}) = \alpha^2 Q(\mathbf{v}), \quad \forall\, \alpha \in \mathbb{R}$

이 성립한다.

2.2 이차 테일러 근사와 이차 형식의 관계

이차 테일러 근사에서 상수 항 $f(\mathbf{x}_0)$ 과 선형 항 $\nabla f(\mathbf{x}_0)^T \boldsymbol{\delta}$ 를 제외하면, 이차 항

$\frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}_0) \boldsymbol{\delta}$

이 남는다. 이것은 헤시안 행렬 $\mathbf{H}_f(\mathbf{x}_0)$ 에 의해 정의되는 이차 형식의 $\frac{1}{2}$ 배에 해당한다. 따라서 점 $\mathbf{x}_0$ 근방에서 함수 $f$ 의 국소적 곡률 구조는 헤시안에 의한 이차 형식으로 완전히 결정된다.

특히 임계점(critical point) $\mathbf{x}_0$ 에서 $\nabla f(\mathbf{x}_0) = \mathbf{0}$ 이면, 이차 근사는

$f(\mathbf{x}_0 + \boldsymbol{\delta}) \approx f(\mathbf{x}_0) + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}_0) \boldsymbol{\delta}$

으로 단순화되어, $f$ 의 국소 거동이 이차 형식에 의해 지배된다.

3. 이차 형식의 기하학적 해석

3.1 등위 곡면

이차 형식 $Q(\mathbf{v}) = \mathbf{v}^T \mathbf{A} \mathbf{v} = c$ (상수)에 의해 정의되는 등위 곡면(level surface)의 형태는 행렬 $\mathbf{A}$ 의 고유값에 의해 결정된다. $\mathbf{A}$ 를 고유값 분해 $\mathbf{A} = \mathbf{Q} \boldsymbol{\Lambda} \mathbf{Q}^T$ 로 나타내고, 좌표를 $\mathbf{w} = \mathbf{Q}^T \mathbf{v}$ 로 변환하면

$Q = \mathbf{w}^T \boldsymbol{\Lambda} \mathbf{w} = \sum_{i=1}^{n} \lambda_i w_i^2$

이 된다. 주축 좌표(principal axis coordinates) $\mathbf{w}$ 에서 등위 곡면의 형태는 다음과 같이 결정된다.

고유값 조건	등위 곡면의 형태
모든 $\lambda_i > 0$	타원체(ellipsoid)
모든 $\lambda_i < 0$	타원체(반전 부호)
$\lambda_i$ 의 부호가 혼재	쌍곡면(hyperboloid)
일부 $\lambda_i = 0$	퇴화 곡면(degenerate surface)

3.2 주축 방향과 곡률

고유 벡터 $\mathbf{q}_i$ 는 이차 형식의 주축 방향(principal axis direction)을 나타내며, 대응하는 고유값 $\lambda_i$ 는 해당 방향의 곡률(curvature)에 비례한다. 고유값이 큰 방향은 함수 $f$ 가 급격히 변화하는 방향이고, 고유값이 작은 방향은 완만하게 변화하는 방향이다.

4. 이차 형식의 정부호 분류

4.1 정의

대칭 행렬 $\mathbf{A}$ 에 의한 이차 형식 $Q(\mathbf{v}) = \mathbf{v}^T \mathbf{A} \mathbf{v}$ 의 정부호(definiteness) 분류는 다음과 같다.

양정치(positive definite): 모든 $\mathbf{v} \neq \mathbf{0}$ 에 대해 $Q(\mathbf{v}) > 0$
양의 반정치(positive semi-definite): 모든 $\mathbf{v}$ 에 대해 $Q(\mathbf{v}) \geq 0$ 이고, $Q(\mathbf{v}) = 0$ 인 $\mathbf{v} \neq \mathbf{0}$ 이 존재
음정치(negative definite): 모든 $\mathbf{v} \neq \mathbf{0}$ 에 대해 $Q(\mathbf{v}) < 0$
음의 반정치(negative semi-definite): 모든 $\mathbf{v}$ 에 대해 $Q(\mathbf{v}) \leq 0$ 이고, $Q(\mathbf{v}) = 0$ 인 $\mathbf{v} \neq \mathbf{0}$ 이 존재
부정치(indefinite): $Q(\mathbf{v}) > 0$ 인 $\mathbf{v}$ 와 $Q(\mathbf{v}) < 0$ 인 $\mathbf{v}$ 가 모두 존재

고유값에 의한 판정 조건은 다음과 같다.

분류	고유값 조건
양정치	모든 $\lambda_i > 0$
양의 반정치	모든 $\lambda_i \geq 0$ , 일부 $\lambda_i = 0$
음정치	모든 $\lambda_i < 0$
음의 반정치	모든 $\lambda_i \leq 0$ , 일부 $\lambda_i = 0$
부정치	$\lambda_i > 0$ 인 것과 $\lambda_j < 0$ 인 것이 공존

4.2 실베스터 판정법

고유값을 직접 계산하지 않고도 정부호를 판정할 수 있는 방법으로 실베스터 판정법(Sylvester’s criterion)이 있다. 행렬 $\mathbf{A}$ 의 선행 주소행렬식(leading principal minor) $D_k = \det(\mathbf{A}_k)$ 를 정의하면

$D_1 = a_{11}, \quad D_2 = \det \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}, \quad \dots, \quad D_n = \det(\mathbf{A})$

이다. 양정치의 판정 조건은

$D_k > 0, \quad k = 1, 2, \dots, n$

이며, 음정치의 판정 조건은

$(-1)^k D_k > 0, \quad k = 1, 2, \dots, n$

이다.

5. 이차 근사의 정확도와 나머지 항

5.1 페아노 형태의 나머지

이차 테일러 근사의 나머지 항은 페아노 형태(Peano form)로

$R_2(\boldsymbol{\delta}) = o(\lVert \boldsymbol{\delta} \rVert^2)$

이다. 이는 $\lVert \boldsymbol{\delta} \rVert \to 0$ 일 때 $R_2(\boldsymbol{\delta}) / \lVert \boldsymbol{\delta} \rVert^2 \to 0$ 을 의미한다.

5.2 라그랑주 형태의 나머지

$f$ 가 $C^3$ 급이면, 라그랑주 형태(Lagrange form)의 나머지는

$R_2(\boldsymbol{\delta}) = \frac{1}{6} \sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{k=1}^{n} \frac{\partial^3 f}{\partial x_i \partial x_j \partial x_k}(\mathbf{x}_0 + \theta \boldsymbol{\delta}) \, \delta_i \delta_j \delta_k$

이며, $0 < \theta < 1$ 인 적당한 $\theta$ 가 존재한다. 삼계 도함수의 상한(upper bound)을 $M_3$ 이라 하면

$\lvert R_2(\boldsymbol{\delta}) \rvert \leq \frac{M_3}{6} n^3 \lVert \boldsymbol{\delta} \rVert^3$

으로 나머지 항의 크기를 제어할 수 있다.

6. 이차 모형과 최적화 알고리즘

6.1 뉴턴 방법의 이차 모형

비선형 최적화에서 뉴턴 방법(Newton’s method)은 현재 점 $\mathbf{x}_k$ 에서 목적 함수 $f$ 의 이차 테일러 근사

$m_k(\boldsymbol{\delta}) = f(\mathbf{x}_k) + \nabla f(\mathbf{x}_k)^T \boldsymbol{\delta} + \frac{1}{2} \boldsymbol{\delta}^T \mathbf{H}_f(\mathbf{x}_k) \boldsymbol{\delta}$

를 구성하고, 이 이차 모형(quadratic model)을 최소화하는 방향으로 갱신한다. $m_k$ 를 $\boldsymbol{\delta}$ 에 대해 미분하여 0으로 놓으면

$\nabla_{\boldsymbol{\delta}} m_k = \nabla f(\mathbf{x}_k) + \mathbf{H}_f(\mathbf{x}_k) \boldsymbol{\delta} = \mathbf{0}$

이므로, 뉴턴 스텝(Newton step)은

$\boldsymbol{\delta}^* = -\mathbf{H}_f^{-1}(\mathbf{x}_k) \nabla f(\mathbf{x}_k)$

이다. 이 갱신은 이차 함수에 대해서는 한 단계에 정확한 최소점에 도달하며, 일반 함수에 대해서는 최소점 근방에서 이차 수렴(quadratic convergence)한다.

6.2 신뢰 영역법의 이차 부분 문제

신뢰 영역법(trust region method)에서는 이차 모형 $m_k(\boldsymbol{\delta})$ 를 신뢰 영역 $\lVert \boldsymbol{\delta} \rVert \leq \Delta_k$ 내에서 최소화한다.

$\min_{\boldsymbol{\delta}} \; m_k(\boldsymbol{\delta}) \quad \text{subject to} \quad \lVert \boldsymbol{\delta} \rVert \leq \Delta_k$

이 부분 문제의 해는 헤시안의 고유값 구조에 따라 달라진다. 헤시안이 양정치이고 뉴턴 스텝이 신뢰 영역 내에 있으면 뉴턴 스텝이 그대로 해가 되며, 그렇지 않으면 신뢰 영역 경계에서의 해를 구해야 한다.

7. 로봇공학에서의 이차 근사 활용

7.1 역기구학 오차의 이차 분석

로봇의 정기구학(forward kinematics) 함수 $\mathbf{f}(\mathbf{q})$ 를 현재 관절 구성 $\mathbf{q}_0$ 주위에서 이차 테일러 전개하면

$\mathbf{f}(\mathbf{q}_0 + \boldsymbol{\delta q}) \approx \mathbf{f}(\mathbf{q}_0) + \mathbf{J}(\mathbf{q}_0) \boldsymbol{\delta q} + \frac{1}{2} \sum_{k=1}^{m} (\boldsymbol{\delta q})^T \mathbf{H}_{f_k}(\mathbf{q}_0) \boldsymbol{\delta q} \, \mathbf{e}_k$

이다. 여기서 $\mathbf{J}(\mathbf{q}_0)$ 는 야코비 행렬, $\mathbf{H}_{f_k}$ 는 $k$ 번째 작업 공간 좌표의 헤시안이다. 일차 근사 $\mathbf{f} \approx \mathbf{f}(\mathbf{q}_0) + \mathbf{J} \boldsymbol{\delta q}$ 로는 포착되지 않는 비선형 효과가 이차 항에 의해 보정되며, 이는 특이점(singularity) 근방에서 역기구학의 정확도를 개선하는 데 유용하다.

7.2 비용 함수의 국소 곡률 분석

로봇 궤적 최적화에서 비용 함수 $J(\boldsymbol{\theta})$ 의 헤시안에 의한 이차 형식은 최적해 $\boldsymbol{\theta}^*$ 근방에서의 민감도(sensitivity)를 나타낸다. 고유값이 큰 방향의 매개변수 변동은 비용의 급격한 증가를 초래하므로 엄격한 정밀도가 요구되며, 고유값이 작은 방향은 비용에 미치는 영향이 적으므로 더 큰 허용 오차를 설정할 수 있다. 이 분석은 최적화 문제의 조건수(condition number)

$\kappa(\mathbf{H}_f) = \frac{\lambda_{\max}}{\lambda_{\min}}$

와 직결되며, 조건수가 클수록 이차 형식의 등위 곡면이 편평해져 수치적 최적화의 수렴이 느려진다.

8. 참고 문헌

Apostol, T. M. (1974). Mathematical Analysis. 2nd ed. Addison-Wesley.
Nocedal, J., & Wright, S. J. (2006). Numerical Optimization. 2nd ed. Springer.
Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge University Press.
Strang, G. (2016). Introduction to Linear Algebra. 5th ed. Wellesley-Cambridge Press.
Siciliano, B., Sciavicco, L., Villani, L., & Oriolo, G. (2009). Robotics: Modelling, Planning and Control. Springer.

v 0.2