29.33 이차 형식(Quadratic Form)의 정의와 양의 정부호성 분석
1. 이차 형식의 정의
\mathbb{R}^n 위의 **이차 형식(quadratic form)**이란 다음 형태의 함수 Q : \mathbb{R}^n \to \mathbb{R}이다.
Q(x) = x^T A x = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j
여기서 A = (a_{ij}) \in M_{n \times n}(\mathbb{R})는 대칭 행렬(A = A^T)이다. 이 행렬 A를 이차 형식 Q의 **행렬(matrix)**이라 한다.
임의의 행렬 B에 대하여 x^T B x = x^T \left(\frac{B + B^T}{2}\right) x이므로, 이차 형식의 행렬은 항상 대칭 행렬로 취할 수 있다.
2. 이차 형식의 전개
2변수 이차 형식:
Q(x_1, x_2) = \begin{pmatrix} x_1 & x_2 \end{pmatrix}\begin{pmatrix} a_{11} & a_{12} \\ a_{12} & a_{22} \end{pmatrix}\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = a_{11}x_1^2 + 2a_{12}x_1 x_2 + a_{22}x_2^2
3변수 이차 형식:
Q(x_1, x_2, x_3) = a_{11}x_1^2 + a_{22}x_2^2 + a_{33}x_3^2 + 2a_{12}x_1 x_2 + 2a_{13}x_1 x_3 + 2a_{23}x_2 x_3
교차항(cross term) x_i x_j (i \neq j)의 계수가 2a_{ij}인 것은 대칭 행렬에서 a_{ij} = a_{ji}이기 때문이다.
3. 이차 형식의 분류와 양의 정부호성
이차 형식 Q(x) = x^T Ax는 행렬 A의 고유값 부호에 따라 분류된다.
| 분류 | 조건 | 고유값 조건 |
|---|---|---|
| 양의 정부호(positive definite) | Q(x) > 0 (\forall x \neq 0) | \lambda_i > 0 (\forall i) |
| 양의 반정부호(positive semi-definite) | Q(x) \geq 0 (\forall x) | \lambda_i \geq 0 (\forall i) |
| 음의 정부호(negative definite) | Q(x) < 0 (\forall x \neq 0) | \lambda_i < 0 (\forall i) |
| 음의 반정부호(negative semi-definite) | Q(x) \leq 0 (\forall x) | \lambda_i \leq 0 (\forall i) |
| 부정부호(indefinite) | 양과 음의 값을 모두 취함 | 양/음 고유값 공존 |
4. 고유값에 의한 분석
스펙트럼 정리에 의하여 대칭 행렬 A는 A = Q\Lambda Q^T로 직교 대각화된다. y = Q^T x로 치환하면
Q(x) = x^T A x = y^T \Lambda y = \sum_{i=1}^n \lambda_i y_i^2
이 표현을 표준형(canonical form) 또는 **주축 형식(principal axis form)**이라 한다.
표준형에서 이차 형식은 각 주축 방향의 제곱항의 가중합으로 환원되며, 교차항이 완전히 소거된다. 이차 형식의 부호 정칙성은 가중치(고유값)의 부호에 의해 완전히 결정된다.
5. 실베스터 판별법에 의한 분석
5.1 양의 정부호 판별
대칭 행렬 A가 양의 정부호일 필요충분조건은 모든 선행 주소행렬식이 양수인 것이다.
\Delta_1 = a_{11} > 0, \quad \Delta_2 = \begin{vmatrix} a_{11} & a_{12} \\ a_{12} & a_{22} \end{vmatrix} > 0, \quad \ldots, \quad \Delta_n = \det(A) > 0
5.2 음의 정부호 판별
A가 음의 정부호일 필요충분조건은 선행 주소행렬식의 부호가 교대하는 것이다.
\Delta_1 < 0, \quad \Delta_2 > 0, \quad \Delta_3 < 0, \quad \ldots, \quad (-1)^n \Delta_n > 0
6. 완전 제곱식에 의한 분석
이차 형식을 완전 제곱식(sum of squares)의 합으로 변환하여 부호 정칙성을 분석할 수 있다.
6.1 2 \times 2 예시
Q = 2x_1^2 + 4x_1 x_2 + 3x_2^2를 완전 제곱식으로 변환하라.
Q = 2\left(x_1^2 + 2x_1 x_2\right) + 3x_2^2 = 2(x_1 + x_2)^2 - 2x_2^2 + 3x_2^2 = 2(x_1 + x_2)^2 + x_2^2
양의 계수로만 이루어져 있으므로 양의 정부호이다.
행렬로 확인: A = \begin{pmatrix} 2 & 2 \\ 2 & 3 \end{pmatrix}, \Delta_1 = 2 > 0, \Delta_2 = 6 - 4 = 2 > 0. \checkmark
7. 관성 법칙(Sylvester’s Law of Inertia)
정리 (실베스터 관성 법칙). 이차 형식 Q(x) = x^T A x를 임의의 가역 변환 x = Py에 의해 Q = y^T (P^T A P) y로 변환하면, 양의 계수, 음의 계수, 영 계수의 개수가 변환 P의 선택에 무관하게 일정하다.
양의 계수의 개수를 p, 음의 계수의 개수를 q라 하면, (p, q)를 이차 형식의 **서명(signature)**이라 한다. p + q = \text{rank}(A)이고, p는 양의 고유값의 수, q는 음의 고유값의 수와 같다.
8. 등고면의 기하학적 해석
이차 형식 Q(x) = c (c > 0)가 정의하는 등고면(level set)의 형태는 이차 형식의 분류에 따라 다르다.
양의 정부호: 등고면은 타원체(ellipsoid)이다. 주축은 고유벡터 방향이고, 반지름은 \sqrt{c/\lambda_i}이다.
부정부호: 등고면은 쌍곡면(hyperboloid)이다.
양의 반정부호 (비정칙): 등고면은 무한히 확장된 타원통(elliptic cylinder)이다.
8.1 2변수 예시
Q(x_1, x_2) = 3x_1^2 + 2x_2^2 = 1은 타원 \frac{x_1^2}{1/3} + \frac{x_2^2}{1/2} = 1이다.
Q(x_1, x_2) = x_1^2 - x_2^2 = 1은 쌍곡선이다.
9. 최적화에서의 이차 형식
9.1 이차 함수의 극값
다변수 함수 f(x)의 임계점 x_0 (\nabla f(x_0) = 0)에서의 이차 근사는
f(x_0 + h) \approx f(x_0) + \frac{1}{2} h^T H h
여기서 H = \nabla^2 f(x_0)는 헤시안 행렬이다. h^T H h는 이차 형식이며:
- H \succ 0이면 x_0는 극소점이다.
- H \prec 0이면 x_0는 극대점이다.
- H가 부정부호이면 x_0는 안장점(saddle point)이다.
9.2 이차 최적화 문제
\min_{x \in \mathbb{R}^n} \frac{1}{2} x^T A x - b^T x
A \succ 0이면 최적해는 x^* = A^{-1}b이고, 이는 유일한 전역 최솟값이다. 양의 정부호성이 목적 함수의 강볼록성(strict convexity)을 보장하기 때문이다.
딥러닝에서 정칙화(regularization) 항 \frac{\lambda}{2}\|\theta\|^2를 추가하는 것은 헤시안에 \lambda I를 더하여 양의 정부호성을 강화하는 효과를 가지며, 이는 최적화 문제의 조건수를 개선하고 수렴을 안정화한다.