30.21 양의 정부호(Positive Definite) 행렬의 고유값 조건과 판별법

30.21 양의 정부호(Positive Definite) 행렬의 고유값 조건과 판별법

1. 양의 정부호 행렬의 정의

n \times n 실수 대칭 행렬 A가 **양의 정부호(positive definite)**라 함은 모든 영이 아닌 벡터 x \in \mathbb{R}^n \setminus \{0\}에 대하여

x^T A x > 0

이 성립하는 것이다. 이를 A \succ 0으로 표기한다.

이 정의는 A에 의하여 유도되는 이차 형식 Q(x) = x^T A x가 원점을 제외한 모든 점에서 양의 값을 가짐을 의미한다. 기하학적으로, 양의 정부호 행렬에 대응하는 등위 곡면 \{x : x^T A x = c\} (c > 0)은 원점을 중심으로 하는 타원체(ellipsoid)를 형성한다.

양의 정부호 행렬의 정의에서 대칭 조건은 필수적이다. 임의의 행렬 B에 대하여 x^T B x = x^T \left(\frac{B + B^T}{2}\right) x이므로, 이차 형식의 관점에서는 B의 대칭 부분 \frac{B + B^T}{2}만이 유효하다. 따라서 양의 정부호성은 대칭 행렬에 대하여 정의하는 것이 표준적이다.

2. 고유값에 의한 양의 정부호성 판별

정리 (고유값 조건). 대칭 행렬 A = A^T \in M_{n \times n}(\mathbb{R})가 양의 정부호일 필요충분조건은 A의 모든 고유값이 양수인 것이다. 즉,

A \succ 0 \iff \lambda_i > 0, \quad \forall \, i = 1, 2, \ldots, n

증명. 대칭 행렬 A는 직교 대각화 A = Q \Lambda Q^T를 갖는다. 여기서 Q는 직교 행렬이고 \Lambda = \operatorname{diag}(\lambda_1, \ldots, \lambda_n)이다.

임의의 x \neq 0에 대하여 y = Q^T x로 놓으면 y \neq 0이고 (Q가 가역이므로)

x^T A x = x^T Q \Lambda Q^T x = y^T \Lambda y = \sum_{i=1}^{n} \lambda_i y_i^2

(\Rightarrow) A \succ 0이면, x = q_j (제j번째 고유벡터)를 대입하면 y = e_j (표준 기저 벡터)이므로

q_j^T A q_j = \lambda_j > 0

따라서 모든 고유값이 양수이다.

(\Leftarrow) 모든 \lambda_i > 0이면, 임의의 x \neq 0에 대하여 y \neq 0이므로 y_j \neq 0인 성분이 적어도 하나 존재한다. 따라서

x^T A x = \sum_{i=1}^{n} \lambda_i y_i^2 > 0

이다. \blacksquare

이 정리는 양의 정부호성의 판별을 고유값의 부호 확인으로 환원한다. 그러나 대규모 행렬에서 모든 고유값을 직접 계산하는 것은 O(n^3)의 비용이 소요되므로, 실용적으로는 이하에서 소개하는 대안적 판별법이 활용된다.

3. 주소 행렬식(Leading Principal Minor) 판별법: 실베스터 기준

정리 (Sylvester’s criterion). 대칭 행렬 A \in M_{n \times n}(\mathbb{R})가 양의 정부호일 필요충분조건은 모든 **선행 주소 행렬식(leading principal minor)**이 양수인 것이다. 즉,

A \succ 0 \iff \Delta_k > 0, \quad k = 1, 2, \ldots, n

여기서 \Delta_k = \det(A_k)이고, A_kA의 좌상단 k \times k 부분 행렬(leading principal submatrix)이다.

구체적으로, n = 3인 경우:

A = \begin{pmatrix} a_{11} & a_{12} & a_{13} \\ a_{12} & a_{22} & a_{23} \\ a_{13} & a_{23} & a_{33} \end{pmatrix}

에 대하여

  • \Delta_1 = a_{11} > 0
  • \Delta_2 = a_{11} a_{22} - a_{12}^2 > 0
  • \Delta_3 = \det(A) > 0

세 조건이 모두 성립하면 A \succ 0이다.

증명 개요. (\Rightarrow) A \succ 0이면, 임의의 선행 주소 부분 행렬 A_k 역시 양의 정부호이다. 이는 x = (x_1, \ldots, x_k, 0, \ldots, 0)^T의 형태로 제한하면 x^T A x = x_k^T A_k x_k > 0이 되기 때문이다. 양의 정부호 행렬의 행렬식은 고유값의 곱이며, 모든 고유값이 양수이므로 \Delta_k = \det(A_k) > 0이다.

(\Leftarrow) n에 대한 수학적 귀납법으로 증명한다. 귀납 가설에 의하여 A_{n-1} \succ 0이고, \Delta_n > 0이면 A가 양의 정부호임을 보이는 것이 귀납 단계의 핵심이다. 이는 A의 촐레스키 분해(Cholesky decomposition)의 존재와 연결된다. \blacksquare

4. 촐레스키 분해(Cholesky Decomposition)에 의한 판별

정리. 대칭 행렬 A가 양의 정부호일 필요충분조건은 하삼각 행렬 L (l_{ii} > 0)이 존재하여

A = L L^T

가 성립하는 것이다. 이 분해를 **촐레스키 분해(Cholesky decomposition)**라 한다.

촐레스키 분해는 양의 정부호성의 판별과 동시에 연립방정식의 풀이에 활용된다. 분해 과정에서 대각 원소의 제곱근 계산 시 음수가 나타나면 행렬이 양의 정부호가 아님을 즉시 판별할 수 있다. 촐레스키 분해의 계산 복잡도는 \frac{1}{3}n^3으로, LU 분해의 \frac{2}{3}n^3의 절반이다.

2 \times 2 대칭 행렬의 경우를 예시로 보이면:

A = \begin{pmatrix} a & b \\ b & c \end{pmatrix} = \begin{pmatrix} l_{11} & 0 \\ l_{21} & l_{22} \end{pmatrix} \begin{pmatrix} l_{11} & l_{21} \\ 0 & l_{22} \end{pmatrix}

에서 l_{11} = \sqrt{a}, l_{21} = b / l_{11}, l_{22} = \sqrt{c - l_{21}^2}이다. a > 0이고 c - b^2/a > 0 (즉, ac - b^2 > 0)이어야 모든 성분이 실수이며, 이는 \Delta_1 > 0, \Delta_2 > 0과 일치한다.

5. 양의 정부호 행렬의 동치 조건 정리

대칭 행렬 A \in M_{n \times n}(\mathbb{R})에 대하여 다음은 모두 동치이다:

(1) A는 양의 정부호이다 (x^T A x > 0, \forall x \neq 0).

(2) A의 모든 고유값이 양수이다.

(3) A의 모든 선행 주소 행렬식이 양수이다 (Sylvester’s criterion).

(4) 하삼각 행렬 L (l_{ii} > 0)이 존재하여 A = LL^T이다 (Cholesky decomposition).

(5) 열 계수(column rank)가 n인 행렬 B가 존재하여 A = B^T B이다.

(6) A의 모든 주소 행렬식(principal minor, 반드시 선행일 필요 없음)이 양수이다.

(7) 직교 대각화 A = Q \Lambda Q^T에서 \Lambda의 모든 대각 성분이 양수이다.

이들 동치 조건의 증명 구조는 순환적이다: (1)\Rightarrow(2), (2)\Rightarrow(7), (7)\Rightarrow(1)의 증명은 직교 대각화를 통하여 직접적이고, (1)\Rightarrow(3)\Rightarrow(4)\Rightarrow(5)\Rightarrow(1)의 증명은 행렬 분해 이론에 기초한다.

6. 양의 정부호 행렬의 성질

양의 정부호 행렬은 다음의 성질을 갖는다.

가역성. A \succ 0이면 \det(A) = \prod_{i=1}^{n} \lambda_i > 0이므로 A는 가역이다.

역행렬의 양의 정부호성. A \succ 0이면 A^{-1} \succ 0이다. A^{-1}의 고유값은 \lambda_i^{-1}이므로 모두 양수이다.

양의 대각 성분. A \succ 0이면 a_{ii} > 0이다 (\forall i). 이는 x = e_i를 대입하면 e_i^T A e_i = a_{ii} > 0에서 즉시 따른다.

합의 보존. A \succ 0이고 B \succ 0이면 A + B \succ 0이다. x^T (A + B) x = x^T A x + x^T B x > 0이다.

양의 스칼라배. A \succ 0이고 \alpha > 0이면 \alpha A \succ 0이다.

합동 변환에 의한 보존. A \succ 0이고 C가 가역 행렬이면 C^T A C \succ 0이다. (Cx)^T A (Cx) = x^T (C^T A C) x > 0이다 (Cx \neq 0 because C is invertible).

대각합과 행렬식의 양수성. A \succ 0이면 \operatorname{tr}(A) = \sum \lambda_i > 0이고 \det(A) = \prod \lambda_i > 0이다.

7. 레일리 몫(Rayleigh Quotient)과 고유값의 극값 특성

대칭 행렬 A에 대하여 **레일리 몫(Rayleigh quotient)**은

R(x) = \frac{x^T A x}{x^T x}, \quad x \neq 0

으로 정의된다. 레일리 몫은 다음의 극값 성질을 갖는다:

\lambda_{\min}(A) = \min_{x \neq 0} R(x), \quad \lambda_{\max}(A) = \max_{x \neq 0} R(x)

여기서 최솟값은 x\lambda_{\min}에 대응하는 고유벡터일 때, 최댓값은 \lambda_{\max}에 대응하는 고유벡터일 때 달성된다.

이 성질로부터, A \succ 0일 필요충분조건은 \min_{x \neq 0} R(x) > 0, 즉 \lambda_{\min}(A) > 0인 것이다. 또한, 임의의 x \neq 0에 대하여

\lambda_{\min} \lVert x \rVert^2 \leq x^T A x \leq \lambda_{\max} \lVert x \rVert^2

이 성립한다. 이 부등식은 양의 정부호 행렬이 정의하는 이차 형식의 상하한을 고유값으로 특성화한다.

8. 수치 예시

8.1 예시 1: 양의 정부호 판별

A = \begin{pmatrix} 4 & 2 \\ 2 & 3 \end{pmatrix}

고유값 판별. p_A(\lambda) = (4 - \lambda)(3 - \lambda) - 4 = \lambda^2 - 7\lambda + 8이므로 \lambda = \frac{7 \pm \sqrt{17}}{2}이다. \lambda_1 \approx 5.56, \lambda_2 \approx 1.44이며 모두 양수이다. 따라서 A \succ 0이다.

Sylvester 기준 판별. \Delta_1 = 4 > 0, \Delta_2 = 12 - 4 = 8 > 0. 따라서 A \succ 0이다.

촐레스키 분해. l_{11} = 2, l_{21} = 1, l_{22} = \sqrt{3 - 1} = \sqrt{2}이므로

A = \begin{pmatrix} 2 & 0 \\ 1 & \sqrt{2} \end{pmatrix} \begin{pmatrix} 2 & 1 \\ 0 & \sqrt{2} \end{pmatrix}

모든 대각 성분이 양수이므로 A \succ 0이다.

8.2 예시 2: 양의 정부호가 아닌 행렬

B = \begin{pmatrix} 1 & 2 \\ 2 & 1 \end{pmatrix}

고유값 판별. p_B(\lambda) = (1 - \lambda)^2 - 4 = \lambda^2 - 2\lambda - 3 = (\lambda - 3)(\lambda + 1)이므로 \lambda_1 = 3, \lambda_2 = -1이다. \lambda_2 < 0이므로 B는 양의 정부호가 아니다.

Sylvester 기준. \Delta_1 = 1 > 0이나 \Delta_2 = 1 - 4 = -3 < 0이므로 양의 정부호가 아니다.

실제로, x = \begin{pmatrix} 1 \\ -1 \end{pmatrix}에 대하여 x^T B x = 1 - 2 - 2 + 1 = -2 < 0이다.

8.3 예시 3: 3 \times 3 행렬의 판별

C = \begin{pmatrix} 2 & -1 & 0 \\ -1 & 2 & -1 \\ 0 & -1 & 2 \end{pmatrix}

Sylvester 기준. \Delta_1 = 2 > 0, \Delta_2 = 4 - 1 = 3 > 0, \Delta_3 = 2(4 - 1) - (-1)(-2 - 0) + 0 = 6 - 2 = 4 > 0이므로 C \succ 0이다.

이 행렬의 고유값은 \lambda_k = 2 - 2\cos\frac{k\pi}{4} (k = 1, 2, 3)이며, \lambda_1 = 2 - \sqrt{2} \approx 0.586, \lambda_2 = 2, \lambda_3 = 2 + \sqrt{2} \approx 3.414로 모두 양수이다.

9. 양의 정부호 행렬과 내적의 관계

양의 정부호 대칭 행렬 A \succ 0\mathbb{R}^n 위에 새로운 **내적(inner product)**을 정의한다:

\langle x, y \rangle_A = x^T A y

이것이 내적의 공리(대칭성, 쌍선형성, 양의 정부호성)를 만족함은 다음과 같이 확인된다:

  • 대칭성: \langle x, y \rangle_A = x^T A y = (y^T A^T x)^T = (y^T A x)^T = y^T A x = \langle y, x \rangle_A (A = A^T 사용)
  • 쌍선형성: 행렬-벡터 곱의 선형성으로부터 자명하다.
  • 양의 정부호성: \langle x, x \rangle_A = x^T A x > 0 (\forall x \neq 0)은 A의 양의 정부호 조건 그 자체이다.

A-내적에 의한 노름은 \lVert x \rVert_A = \sqrt{x^T A x}이며, 이를 에너지 노름(energy norm) 또는 A-노름이라 한다.

10. 부호 분류(Definiteness Classification)의 체계

대칭 행렬의 정부호성 분류를 고유값 조건과 함께 정리하면 다음과 같다.

분류이차 형식 조건고유값 조건
양의 정부호 (positive definite)x^T A x > 0, \forall x \neq 0\lambda_i > 0, \forall i
양의 반정부호 (positive semi-definite)x^T A x \geq 0, \forall x\lambda_i \geq 0, \forall i
음의 정부호 (negative definite)x^T A x < 0, \forall x \neq 0\lambda_i < 0, \forall i
음의 반정부호 (negative semi-definite)x^T A x \leq 0, \forall x\lambda_i \leq 0, \forall i
부정부호 (indefinite)양의 값과 음의 값 모두 존재양의 고유값과 음의 고유값 모두 존재

음의 정부호 판별은 -A의 양의 정부호 판별로 환원된다. 부정부호 행렬은 안장점(saddle point)의 존재와 직접 관련된다.

11. 딥러닝에서의 양의 정부호 행렬

양의 정부호 행렬은 딥러닝과 기계 학습에서 핵심적 역할을 한다.

헤시안 행렬과 극값 조건. 손실 함수 L(\theta)의 헤시안 행렬 H = \nabla^2 L(\theta)가 임계점 \theta^*에서 양의 정부호이면, \theta^*는 극소점(local minimum)이다. 헤시안이 부정부호이면 해당 점은 안장점이다.

공분산 행렬. 데이터의 공분산 행렬 \Sigma = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(x_i - \bar{x})^T는 항상 양의 반정부호이며, 데이터가 퇴화되지 않은 경우(데이터 점의 수가 차원보다 크고 일반적 위치에 있는 경우) 양의 정부호이다. 양의 정부호 공분산 행렬은 역행렬이 존재하므로 마할라노비스 거리(Mahalanobis distance) 등의 계산이 가능하다.

커널 행렬. 양의 정부호 커널 함수 k(x_i, x_j)로부터 구성되는 그람 행렬(Gram matrix) K_{ij} = k(x_i, x_j)는 양의 반정부호이며, 이는 커널 기법(kernel method)의 수학적 기초이다.