30.23 행렬의 고유값과 대각합(Trace) 및 행렬식(Determinant)의 관계

30.23 행렬의 고유값과 대각합(Trace) 및 행렬식(Determinant)의 관계

1. 대각합과 행렬식의 정의

n \times n 행렬 A = (a_{ij})의 **대각합(trace)**은 주대각 성분의 합으로 정의된다:

\operatorname{tr}(A) = \sum_{i=1}^{n} a_{ii}

A의 **행렬식(determinant)**은 라이프니츠 공식(Leibniz formula)에 의하여

\det(A) = \sum_{\sigma \in S_n} \operatorname{sgn}(\sigma) \prod_{i=1}^{n} a_{i, \sigma(i)}

로 정의된다. 여기서 S_n\{1, 2, \ldots, n\} 위의 대칭군(symmetric group)이고 \operatorname{sgn}(\sigma)는 치환 \sigma의 부호(sign)이다.

2. 특성 다항식과 고유값의 관계

n \times n 행렬 A의 특성 다항식(characteristic polynomial)은

p_A(\lambda) = \det(A - \lambda I)

이며, 이를 \lambda에 대하여 전개하면

p_A(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} \operatorname{tr}(A) \lambda^{n-1} + \cdots + \det(A)

의 형태를 갖는다. 대수학의 기본 정리에 의하여 p_A(\lambda)는 복소수 범위에서 n개의 근(중복 포함)을 가지며, 이들이 A의 고유값 \lambda_1, \lambda_2, \ldots, \lambda_n이다. 따라서

p_A(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)

으로 인수분해된다. 이 두 표현을 비교함으로써 대각합 및 행렬식과 고유값 사이의 관계를 도출한다.

3. 대각합과 고유값의 합

정리. n \times n 행렬 A의 대각합은 고유값의 합과 같다:

\operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i

증명. 특성 다항식의 두 표현을 비교한다.

p_A(\lambda) = \det(A - \lambda I)\lambda에 대하여 전개하면, \lambda^{n-1} 항의 계수를 분석하여야 한다. 라이프니츠 공식에서 \lambda^{n-1} 항에 기여하는 치환은 항등 치환 \sigma = \operatorname{id}에서 대각 원소 (a_{11} - \lambda)(a_{22} - \lambda) \cdots (a_{nn} - \lambda)를 전개할 때 나타나는 것이다:

\prod_{i=1}^{n} (a_{ii} - \lambda) = (-\lambda)^n + \left(\sum_{i=1}^{n} a_{ii}\right)(-\lambda)^{n-1} + \cdots

따라서 \lambda^{n-1}의 계수는 (-1)^{n-1} \operatorname{tr}(A)이다.

한편, 인수분해 형태에서

(-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)

을 전개하면 \lambda^{n-1}의 계수는

(-1)^n \cdot (-1)^1 (\lambda_1 + \lambda_2 + \cdots + \lambda_n) \cdot (-1)^{0} = (-1)^{n-1} \sum_{i=1}^{n} \lambda_i

양변의 \lambda^{n-1} 계수를 등치하면

(-1)^{n-1} \operatorname{tr}(A) = (-1)^{n-1} \sum_{i=1}^{n} \lambda_i

따라서 \operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i이다. \blacksquare

대안적 증명 (대각화 가능 행렬). A가 대각화 가능하면 A = P \Lambda P^{-1}이고, 대각합의 순환 성질(cyclic property) \operatorname{tr}(XYZ) = \operatorname{tr}(YZX) = \operatorname{tr}(ZXY)에 의하여

\operatorname{tr}(A) = \operatorname{tr}(P \Lambda P^{-1}) = \operatorname{tr}(\Lambda P^{-1} P) = \operatorname{tr}(\Lambda) = \sum_{i=1}^{n} \lambda_i

이 증명은 대각화 가능 행렬에 대하여는 간명하나, 대각화 불가능 행렬에 대하여는 적용되지 않는다. 특성 다항식에 기반한 첫 번째 증명은 대각화 가능성과 무관하게 모든 행렬에 적용된다.

4. 행렬식과 고유값의 곱

정리. n \times n 행렬 A의 행렬식은 고유값의 곱과 같다:

\det(A) = \prod_{i=1}^{n} \lambda_i

증명. 특성 다항식 p_A(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)\lambda = 0을 대입하면

p_A(0) = \det(A - 0 \cdot I) = \det(A)

한편

p_A(0) = (-1)^n (0 - \lambda_1)(0 - \lambda_2) \cdots (0 - \lambda_n) = (-1)^n (-\lambda_1)(-\lambda_2) \cdots (-\lambda_n) = (-1)^{2n} \prod_{i=1}^{n} \lambda_i = \prod_{i=1}^{n} \lambda_i

따라서 \det(A) = \prod_{i=1}^{n} \lambda_i이다. \blacksquare

이 정리로부터 즉시 다음이 도출된다: A가 가역일 필요충분조건은 모든 고유값이 0이 아닌 것이다. \det(A) \neq 0 \iff \lambda_i \neq 0, \forall i이기 때문이다.

5. 특성 다항식의 계수와 고유값의 기본 대칭 다항식

특성 다항식의 모든 계수는 고유값의 **기본 대칭 다항식(elementary symmetric polynomial)**으로 표현된다. p_A(\lambda) = \det(A - \lambda I)를 정리하면

p_A(\lambda) = (-1)^n \left[ \lambda^n - e_1 \lambda^{n-1} + e_2 \lambda^{n-2} - \cdots + (-1)^n e_n \right]

여기서 e_k는 고유값 \lambda_1, \ldots, \lambda_nk차 기본 대칭 다항식이다:

e_1 = \sum_{i} \lambda_i = \operatorname{tr}(A)

e_2 = \sum_{i < j} \lambda_i \lambda_j

e_3 = \sum_{i < j < k} \lambda_i \lambda_j \lambda_k

\vdots

e_n = \lambda_1 \lambda_2 \cdots \lambda_n = \det(A)

e_2A의 모든 2 \times 2 주소 부분 행렬(principal submatrix)의 행렬식의 합과 같다. 일반적으로, e_kA의 모든 k \times k 주소 부분 행렬의 행렬식의 합과 같다.

6. 2 \times 2 행렬에서의 구체적 관계

2 \times 2 행렬 A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}에 대하여

\operatorname{tr}(A) = a + d = \lambda_1 + \lambda_2

\det(A) = ad - bc = \lambda_1 \lambda_2

특성 다항식은

p_A(\lambda) = \lambda^2 - \operatorname{tr}(A) \lambda + \det(A) = (\lambda - \lambda_1)(\lambda - \lambda_2)

이므로, 이차 방정식의 근과 계수의 관계(Vieta’s formulas)가 그대로 적용된다. 고유값은

\lambda_{1,2} = \frac{\operatorname{tr}(A) \pm \sqrt{\operatorname{tr}(A)^2 - 4 \det(A)}}{2}

로 계산된다. 이 공식은 2 \times 2 행렬의 고유값을 대각합과 행렬식으로부터 직접 구하는 방법을 제공한다.

7. 3 \times 3 행렬에서의 구체적 관계

3 \times 3 행렬 A에 대하여 특성 다항식은

p_A(\lambda) = -\lambda^3 + \operatorname{tr}(A) \lambda^2 - \frac{1}{2}\left[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)\right] \lambda + \det(A)

여기서 e_2 = \frac{1}{2}[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)]임을 뉴턴 항등식(Newton’s identity)으로부터 도출할 수 있다.

8. 대각합의 성질과 고유값과의 연계

대각합은 다음의 대수적 성질을 갖는다:

선형성. \operatorname{tr}(\alpha A + \beta B) = \alpha \operatorname{tr}(A) + \beta \operatorname{tr}(B)

순환 성질(Cyclic property). \operatorname{tr}(AB) = \operatorname{tr}(BA). 더 일반적으로, \operatorname{tr}(A_1 A_2 \cdots A_k) = \operatorname{tr}(A_2 A_3 \cdots A_k A_1)

전치 불변성. \operatorname{tr}(A^T) = \operatorname{tr}(A)

유사 변환 불변성. \operatorname{tr}(P^{-1} A P) = \operatorname{tr}(A) (순환 성질의 직접적 귀결)

유사 변환 불변성은 대각합이 기저의 선택에 무관한 **불변량(invariant)**임을 뜻한다. 고유값의 합이 기저 선택에 무관한 것은 자명하므로, \operatorname{tr}(A) = \sum \lambda_i는 이 불변성의 구체적 표현이다.

9. 행렬 거듭제곱에 대한 확장

대각합-고유값 관계와 행렬식-고유값 관계는 행렬의 거듭제곱으로 자연스럽게 확장된다.

정리. 임의의 양의 정수 k에 대하여

\operatorname{tr}(A^k) = \sum_{i=1}^{n} \lambda_i^k

\det(A^k) = \prod_{i=1}^{n} \lambda_i^k = \left(\det(A)\right)^k

증명. A^k의 고유값은 \lambda_1^k, \lambda_2^k, \ldots, \lambda_n^k이다. 이는 Av = \lambda v이면 A^k v = \lambda^k v로부터 따른다. 대각합-고유값 관계와 행렬식-고유값 관계를 A^k에 적용하면 된다. \blacksquare

특히, \operatorname{tr}(A^2) = \sum \lambda_i^2은 고유값의 제곱합을 행렬 원소로 계산하는 공식을 제공한다:

\operatorname{tr}(A^2) = \operatorname{tr}(A \cdot A) = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} a_{ji}

대칭 행렬의 경우 a_{ij} = a_{ji}이므로 \operatorname{tr}(A^2) = \sum_{i,j} a_{ij}^2 = \lVert A \rVert_F^2이다. 여기서 \lVert A \rVert_F는 프로베니우스 노름(Frobenius norm)이다.

10. 뉴턴 항등식(Newton’s Identities)

고유값의 멱급수 합(power sum) p_k = \sum_{i=1}^{n} \lambda_i^k = \operatorname{tr}(A^k)와 기본 대칭 다항식 e_k 사이의 관계를 기술하는 것이 뉴턴 항등식이다:

p_k - e_1 p_{k-1} + e_2 p_{k-2} - \cdots + (-1)^{k-1} k \, e_k = 0, \quad k = 1, 2, \ldots, n

처음 세 항등식을 명시적으로 기술하면:

p_1 = e_1

p_2 = e_1 p_1 - 2 e_2 \implies e_2 = \frac{1}{2}(e_1^2 - p_2) = \frac{1}{2}\left[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)\right]

p_3 = e_1 p_2 - e_2 p_1 + 3 e_3 \implies e_3 = \frac{1}{3}\left[p_3 - e_1 p_2 + e_2 p_1\right]

뉴턴 항등식은 대각합 \operatorname{tr}(A), \operatorname{tr}(A^2), \ldots, \operatorname{tr}(A^n)을 알면 특성 다항식의 모든 계수(따라서 모든 고유값)를 결정할 수 있음을 보여준다. 이는 Faddeev-LeVerrier 알고리즘의 이론적 기초이다.

11. 행렬 함수의 대각합

행렬 함수 f(A)의 대각합도 고유값을 통하여 계산된다:

\operatorname{tr}(f(A)) = \sum_{i=1}^{n} f(\lambda_i)

여기서 f(A)는 스펙트럼 사상(spectral mapping)에 의하여 정의된다. 중요한 특수 경우로:

\operatorname{tr}(e^A) = \sum_{i=1}^{n} e^{\lambda_i}

\det(e^A) = \prod_{i=1}^{n} e^{\lambda_i} = e^{\sum_{i=1}^{n} \lambda_i} = e^{\operatorname{tr}(A)}

마지막 등식은 **야코비 공식(Jacobi’s formula)**의 특수 경우이며, 행렬 지수 함수의 행렬식과 행렬의 대각합을 연결한다:

\det(e^A) = e^{\operatorname{tr}(A)}

이 관계는 리 군(Lie group)과 리 대수(Lie algebra) 사이의 지수 사상에서 핵심적 역할을 한다.

12. 수치 예시

12.1 예시 1

A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}

\operatorname{tr}(A) = 3 + 2 = 5, \det(A) = 6 - 0 = 6이다.

A는 상삼각 행렬이므로 고유값은 대각 성분 \lambda_1 = 3, \lambda_2 = 2이다.

검증: \lambda_1 + \lambda_2 = 5 = \operatorname{tr}(A), \lambda_1 \lambda_2 = 6 = \det(A)이다.

12.2 예시 2

B = \begin{pmatrix} 1 & 2 & 3 \\ 0 & 4 & 5 \\ 0 & 0 & 6 \end{pmatrix}

\operatorname{tr}(B) = 11, \det(B) = 24이다. 고유값은 \lambda_1 = 1, \lambda_2 = 4, \lambda_3 = 6이다.

\sum \lambda_i = 11 = \operatorname{tr}(B), \prod \lambda_i = 24 = \det(B)이다.

e_2 = \lambda_1 \lambda_2 + \lambda_1 \lambda_3 + \lambda_2 \lambda_3 = 4 + 6 + 24 = 34. 검증: \frac{1}{2}[\operatorname{tr}(B)^2 - \operatorname{tr}(B^2)] = \frac{1}{2}[121 - (1 + 16 + 36 + \cdots)]. \operatorname{tr}(B^2) = 1 + 16 + 36 + \text{비대각 기여} = 1 + (4 + 16) + (9 + 20 + 36) = 53이므로 e_2 = \frac{1}{2}(121 - 53) = 34이다.

12.3 예시 3: 가역성 판별

C = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}

\det(C) = 4 - 4 = 0이므로 C는 특이(singular)이다. \operatorname{tr}(C) = 5이므로 \lambda_1 + \lambda_2 = 5이고 \lambda_1 \lambda_2 = 0이다. 따라서 \lambda_1 = 0, \lambda_2 = 5이다. 0인 고유값의 존재가 \det(C) = 0과 정확히 대응한다.

13. 대각합과 행렬식의 부등식

고유값과의 관계로부터 다음의 부등식들이 도출된다.

산술-기하 평균 부등식. A \succ 0 (양의 정부호 대칭 행렬)이면

\frac{\operatorname{tr}(A)}{n} = \frac{\sum \lambda_i}{n} \geq \left(\prod \lambda_i\right)^{1/n} = (\det A)^{1/n}

등호는 \lambda_1 = \lambda_2 = \cdots = \lambda_n, 즉 A = \lambda I일 때 성립한다.

프로베니우스 노름 부등식. 임의의 n \times n 행렬 A에 대하여

\lvert \operatorname{tr}(A) \rvert^2 = \left\lvert \sum \lambda_i \right\rvert^2 \leq n \sum \lvert \lambda_i \rvert^2 \leq n \, \operatorname{tr}(A^* A) = n \lVert A \rVert_F^2

(코시-슈바르츠 부등식 적용)

14. 딥러닝에서의 활용

가중치 행렬의 조건 분석. 신경망의 가중치 행렬 W에 대하여 \operatorname{tr}(W^T W) = \lVert W \rVert_F^2 = \sum \sigma_i^2 (특이값의 제곱합)이며, 이는 가중치의 크기에 대한 정칙화 항(예: L2 정칙화, 가중치 감쇠)과 직결된다.

행렬식과 확률 분포. 다변량 가우시안 분포 \mathcal{N}(\mu, \Sigma)의 정규화 상수에는 \det(\Sigma)^{-1/2}이 포함되며, 로그 우도 함수에 \log \det(\Sigma) = \sum \log \lambda_i = \operatorname{tr}(\log \Sigma)가 나타난다. 이 관계는 공분산 행렬의 최적화에서 핵심적이다.

대각합의 미분. 대각합은 행렬의 성분에 대하여 간명한 미분 규칙을 갖는다: \frac{\partial}{\partial A} \operatorname{tr}(AB) = B^T. 이 성질은 역전파(backpropagation)에서의 행렬 미분 계산에 광범위하게 활용된다.