30.23 행렬의 고유값과 대각합(Trace) 및 행렬식(Determinant)의 관계
1. 대각합과 행렬식의 정의
n \times n 행렬 A = (a_{ij})의 **대각합(trace)**은 주대각 성분의 합으로 정의된다:
\operatorname{tr}(A) = \sum_{i=1}^{n} a_{ii}
A의 **행렬식(determinant)**은 라이프니츠 공식(Leibniz formula)에 의하여
\det(A) = \sum_{\sigma \in S_n} \operatorname{sgn}(\sigma) \prod_{i=1}^{n} a_{i, \sigma(i)}
로 정의된다. 여기서 S_n은 \{1, 2, \ldots, n\} 위의 대칭군(symmetric group)이고 \operatorname{sgn}(\sigma)는 치환 \sigma의 부호(sign)이다.
2. 특성 다항식과 고유값의 관계
n \times n 행렬 A의 특성 다항식(characteristic polynomial)은
p_A(\lambda) = \det(A - \lambda I)
이며, 이를 \lambda에 대하여 전개하면
p_A(\lambda) = (-1)^n \lambda^n + (-1)^{n-1} \operatorname{tr}(A) \lambda^{n-1} + \cdots + \det(A)
의 형태를 갖는다. 대수학의 기본 정리에 의하여 p_A(\lambda)는 복소수 범위에서 n개의 근(중복 포함)을 가지며, 이들이 A의 고유값 \lambda_1, \lambda_2, \ldots, \lambda_n이다. 따라서
p_A(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)
으로 인수분해된다. 이 두 표현을 비교함으로써 대각합 및 행렬식과 고유값 사이의 관계를 도출한다.
3. 대각합과 고유값의 합
정리. n \times n 행렬 A의 대각합은 고유값의 합과 같다:
\operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i
증명. 특성 다항식의 두 표현을 비교한다.
p_A(\lambda) = \det(A - \lambda I)를 \lambda에 대하여 전개하면, \lambda^{n-1} 항의 계수를 분석하여야 한다. 라이프니츠 공식에서 \lambda^{n-1} 항에 기여하는 치환은 항등 치환 \sigma = \operatorname{id}에서 대각 원소 (a_{11} - \lambda)(a_{22} - \lambda) \cdots (a_{nn} - \lambda)를 전개할 때 나타나는 것이다:
\prod_{i=1}^{n} (a_{ii} - \lambda) = (-\lambda)^n + \left(\sum_{i=1}^{n} a_{ii}\right)(-\lambda)^{n-1} + \cdots
따라서 \lambda^{n-1}의 계수는 (-1)^{n-1} \operatorname{tr}(A)이다.
한편, 인수분해 형태에서
(-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)
을 전개하면 \lambda^{n-1}의 계수는
(-1)^n \cdot (-1)^1 (\lambda_1 + \lambda_2 + \cdots + \lambda_n) \cdot (-1)^{0} = (-1)^{n-1} \sum_{i=1}^{n} \lambda_i
양변의 \lambda^{n-1} 계수를 등치하면
(-1)^{n-1} \operatorname{tr}(A) = (-1)^{n-1} \sum_{i=1}^{n} \lambda_i
따라서 \operatorname{tr}(A) = \sum_{i=1}^{n} \lambda_i이다. \blacksquare
대안적 증명 (대각화 가능 행렬). A가 대각화 가능하면 A = P \Lambda P^{-1}이고, 대각합의 순환 성질(cyclic property) \operatorname{tr}(XYZ) = \operatorname{tr}(YZX) = \operatorname{tr}(ZXY)에 의하여
\operatorname{tr}(A) = \operatorname{tr}(P \Lambda P^{-1}) = \operatorname{tr}(\Lambda P^{-1} P) = \operatorname{tr}(\Lambda) = \sum_{i=1}^{n} \lambda_i
이 증명은 대각화 가능 행렬에 대하여는 간명하나, 대각화 불가능 행렬에 대하여는 적용되지 않는다. 특성 다항식에 기반한 첫 번째 증명은 대각화 가능성과 무관하게 모든 행렬에 적용된다.
4. 행렬식과 고유값의 곱
정리. n \times n 행렬 A의 행렬식은 고유값의 곱과 같다:
\det(A) = \prod_{i=1}^{n} \lambda_i
증명. 특성 다항식 p_A(\lambda) = (-1)^n (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)에 \lambda = 0을 대입하면
p_A(0) = \det(A - 0 \cdot I) = \det(A)
한편
p_A(0) = (-1)^n (0 - \lambda_1)(0 - \lambda_2) \cdots (0 - \lambda_n) = (-1)^n (-\lambda_1)(-\lambda_2) \cdots (-\lambda_n) = (-1)^{2n} \prod_{i=1}^{n} \lambda_i = \prod_{i=1}^{n} \lambda_i
따라서 \det(A) = \prod_{i=1}^{n} \lambda_i이다. \blacksquare
이 정리로부터 즉시 다음이 도출된다: A가 가역일 필요충분조건은 모든 고유값이 0이 아닌 것이다. \det(A) \neq 0 \iff \lambda_i \neq 0, \forall i이기 때문이다.
5. 특성 다항식의 계수와 고유값의 기본 대칭 다항식
특성 다항식의 모든 계수는 고유값의 **기본 대칭 다항식(elementary symmetric polynomial)**으로 표현된다. p_A(\lambda) = \det(A - \lambda I)를 정리하면
p_A(\lambda) = (-1)^n \left[ \lambda^n - e_1 \lambda^{n-1} + e_2 \lambda^{n-2} - \cdots + (-1)^n e_n \right]
여기서 e_k는 고유값 \lambda_1, \ldots, \lambda_n의 k차 기본 대칭 다항식이다:
e_1 = \sum_{i} \lambda_i = \operatorname{tr}(A)
e_2 = \sum_{i < j} \lambda_i \lambda_j
e_3 = \sum_{i < j < k} \lambda_i \lambda_j \lambda_k
\vdots
e_n = \lambda_1 \lambda_2 \cdots \lambda_n = \det(A)
e_2는 A의 모든 2 \times 2 주소 부분 행렬(principal submatrix)의 행렬식의 합과 같다. 일반적으로, e_k는 A의 모든 k \times k 주소 부분 행렬의 행렬식의 합과 같다.
6. 2 \times 2 행렬에서의 구체적 관계
2 \times 2 행렬 A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}에 대하여
\operatorname{tr}(A) = a + d = \lambda_1 + \lambda_2
\det(A) = ad - bc = \lambda_1 \lambda_2
특성 다항식은
p_A(\lambda) = \lambda^2 - \operatorname{tr}(A) \lambda + \det(A) = (\lambda - \lambda_1)(\lambda - \lambda_2)
이므로, 이차 방정식의 근과 계수의 관계(Vieta’s formulas)가 그대로 적용된다. 고유값은
\lambda_{1,2} = \frac{\operatorname{tr}(A) \pm \sqrt{\operatorname{tr}(A)^2 - 4 \det(A)}}{2}
로 계산된다. 이 공식은 2 \times 2 행렬의 고유값을 대각합과 행렬식으로부터 직접 구하는 방법을 제공한다.
7. 3 \times 3 행렬에서의 구체적 관계
3 \times 3 행렬 A에 대하여 특성 다항식은
p_A(\lambda) = -\lambda^3 + \operatorname{tr}(A) \lambda^2 - \frac{1}{2}\left[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)\right] \lambda + \det(A)
여기서 e_2 = \frac{1}{2}[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)]임을 뉴턴 항등식(Newton’s identity)으로부터 도출할 수 있다.
8. 대각합의 성질과 고유값과의 연계
대각합은 다음의 대수적 성질을 갖는다:
선형성. \operatorname{tr}(\alpha A + \beta B) = \alpha \operatorname{tr}(A) + \beta \operatorname{tr}(B)
순환 성질(Cyclic property). \operatorname{tr}(AB) = \operatorname{tr}(BA). 더 일반적으로, \operatorname{tr}(A_1 A_2 \cdots A_k) = \operatorname{tr}(A_2 A_3 \cdots A_k A_1)
전치 불변성. \operatorname{tr}(A^T) = \operatorname{tr}(A)
유사 변환 불변성. \operatorname{tr}(P^{-1} A P) = \operatorname{tr}(A) (순환 성질의 직접적 귀결)
유사 변환 불변성은 대각합이 기저의 선택에 무관한 **불변량(invariant)**임을 뜻한다. 고유값의 합이 기저 선택에 무관한 것은 자명하므로, \operatorname{tr}(A) = \sum \lambda_i는 이 불변성의 구체적 표현이다.
9. 행렬 거듭제곱에 대한 확장
대각합-고유값 관계와 행렬식-고유값 관계는 행렬의 거듭제곱으로 자연스럽게 확장된다.
정리. 임의의 양의 정수 k에 대하여
\operatorname{tr}(A^k) = \sum_{i=1}^{n} \lambda_i^k
\det(A^k) = \prod_{i=1}^{n} \lambda_i^k = \left(\det(A)\right)^k
증명. A^k의 고유값은 \lambda_1^k, \lambda_2^k, \ldots, \lambda_n^k이다. 이는 Av = \lambda v이면 A^k v = \lambda^k v로부터 따른다. 대각합-고유값 관계와 행렬식-고유값 관계를 A^k에 적용하면 된다. \blacksquare
특히, \operatorname{tr}(A^2) = \sum \lambda_i^2은 고유값의 제곱합을 행렬 원소로 계산하는 공식을 제공한다:
\operatorname{tr}(A^2) = \operatorname{tr}(A \cdot A) = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} a_{ji}
대칭 행렬의 경우 a_{ij} = a_{ji}이므로 \operatorname{tr}(A^2) = \sum_{i,j} a_{ij}^2 = \lVert A \rVert_F^2이다. 여기서 \lVert A \rVert_F는 프로베니우스 노름(Frobenius norm)이다.
10. 뉴턴 항등식(Newton’s Identities)
고유값의 멱급수 합(power sum) p_k = \sum_{i=1}^{n} \lambda_i^k = \operatorname{tr}(A^k)와 기본 대칭 다항식 e_k 사이의 관계를 기술하는 것이 뉴턴 항등식이다:
p_k - e_1 p_{k-1} + e_2 p_{k-2} - \cdots + (-1)^{k-1} k \, e_k = 0, \quad k = 1, 2, \ldots, n
처음 세 항등식을 명시적으로 기술하면:
p_1 = e_1
p_2 = e_1 p_1 - 2 e_2 \implies e_2 = \frac{1}{2}(e_1^2 - p_2) = \frac{1}{2}\left[\operatorname{tr}(A)^2 - \operatorname{tr}(A^2)\right]
p_3 = e_1 p_2 - e_2 p_1 + 3 e_3 \implies e_3 = \frac{1}{3}\left[p_3 - e_1 p_2 + e_2 p_1\right]
뉴턴 항등식은 대각합 \operatorname{tr}(A), \operatorname{tr}(A^2), \ldots, \operatorname{tr}(A^n)을 알면 특성 다항식의 모든 계수(따라서 모든 고유값)를 결정할 수 있음을 보여준다. 이는 Faddeev-LeVerrier 알고리즘의 이론적 기초이다.
11. 행렬 함수의 대각합
행렬 함수 f(A)의 대각합도 고유값을 통하여 계산된다:
\operatorname{tr}(f(A)) = \sum_{i=1}^{n} f(\lambda_i)
여기서 f(A)는 스펙트럼 사상(spectral mapping)에 의하여 정의된다. 중요한 특수 경우로:
\operatorname{tr}(e^A) = \sum_{i=1}^{n} e^{\lambda_i}
\det(e^A) = \prod_{i=1}^{n} e^{\lambda_i} = e^{\sum_{i=1}^{n} \lambda_i} = e^{\operatorname{tr}(A)}
마지막 등식은 **야코비 공식(Jacobi’s formula)**의 특수 경우이며, 행렬 지수 함수의 행렬식과 행렬의 대각합을 연결한다:
\det(e^A) = e^{\operatorname{tr}(A)}
이 관계는 리 군(Lie group)과 리 대수(Lie algebra) 사이의 지수 사상에서 핵심적 역할을 한다.
12. 수치 예시
12.1 예시 1
A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}
\operatorname{tr}(A) = 3 + 2 = 5, \det(A) = 6 - 0 = 6이다.
A는 상삼각 행렬이므로 고유값은 대각 성분 \lambda_1 = 3, \lambda_2 = 2이다.
검증: \lambda_1 + \lambda_2 = 5 = \operatorname{tr}(A), \lambda_1 \lambda_2 = 6 = \det(A)이다.
12.2 예시 2
B = \begin{pmatrix} 1 & 2 & 3 \\ 0 & 4 & 5 \\ 0 & 0 & 6 \end{pmatrix}
\operatorname{tr}(B) = 11, \det(B) = 24이다. 고유값은 \lambda_1 = 1, \lambda_2 = 4, \lambda_3 = 6이다.
\sum \lambda_i = 11 = \operatorname{tr}(B), \prod \lambda_i = 24 = \det(B)이다.
e_2 = \lambda_1 \lambda_2 + \lambda_1 \lambda_3 + \lambda_2 \lambda_3 = 4 + 6 + 24 = 34. 검증: \frac{1}{2}[\operatorname{tr}(B)^2 - \operatorname{tr}(B^2)] = \frac{1}{2}[121 - (1 + 16 + 36 + \cdots)]. \operatorname{tr}(B^2) = 1 + 16 + 36 + \text{비대각 기여} = 1 + (4 + 16) + (9 + 20 + 36) = 53이므로 e_2 = \frac{1}{2}(121 - 53) = 34이다.
12.3 예시 3: 가역성 판별
C = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}
\det(C) = 4 - 4 = 0이므로 C는 특이(singular)이다. \operatorname{tr}(C) = 5이므로 \lambda_1 + \lambda_2 = 5이고 \lambda_1 \lambda_2 = 0이다. 따라서 \lambda_1 = 0, \lambda_2 = 5이다. 0인 고유값의 존재가 \det(C) = 0과 정확히 대응한다.
13. 대각합과 행렬식의 부등식
고유값과의 관계로부터 다음의 부등식들이 도출된다.
산술-기하 평균 부등식. A \succ 0 (양의 정부호 대칭 행렬)이면
\frac{\operatorname{tr}(A)}{n} = \frac{\sum \lambda_i}{n} \geq \left(\prod \lambda_i\right)^{1/n} = (\det A)^{1/n}
등호는 \lambda_1 = \lambda_2 = \cdots = \lambda_n, 즉 A = \lambda I일 때 성립한다.
프로베니우스 노름 부등식. 임의의 n \times n 행렬 A에 대하여
\lvert \operatorname{tr}(A) \rvert^2 = \left\lvert \sum \lambda_i \right\rvert^2 \leq n \sum \lvert \lambda_i \rvert^2 \leq n \, \operatorname{tr}(A^* A) = n \lVert A \rVert_F^2
(코시-슈바르츠 부등식 적용)
14. 딥러닝에서의 활용
가중치 행렬의 조건 분석. 신경망의 가중치 행렬 W에 대하여 \operatorname{tr}(W^T W) = \lVert W \rVert_F^2 = \sum \sigma_i^2 (특이값의 제곱합)이며, 이는 가중치의 크기에 대한 정칙화 항(예: L2 정칙화, 가중치 감쇠)과 직결된다.
행렬식과 확률 분포. 다변량 가우시안 분포 \mathcal{N}(\mu, \Sigma)의 정규화 상수에는 \det(\Sigma)^{-1/2}이 포함되며, 로그 우도 함수에 \log \det(\Sigma) = \sum \log \lambda_i = \operatorname{tr}(\log \Sigma)가 나타난다. 이 관계는 공분산 행렬의 최적화에서 핵심적이다.
대각합의 미분. 대각합은 행렬의 성분에 대하여 간명한 미분 규칙을 갖는다: \frac{\partial}{\partial A} \operatorname{tr}(AB) = B^T. 이 성질은 역전파(backpropagation)에서의 행렬 미분 계산에 광범위하게 활용된다.