30.24 고유값의 섭동 이론(Perturbation Theory) 기초
1. 섭동 이론의 기본 문제
고유값의 **섭동 이론(perturbation theory)**은 행렬이 미소한 변화를 겪을 때 고유값과 고유벡터가 어떻게 변화하는지를 분석하는 이론이다. 구체적으로, n \times n 행렬 A가 주어지고 섭동(perturbation) 행렬 E에 의하여 \tilde{A} = A + E로 변할 때, A의 고유값 \lambda_i와 \tilde{A}의 고유값 \tilde{\lambda}_i 사이의 관계를 정량적으로 규명하는 것이 핵심 과제이다.
이 문제가 중요한 이유는 실제 계산에서 행렬의 원소가 측정 오차, 반올림 오차, 또는 모형 근사에 의하여 정확하지 않기 때문이다. 고유값이 행렬 원소의 미소 변화에 민감하면 수치적으로 불안정하고, 둔감하면 안정하다. 섭동 이론은 이 민감도를 정밀하게 측정하는 도구를 제공한다.
2. 고유값의 연속 의존성
고유값은 행렬 원소의 연속 함수이다. 이는 특성 다항식의 근이 다항식 계수의 연속 함수임으로부터 도출된다.
정리 (고유값의 연속성). A(\epsilon) = A + \epsilon E가 매개변수 \epsilon에 대하여 연속적으로 변할 때, A(\epsilon)의 고유값 \lambda_i(\epsilon)은 \epsilon의 연속 함수이다.
그러나 연속성만으로는 충분하지 않다. 핵심 질문은 “고유값의 변화량이 섭동의 크기에 비하여 얼마나 큰가?“이다. 이 비율이 고유값 문제의 **조건(condition)**을 결정한다.
3. 대칭 행렬에 대한 Weyl의 섭동 부등식
대칭 행렬의 고유값 섭동에 대한 가장 근본적인 결과는 Weyl의 부등식이다.
정리 (Weyl’s inequality). A와 \tilde{A} = A + E가 모두 n \times n 실수 대칭 행렬이면 (E = E^T), 고유값을 오름차순으로 정렬하여 \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n, \tilde{\lambda}_1 \leq \tilde{\lambda}_2 \leq \cdots \leq \tilde{\lambda}_n으로 놓으면
\lvert \tilde{\lambda}_i - \lambda_i \rvert \leq \lVert E \rVert_2, \quad i = 1, 2, \ldots, n
여기서 \lVert E \rVert_2 = \sigma_{\max}(E)는 E의 스펙트럼 노름(spectral norm, 최대 특이값)이다.
증명 개요. 쿠랑-피셔 정리(Courant-Fischer theorem)를 활용한다. 쿠랑-피셔 정리에 의하면
\lambda_k = \min_{\dim(S)=k} \max_{x \in S, \lVert x \rVert = 1} x^T A x
\tilde{\lambda}_k에 대해서도 동일한 공식이 성립한다. 임의의 x (\lVert x \rVert = 1)에 대하여
x^T \tilde{A} x = x^T A x + x^T E x
\lvert x^T E x \rvert \leq \lVert E \rVert_2 \lVert x \rVert^2 = \lVert E \rVert_2이므로
x^T A x - \lVert E \rVert_2 \leq x^T \tilde{A} x \leq x^T A x + \lVert E \rVert_2
이 부등식을 최소-최대 특성화에 적용하면 \lambda_k - \lVert E \rVert_2 \leq \tilde{\lambda}_k \leq \lambda_k + \lVert E \rVert_2을 얻는다. \blacksquare
Weyl의 부등식의 핵심적 함의는 다음과 같다: 대칭 행렬의 고유값 변화는 섭동의 크기에 의하여 선형적으로 제한된다. 이는 대칭 행렬의 고유값 문제가 본질적으로 **잘 조건화(well-conditioned)**되어 있음을 뜻한다. 고유값의 (절대) 조건수는 1이다.
4. 대칭 행렬에 대한 Weyl의 쌍 부등식
Weyl은 더 정밀한 결과도 제시하였다.
정리 (Weyl’s interlacing-type inequality). A, E가 n \times n 대칭 행렬이고 \tilde{A} = A + E이면, 고유값을 오름차순으로 정렬할 때
\lambda_i + \lambda_1(E) \leq \tilde{\lambda}_i \leq \lambda_i + \lambda_n(E), \quad i = 1, \ldots, n
여기서 \lambda_1(E) \leq \cdots \leq \lambda_n(E)는 E의 고유값이다.
E가 대칭이므로 \lVert E \rVert_2 = \max(\lvert \lambda_1(E) \rvert, \lvert \lambda_n(E) \rvert)이고, 이로부터 앞서의 Weyl 부등식이 도출된다.
5. 비대칭 행렬에 대한 Bauer-Fike 정리
비대칭 행렬에서는 고유값의 민감도가 행렬의 고유벡터 행렬의 조건수에 의존한다.
정리 (Bauer-Fike theorem). A가 대각화 가능한 n \times n 행렬이고 A = P \Lambda P^{-1}이라 하자. \tilde{A} = A + E의 임의의 고유값 \tilde{\lambda}에 대하여
\min_{1 \leq i \leq n} \lvert \tilde{\lambda} - \lambda_i \rvert \leq \kappa_p(P) \lVert E \rVert_p
여기서 \kappa_p(P) = \lVert P \rVert_p \lVert P^{-1} \rVert_p는 고유벡터 행렬 P의 p-노름에 대한 조건수이다.
증명 개요. \tilde{\lambda}가 A의 고유값이 아니라고 가정하면 (\tilde{\lambda} I - A)는 가역이다.
\tilde{A} v = \tilde{\lambda} v \implies (A + E)v = \tilde{\lambda} v \implies (\tilde{\lambda} I - A)v = Ev
v = (\tilde{\lambda} I - A)^{-1} E v
A = P \Lambda P^{-1}이므로
(\tilde{\lambda} I - A)^{-1} = P(\tilde{\lambda} I - \Lambda)^{-1} P^{-1}
\lVert v \rVert \leq \lVert P \rVert \lVert (\tilde{\lambda} I - \Lambda)^{-1} \rVert \lVert P^{-1} \rVert \lVert E \rVert \lVert v \rVert에서 \lVert v \rVert을 소거하면
1 \leq \kappa(P) \lVert E \rVert \lVert (\tilde{\lambda} I - \Lambda)^{-1} \rVert
\lVert (\tilde{\lambda} I - \Lambda)^{-1} \rVert_p = \max_i \frac{1}{\lvert \tilde{\lambda} - \lambda_i \rvert} = \frac{1}{\min_i \lvert \tilde{\lambda} - \lambda_i \rvert} (p = 2 또는 \infty)이므로 원하는 결과를 얻는다. \blacksquare
Bauer-Fike 정리의 핵심 통찰은 다음과 같다: 비대칭 행렬의 고유값 민감도는 고유벡터 행렬의 조건수 \kappa(P)에 비례한다. P가 직교 행렬이면 \kappa_2(P) = 1이므로 Weyl의 부등식과 일치한다. \kappa(P)가 클수록 (고유벡터가 거의 선형 종속에 가까울수록) 고유값은 섭동에 민감해진다.
6. 고유값의 1차 섭동 공식
단순(simple) 고유값에 대하여 1차 섭동 공식을 유도할 수 있다.
6.1 대칭 행렬의 경우
A = A^T이고 A q = \lambda q (\lVert q \rVert = 1)라 하자. \tilde{A} = A + \epsilon E의 대응하는 고유값을 \tilde{\lambda}(\epsilon) = \lambda + \epsilon \lambda^{(1)} + O(\epsilon^2)로 전개하면
\lambda^{(1)} = q^T E q
유도. (A + \epsilon E)(q + \epsilon q^{(1)}) = (\lambda + \epsilon \lambda^{(1)})(q + \epsilon q^{(1)})에서 \epsilon의 1차 항을 수집하면
A q^{(1)} + E q = \lambda q^{(1)} + \lambda^{(1)} q
양변에 q^T를 왼쪽에서 곱하면
q^T A q^{(1)} + q^T E q = \lambda q^T q^{(1)} + \lambda^{(1)} q^T q
A = A^T이므로 q^T A = \lambda q^T이고, 따라서 q^T A q^{(1)} = \lambda q^T q^{(1)}이다. 양변이 소거되어
q^T E q = \lambda^{(1)}
를 얻는다. \blacksquare
이 결과는 대칭 행렬의 고유값의 1차 변화가 섭동 행렬 E의 고유벡터 방향 성분 q^T E q (레일리 몫의 형태)에 의하여 결정됨을 보여준다.
6.2 비대칭 행렬의 경우
A가 비대칭이고, 단순 고유값 \lambda에 대응하는 오른쪽 고유벡터가 v (Av = \lambda v), 왼쪽 고유벡터가 w (w^T A = \lambda w^T, 즉 A^T w = \lambda w)이며 w^T v \neq 0이라 하자. 1차 섭동 공식은
\lambda^{(1)} = \frac{w^T E v}{w^T v}
이다. 대칭 행렬에서는 w = v = q이고 q^T q = 1이므로 \lambda^{(1)} = q^T E q로 환원된다.
비대칭 행렬에서 \lvert w^T v \rvert가 작으면 (왼쪽·오른쪽 고유벡터가 거의 직교하면) \lvert \lambda^{(1)} \rvert이 증폭되어 고유값이 민감해진다. 이는 Bauer-Fike 정리에서 \kappa(P)가 큰 경우에 해당한다.
7. 고유값의 조건수
개별 고유값 \lambda_i의 (절대) **조건수(condition number)**는 1차 섭동의 증폭 비율로 정의된다.
대칭 행렬: 모든 고유값의 절대 조건수는 1이다.
\frac{\lvert \Delta \lambda_i \rvert}{\lVert E \rVert_2} \leq 1
비대칭 행렬: 단순 고유값 \lambda_i의 절대 조건수는
\kappa(\lambda_i) = \frac{1}{\lvert \cos \theta_i \rvert}
이다. 여기서 \theta_i는 \lambda_i에 대응하는 왼쪽 고유벡터 w_i와 오른쪽 고유벡터 v_i 사이의 각도이다 (\cos \theta_i = \frac{\lvert w_i^T v_i \rvert}{\lVert w_i \rVert \lVert v_i \rVert}). 이 값을 고유값의 **민감도 지표(sensitivity index)**라고도 한다.
대칭 행렬에서는 w_i = v_i이므로 \theta_i = 0이고 \kappa(\lambda_i) = 1이다.
8. 고유벡터의 섭동
고유벡터의 변화량에 대한 분석도 섭동 이론의 핵심 주제이다.
대칭 행렬의 고유벡터 1차 섭동. A = A^T이고 단순 고유값 \lambda_k에 대응하는 단위 고유벡터가 q_k이면, 1차 섭동에 의한 고유벡터의 변화는
q_k^{(1)} = \sum_{j \neq k} \frac{q_j^T E q_k}{\lambda_k - \lambda_j} q_j
이다. 분모 \lambda_k - \lambda_j는 고유값 간의 간격이다. 따라서 고유값이 근접할수록 고유벡터는 섭동에 민감하다. 이는 거의 중복된 고유값을 갖는 행렬에서 고유벡터의 수치적 결정이 어려운 근본 원인이다.
9. Davis-Kahan 정리
고유 부분 공간(eigensubspace)의 섭동에 대한 결과로 Davis-Kahan 정리가 있다.
정리 (Davis-Kahan \sin \Theta theorem). A, \tilde{A} = A + E가 n \times n 대칭 행렬이고, A의 고유값 \lambda_1, \ldots, \lambda_r (r < n)에 대응하는 고유 부분 공간이 \mathcal{V}, \tilde{A}의 대응하는 고유 부분 공간이 \tilde{\mathcal{V}}라 하자. \delta = \min_{1 \leq i \leq r, r+1 \leq j \leq n} \lvert \lambda_i - \lambda_j \rvert > 0이면
\lVert \sin \Theta(\mathcal{V}, \tilde{\mathcal{V}}) \rVert_2 \leq \frac{\lVert E \rVert_2}{\delta}
여기서 \sin \Theta(\mathcal{V}, \tilde{\mathcal{V}})는 두 부분 공간 사이의 정준 각도(canonical angle)의 사인 값 행렬이다.
이 정리는 고유 부분 공간의 회전량이 섭동의 크기 \lVert E \rVert_2에 비례하고, 고유값 간격 \delta에 반비례함을 정량화한다.
10. 수치 예시
10.1 예시 1: 대칭 행렬의 안정적 섭동
A = \begin{pmatrix} 4 & 1 \\ 1 & 3 \end{pmatrix}, \quad E = \begin{pmatrix} 0.01 & 0 \\ 0 & -0.01 \end{pmatrix}
A의 고유값: \lambda_{1,2} = \frac{7 \pm \sqrt{5}}{2}이므로 \lambda_1 \approx 2.382, \lambda_2 \approx 4.618이다.
\tilde{A} = A + E의 고유값: \tilde{\lambda}_1 \approx 2.375, \tilde{\lambda}_2 \approx 4.625이다.
\lVert E \rVert_2 = 0.01이고, \lvert \tilde{\lambda}_i - \lambda_i \rvert \approx 0.007 < 0.01 = \lVert E \rVert_2이다. Weyl의 부등식이 만족됨을 확인할 수 있다.
10.2 예시 2: 비대칭 행렬의 민감한 고유값
A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}, \quad E = \begin{pmatrix} 0 & 0 \\ \epsilon & 0 \end{pmatrix}
A의 고유값은 \lambda = 0 (대수적 중복도 2)이다. \tilde{A} = A + E의 고유값은
\tilde{\lambda} = \pm \sqrt{\epsilon}
이다. \lVert E \rVert = \epsilon이지만 고유값의 변화량은 \sqrt{\epsilon}이다. 예를 들어, \epsilon = 10^{-8}이면 \lVert E \rVert = 10^{-8}이나 고유값의 변화는 10^{-4}이다. 이는 비대칭 행렬(특히 결함 행렬)에서 고유값이 섭동의 크기의 제곱근에 비례하여 변할 수 있음을 보여준다. A는 결함 행렬이므로 대각화 불가능하고, Bauer-Fike 정리의 전제인 대각화 가능 조건을 만족하지 않는다.
이 예시는 결함 행렬의 고유값이 극도로 민감할 수 있음을 보여주며, 대칭 행렬의 안정성과 대비된다.
11. 고유값 섭동 부등식의 비교
| 정리 | 적용 범위 | 부등식 | 비고 |
|---|---|---|---|
| Weyl | 대칭 행렬 | \lvert \tilde{\lambda}_i - \lambda_i \rvert \leq \lVert E \rVert_2 | 최적, 조건수 1 |
| Bauer-Fike | 대각화 가능 행렬 | \min_i \lvert \tilde{\lambda} - \lambda_i \rvert \leq \kappa(P) \lVert E \rVert | \kappa(P)에 의존 |
| Elsner | 일반 행렬 | \max_i \min_j \lvert \tilde{\lambda}_i - \lambda_j \rvert \leq c_n \lVert E \rVert^{1/n} | 비대각화 가능 포함 |
Elsner의 부등식에서 \lVert E \rVert^{1/n}이 나타나는 것은 결함 행렬에서 고유값 변화가 섭동의 분수 거듭제곱에 비례할 수 있음을 반영한다.
12. 딥러닝에서의 섭동 이론의 의의
수치 안정성 분석. 딥러닝에서 사용되는 행렬(공분산 행렬, 헤시안 행렬 등)은 유한 정밀도 산술과 미니배치 추정에 의한 섭동을 받는다. Weyl의 부등식은 대칭 행렬의 고유값 추정이 이러한 섭동에 안정적임을 보장한다.
그래디언트 분석. 가중치 행렬의 야코비안에 대한 고유값 분석에서, 가중치의 미소 갱신(경사 하강법의 한 단계)을 섭동으로 해석하면, 고유값의 변화가 학습 동역학에 미치는 영향을 섭동 이론으로 분석할 수 있다.
주성분 분석의 안정성. 표본 공분산 행렬의 고유값과 고유벡터가 표본 크기에 따라 어떻게 변하는지를 분석할 때, Davis-Kahan 정리는 주성분 방향의 추정 오차에 대한 상한을 제공한다. 이는 차원 축소의 통계적 신뢰성을 평가하는 데 활용된다.