30.16 대각화의 기하학적 의미: 고유 기저에서의 선형 변환 단순화

30.16 대각화의 기하학적 의미: 고유 기저에서의 선형 변환 단순화

1. 기저 선택에 따른 행렬 표현의 변화

동일한 선형 변환 T : V \to V가 기저의 선택에 따라 서로 다른 행렬로 표현된다. 표준 기저에서의 행렬 A는 일반적으로 비대각 행렬이며, 이 경우 T의 작용에서 좌표 간 결합(coupling)이 발생한다.

(Ax)_i = \sum_{j=1}^n a_{ij} x_j

출력의 i번째 좌표가 입력의 모든 좌표에 의존한다.

고유 기저(eigenbasis)를 선택하면 행렬 표현이 대각 행렬 D가 되어 좌표 간 결합이 완전히 제거된다.

(Dy)_i = \lambda_i y_i

각 좌표가 독립적으로 자기 자신의 고유값만큼 스케일링된다.

2. 대각화의 기하학적 분해

A = PDP^{-1}에서 Ax의 계산은 다음 세 단계로 분해된다.

2.1 단계 1: 좌표 변환 (P^{-1})

입력 벡터 x를 표준 기저에서 고유 기저의 좌표로 변환한다.

y = P^{-1}x

yi번째 성분 y_ix의 고유벡터 v_i 방향 성분이다.

2.2 단계 2: 축별 독립 스케일링 (D)

고유 기저 좌표에서 각 축을 대응하는 고유값으로 독립적으로 스케일링한다.

z = Dy, \quad z_i = \lambda_i y_i

이 단계에서 좌표 간 상호작용이 전혀 없다. n차원 선형 변환이 n개의 독립적인 1차원 스케일링으로 분해된다.

2.3 단계 3: 역좌표 변환 (P)

스케일링된 결과를 고유 기저 좌표에서 원래의 표준 기저 좌표로 되돌린다.

Ax = Pz = PDP^{-1}x

3. 기하학적 시각화: \mathbb{R}^2에서의 예시

3.1 예시

A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}

고유값: \lambda_1 = 3, \lambda_2 = 2. 고유벡터: v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}, v_2 = \begin{pmatrix} -1 \\ 1 \end{pmatrix}.

표준 기저에서의 해석: Ax축 방향의 스케일링과 전단(shearing)이 결합된 변환이다. 비대각 성분 a_{12} = 1이 좌표 간 결합을 유발한다.

고유 기저에서의 해석: D = \begin{pmatrix} 3 & 0 \\ 0 & 2 \end{pmatrix}. v_1 방향으로 3배, v_2 방향으로 2배 신장하는 순수한 이축 스케일링이다. 전단 성분이 완전히 소거되었다.

기하학적으로, 단위원이 A에 의해 타원으로 변형된다. 이 타원의 주축 방향이 고유벡터 방향이고, 주축의 길이가 고유값이다(대칭 행렬의 경우). 비대칭 행렬에서는 고유벡터가 직교하지 않으므로 주축과 정확히 일치하지는 않으나, 신장/수축의 독립적 방향을 나타내는 것은 동일하다.

4. 불변 부분 공간으로의 분해

대각화 A = PDP^{-1}은 전체 공간 V를 고유 공간의 직합으로 분해한다.

V = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}

A의 작용은 각 고유 공간에서 독립적인 스칼라 변환 \lambda_i \cdot \text{id}이다. 이 분해는 복잡한 n차원 선형 변환을 k개의 단순한 스칼라 변환의 “직합“으로 환원한다.

5. 스펙트럼 분해

대각화가 가능할 때, 스펙트럼 분해(spectral decomposition)는 A를 고유 공간으로의 사영과 스케일링으로 표현한다.

A = \sum_{i=1}^k \lambda_i \Pi_i

여기서 \Pi_i는 고유 공간 E_{\lambda_i}로의 사영 연산자이다. 이 표현은 A의 작용을 “각 고유 공간으로 사영한 후 해당 고유값으로 스케일링하여 합산“하는 과정으로 해석한다.

대칭 행렬의 경우 고유벡터가 직교하므로 사영 \Pi_i가 직교 사영이 되어

A = \sum_{i=1}^n \lambda_i q_i q_i^T

(q_i는 정규 직교 고유벡터)로 쓸 수 있다.

6. 행렬 함수의 단순화

대각화의 기하학적 의미는 행렬 함수(matrix function)의 계산에서 극적으로 드러난다.

6.1 행렬 거듭제곱

고유 기저에서 A^k는 각 고유값의 k번째 거듭제곱이다.

A^k = PD^kP^{-1}, \quad D^k = \text{diag}(\lambda_1^k, \ldots, \lambda_n^k)

기하학적으로, k번 반복 적용된 스케일링은 각 축 방향으로 \lambda_i^k배의 스케일링이다.

6.2 안정성 분석

k \to \infty에서 A^k의 행동은 고유값의 절대값에 의해 결정된다.

  • |\lambda_i| < 1인 방향: \lambda_i^k \to 0. 수축하여 소멸.
  • |\lambda_i| = 1인 방향: |\lambda_i^k| = 1. 크기 보존(회전 가능).
  • |\lambda_i| > 1인 방향: |\lambda_i^k| \to \infty. 발산.

A^k \to 0일 필요충분조건은 |\lambda_i| < 1 (\forall i)이다. 이 조건을 스펙트럼 반경(spectral radius) \rho(A) = \max_i |\lambda_i| < 1로 표현한다.

7. 대각화 불가능 변환과의 대조

대각화 불가능한 결손 행렬(defective matrix)에서는 고유 기저가 존재하지 않으므로, 어떤 기저를 선택하더라도 좌표 간 결합을 완전히 제거할 수 없다. 가장 단순한 형태가 조르당 표준형(Jordan normal form)이며, 이 경우에도 초대각(superdiagonal) 원소에 의한 전단 성분이 남는다.

J = \begin{pmatrix} \lambda & 1 & 0 \\ 0 & \lambda & 1 \\ 0 & 0 & \lambda \end{pmatrix}

이 전단 성분은 J^k에서 다항식적 성장 \binom{k}{j}\lambda^{k-j}를 유발하며, 이는 순수 지수적 성장 \lambda^k와 질적으로 다른 행동이다.

8. 딥러닝에서의 의미

신경망의 가중치 행렬 W를 대각화할 수 있다면, 해당 층의 선형 변환은 고유 기저의 각 축 방향에 대한 독립적 신호 증폭/감쇠로 해석된다. 고유값의 분포가 |\lambda_i| \approx 1 근방에 집중되어 있으면 신호의 크기가 층을 통과할 때 안정적으로 보존되어 기울기 소실/폭발 문제가 완화된다.

이러한 관점은 가중치 행렬의 스펙트럼 분석이 신경망의 학습 동역학을 이해하는 핵심 도구임을 시사한다.