30.16 대각화의 기하학적 의미: 고유 기저에서의 선형 변환 단순화

1. 기저 선택에 따른 행렬 표현의 변화

동일한 선형 변환 $T : V \to V$ 가 기저의 선택에 따라 서로 다른 행렬로 표현된다. 표준 기저에서의 행렬 $A$ 는 일반적으로 비대각 행렬이며, 이 경우 $T$ 의 작용에서 좌표 간 결합(coupling)이 발생한다.

$(Ax)_i = \sum_{j=1}^n a_{ij} x_j$

출력의 $i$ 번째 좌표가 입력의 모든 좌표에 의존한다.

고유 기저(eigenbasis)를 선택하면 행렬 표현이 대각 행렬 $D$ 가 되어 좌표 간 결합이 완전히 제거된다.

$(Dy)_i = \lambda_i y_i$

각 좌표가 독립적으로 자기 자신의 고유값만큼 스케일링된다.

2. 대각화의 기하학적 분해

$A = PDP^{-1}$ 에서 $Ax$ 의 계산은 다음 세 단계로 분해된다.

2.1 단계 1: 좌표 변환 ( $P^{-1}$ )

입력 벡터 $x$ 를 표준 기저에서 고유 기저의 좌표로 변환한다.

$y = P^{-1}x$

$y$ 의 $i$ 번째 성분 $y_i$ 는 $x$ 의 고유벡터 $v_i$ 방향 성분이다.

2.2 단계 2: 축별 독립 스케일링 ( $D$ )

고유 기저 좌표에서 각 축을 대응하는 고유값으로 독립적으로 스케일링한다.

$z = Dy, \quad z_i = \lambda_i y_i$

이 단계에서 좌표 간 상호작용이 전혀 없다. $n$ 차원 선형 변환이 $n$ 개의 독립적인 1차원 스케일링으로 분해된다.

2.3 단계 3: 역좌표 변환 ( $P$ )

스케일링된 결과를 고유 기저 좌표에서 원래의 표준 기저 좌표로 되돌린다.

$Ax = Pz = PDP^{-1}x$

3. 기하학적 시각화: $\mathbb{R}^2$ 에서의 예시

3.1 예시

$A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}$

고유값: $\lambda_1 = 3$ , $\lambda_2 = 2$ . 고유벡터: $v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$ , $v_2 = \begin{pmatrix} -1 \\ 1 \end{pmatrix}$ .

표준 기저에서의 해석: $A$ 는 $x$ 축 방향의 스케일링과 전단(shearing)이 결합된 변환이다. 비대각 성분 $a_{12} = 1$ 이 좌표 간 결합을 유발한다.

고유 기저에서의 해석: $D = \begin{pmatrix} 3 & 0 \\ 0 & 2 \end{pmatrix}$ . $v_1$ 방향으로 3배, $v_2$ 방향으로 2배 신장하는 순수한 이축 스케일링이다. 전단 성분이 완전히 소거되었다.

기하학적으로, 단위원이 $A$ 에 의해 타원으로 변형된다. 이 타원의 주축 방향이 고유벡터 방향이고, 주축의 길이가 고유값이다(대칭 행렬의 경우). 비대칭 행렬에서는 고유벡터가 직교하지 않으므로 주축과 정확히 일치하지는 않으나, 신장/수축의 독립적 방향을 나타내는 것은 동일하다.

4. 불변 부분 공간으로의 분해

대각화 $A = PDP^{-1}$ 은 전체 공간 $V$ 를 고유 공간의 직합으로 분해한다.

$V = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}$

$A$ 의 작용은 각 고유 공간에서 독립적인 스칼라 변환 $\lambda_i \cdot \text{id}$ 이다. 이 분해는 복잡한 $n$ 차원 선형 변환을 $k$ 개의 단순한 스칼라 변환의 “직합“으로 환원한다.

5. 스펙트럼 분해

대각화가 가능할 때, 스펙트럼 분해(spectral decomposition)는 $A$ 를 고유 공간으로의 사영과 스케일링으로 표현한다.

$A = \sum_{i=1}^k \lambda_i \Pi_i$

여기서 $\Pi_i$ 는 고유 공간 $E_{\lambda_i}$ 로의 사영 연산자이다. 이 표현은 $A$ 의 작용을 “각 고유 공간으로 사영한 후 해당 고유값으로 스케일링하여 합산“하는 과정으로 해석한다.

대칭 행렬의 경우 고유벡터가 직교하므로 사영 $\Pi_i$ 가 직교 사영이 되어

$A = \sum_{i=1}^n \lambda_i q_i q_i^T$

( $q_i$ 는 정규 직교 고유벡터)로 쓸 수 있다.

6. 행렬 함수의 단순화

대각화의 기하학적 의미는 행렬 함수(matrix function)의 계산에서 극적으로 드러난다.

6.1 행렬 거듭제곱

고유 기저에서 $A^k$ 는 각 고유값의 $k$ 번째 거듭제곱이다.

$A^k = PD^kP^{-1}, \quad D^k = \text{diag}(\lambda_1^k, \ldots, \lambda_n^k)$

기하학적으로, $k$ 번 반복 적용된 스케일링은 각 축 방향으로 $\lambda_i^k$ 배의 스케일링이다.

6.2 안정성 분석

$k \to \infty$ 에서 $A^k$ 의 행동은 고유값의 절대값에 의해 결정된다.

$|\lambda_i| < 1$ 인 방향: $\lambda_i^k \to 0$ . 수축하여 소멸.
$|\lambda_i| = 1$ 인 방향: $|\lambda_i^k| = 1$ . 크기 보존(회전 가능).
$|\lambda_i| > 1$ 인 방향: $|\lambda_i^k| \to \infty$ . 발산.

$A^k \to 0$ 일 필요충분조건은 $|\lambda_i| < 1$ ( $\forall i$ )이다. 이 조건을 스펙트럼 반경(spectral radius) $\rho(A) = \max_i |\lambda_i| < 1$ 로 표현한다.

7. 대각화 불가능 변환과의 대조

대각화 불가능한 결손 행렬(defective matrix)에서는 고유 기저가 존재하지 않으므로, 어떤 기저를 선택하더라도 좌표 간 결합을 완전히 제거할 수 없다. 가장 단순한 형태가 조르당 표준형(Jordan normal form)이며, 이 경우에도 초대각(superdiagonal) 원소에 의한 전단 성분이 남는다.

$J = \begin{pmatrix} \lambda & 1 & 0 \\ 0 & \lambda & 1 \\ 0 & 0 & \lambda \end{pmatrix}$

이 전단 성분은 $J^k$ 에서 다항식적 성장 $\binom{k}{j}\lambda^{k-j}$ 를 유발하며, 이는 순수 지수적 성장 $\lambda^k$ 와 질적으로 다른 행동이다.

8. 딥러닝에서의 의미

신경망의 가중치 행렬 $W$ 를 대각화할 수 있다면, 해당 층의 선형 변환은 고유 기저의 각 축 방향에 대한 독립적 신호 증폭/감쇠로 해석된다. 고유값의 분포가 $|\lambda_i| \approx 1$ 근방에 집중되어 있으면 신호의 크기가 층을 통과할 때 안정적으로 보존되어 기울기 소실/폭발 문제가 완화된다.

이러한 관점은 가중치 행렬의 스펙트럼 분석이 신경망의 학습 동역학을 이해하는 핵심 도구임을 시사한다.