29.18 대각화의 기하학적 해석: 고유 기저(Eigenbasis)에서의 변환 단순화

1. 고유 기저의 정의와 존재

$T : V \to V$ 가 대각화 가능한 선형 변환이면, $V$ 의 기저를 $T$ 의 고유벡터들로 구성할 수 있다. 이러한 기저를 **고유 기저(eigenbasis)**라 한다.

$\mathcal{B} = \{v_1, v_2, \ldots, v_n\}$ 이 $T$ 의 고유 기저이고, 각 $v_i$ 가 고유값 $\lambda_i$ 에 대응한다면

$T(v_i) = \lambda_i v_i, \quad i = 1, 2, \ldots, n$

이 성립한다. 이때 $T$ 의 기저 $\mathcal{B}$ 에서의 행렬 표현은

$[T]_{\mathcal{B}} = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix} = D$

대각 행렬이 된다.

2. 축 방향 독립 스케일링으로서의 기하학적 해석

2.1 표준 기저에서의 복잡한 작용

표준 기저 $\mathcal{E}$ 에서 선형 변환 $T$ 의 행렬 $A = [T]_{\mathcal{E}}$ 는 일반적으로 비대각(non-diagonal) 행렬이다. 비대각 행렬에 의한 변환은 좌표축 간의 결합(coupling)을 유발한다. 구체적으로, $(Ax)_i = \sum_j a_{ij} x_j$ 에서 출력의 $i$ 번째 좌표가 입력의 모든 좌표에 의존한다.

2.2 고유 기저에서의 단순화

고유 기저 $\mathcal{B}$ 에서 동일한 선형 변환은 대각 행렬 $D$ 로 표현된다. 이때

$(Dy)_i = \lambda_i y_i$

이므로 각 좌표가 독립적으로 자기 자신의 고유값만큼 스케일링된다. 좌표 간의 결합이 완전히 제거되어, $n$ 차원 선형 변환이 $n$ 개의 독립적인 1차원 스케일링의 직적(direct product)으로 분해된다.

2.3 기하학적 의미

고유 기저에서 선형 변환의 작용을 기하학적으로 해석하면 다음과 같다.

고유벡터 $v_i$ 방향의 축에 대하여:

$\lambda_i > 1$ 이면 해당 축 방향으로 **신장(stretching)**한다.
$0 < \lambda_i < 1$ 이면 해당 축 방향으로 **수축(contraction)**한다.
$\lambda_i = 1$ 이면 해당 축 방향은 **불변(invariant)**이다.
$\lambda_i < 0$ 이면 해당 축 방향으로 **반사(reflection)**와 스케일링이 동시에 일어난다.
$\lambda_i = 0$ 이면 해당 축 방향은 **영 공간(null space)**에 포함된다.

이러한 해석은 고유 기저를 좌표축으로 채택하면 선형 변환이 각 축 방향의 독립적 신축(伸縮)으로 환원됨을 보여준다.

3. 구체적 예시를 통한 기하학적 분석

3.1 예시 1: $\mathbb{R}^2$ 에서의 전단 변환의 대각화

$A = \begin{pmatrix} 3 & 1 \\ 0 & 2 \end{pmatrix}$

고유값: $\lambda_1 = 3$ , $\lambda_2 = 2$ .

고유벡터: $v_1 = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$ , $v_2 = \begin{pmatrix} -1 \\ 1 \end{pmatrix}$ .

표준 기저에서 $A$ 의 작용은 $e_1$ 방향의 스케일링과 $e_2$ 방향의 스케일링이 결합된 전단(shearing)을 포함한다. 그러나 고유 기저 $\mathcal{B} = \{v_1, v_2\}$ 에서의 행렬 표현은

$D = \begin{pmatrix} 3 & 0 \\ 0 & 2 \end{pmatrix}$

이다. 이 대각 행렬은 $v_1$ 방향으로 3배 신장, $v_2$ 방향으로 2배 신장하는 순수한 이축(biaxial) 스케일링을 나타낸다. 전단 성분이 사라진 것은 좌표축을 고유벡터 방향으로 회전시킨 결과이다.

3.2 예시 2: 대칭 행렬의 직교 대각화

$A = \begin{pmatrix} 5 & 2 \\ 2 & 2 \end{pmatrix}$

고유값: $\lambda_1 = 6$ , $\lambda_2 = 1$ .

정규화된 고유벡터:

$u_1 = \frac{1}{\sqrt{5}}\begin{pmatrix} 2 \\ 1 \end{pmatrix}, \quad u_2 = \frac{1}{\sqrt{5}}\begin{pmatrix} -1 \\ 2 \end{pmatrix}$

대칭 행렬이므로 고유벡터들이 직교한다: $\langle u_1, u_2 \rangle = 0$ . 직교 고유 기저에서의 변환은 두 직교 방향 각각에 대한 독립적 스케일링이다. $u_1$ 방향으로 6배, $u_2$ 방향으로 1배(불변) 스케일링한다.

이 변환은 타원(ellipse)의 주축(principal axes)과 직접적으로 대응한다. 단위원 $\|x\| = 1$ 에 $A$ 를 적용하면 장반축이 $u_1$ 방향으로 6, 단반축이 $u_2$ 방향으로 1인 타원이 생성된다.

4. 불변 부분 공간과의 관계

4.1 고유 공간은 불변 부분 공간이다

고유값 $\lambda_i$ 에 대응하는 고유 공간 $E_{\lambda_i} = \ker(T - \lambda_i I)$ 는 $T$ 에 의한 **불변 부분 공간(invariant subspace)**이다. 즉, 임의의 $v \in E_{\lambda_i}$ 에 대하여 $T(v) = \lambda_i v \in E_{\lambda_i}$ 이다.

4.2 벡터 공간의 직합 분해

대각화 가능한 선형 변환 $T$ 에 대하여, 서로 다른 고유값 $\lambda_1, \lambda_2, \ldots, \lambda_k$ 에 대응하는 고유 공간들은 벡터 공간의 직합(direct sum)을 이룬다.

$V = E_{\lambda_1} \oplus E_{\lambda_2} \oplus \cdots \oplus E_{\lambda_k}$

이 직합 분해의 기하학적 의미는 벡터 공간 $V$ 가 서로 “독립적인” 불변 부분 공간으로 완전히 분해되며, $T$ 의 작용이 각 부분 공간에서 스칼라 곱으로 환원된다는 것이다.

4.3 사영 연산자에 의한 표현

직합 분해에 대응하여, $V$ 에서 각 고유 공간으로의 사영 연산자 $\Pi_i : V \to E_{\lambda_i}$ 를 정의할 수 있다. 이 사영 연산자들은 다음을 만족한다.

$\Pi_i \Pi_j = \delta_{ij} \Pi_i, \quad \sum_{i=1}^{k} \Pi_i = I$

이를 이용하면 선형 변환 $T$ 를 **스펙트럼 분해(spectral decomposition)**로 표현할 수 있다.

$T = \lambda_1 \Pi_1 + \lambda_2 \Pi_2 + \cdots + \lambda_k \Pi_k = \sum_{i=1}^{k} \lambda_i \Pi_i$

이 분해는 $T$ 의 작용을 “각 고유 공간으로 사영한 후 해당 고유값으로 스케일링하여 합산“하는 과정으로 해석할 수 있다.

5. 대각화와 좌표계 변환의 기하학

대각화 과정 $A = PDP^{-1}$ 의 기하학적 의미를 단계별로 분석하면 다음과 같다.

단계 1: $P^{-1}$ 적용. 입력 벡터 $x$ 를 표준 좌표에서 고유 기저 좌표 $y = P^{-1}x$ 로 변환한다. 이는 좌표축을 고유벡터 방향으로 재정렬하는 것이다.

단계 2: $D$ 적용. 고유 기저 좌표에서 각 축 방향으로 독립적 스케일링을 수행한다. $z_i = \lambda_i y_i$ .

단계 3: $P$ 적용. 결과를 고유 기저 좌표에서 다시 표준 좌표 $Ax = Pz$ 로 되돌린다.

따라서 $Ax = P(D(P^{-1}x))$ 의 전체 과정은 “좌표계를 고유 기저로 회전 → 축 방향 독립 스케일링 → 원래 좌표계로 역회전“으로 해석된다.

6. 대각화 불가능 변환의 기하학적 대조

대각화 불가능한 결손 행렬(defective matrix)의 경우, 어떤 기저를 선택하더라도 좌표 간 결합을 완전히 제거할 수 없다. 예를 들어

$A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}$

의 조르당 표준형(Jordan normal form)은 $A$ 자체이며, 비대각 성분 $1$ 은 고유 공간의 차원 부족으로 인해 제거 불가능하다. 기하학적으로 이는 고유값 $\lambda = 2$ 방향의 스케일링 외에 전단(shearing) 성분이 본질적으로 존재함을 의미한다.

이러한 대조는 대각화 가능성이 선형 변환의 작용을 축 방향 독립 스케일링으로 완전히 분해할 수 있는지의 여부를 결정하는 핵심 조건임을 명확히 한다.

7. 딥러닝에서의 기하학적 함의

신경망의 가중치 행렬 $W$ 를 대각화할 수 있다면, 해당 층이 수행하는 선형 변환은 고유 기저의 각 방향에 대한 독립적 스케일링으로 해석된다. 고유값의 크기는 각 방향에서의 정보 증폭 또는 감쇠 정도를 나타내며, 이는 기울기 소실(vanishing gradient) 및 기울기 폭발(exploding gradient) 문제의 분석에 직접적으로 활용된다.