29.35 선형 변환의 특이값(Singular Value)과 기하학적 해석

29.35 선형 변환의 특이값(Singular Value)과 기하학적 해석

1. 특이값의 정의

A \in M_{m \times n}(\mathbb{R})의 **특이값(singular value)**이란 A^T A의 고유값의 음이 아닌 제곱근이다.

\sigma_i = \sqrt{\lambda_i(A^T A)}, \quad i = 1, 2, \ldots, \min(m, n)

A^T An \times n 양의 반정부호 대칭 행렬이므로 고유값이 모두 \lambda_i \geq 0이며, 따라서 \sigma_i \geq 0이다.

관례에 따라 특이값을 내림차순으로 정렬한다.

\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > \sigma_{r+1} = \cdots = \sigma_{\min(m,n)} = 0

여기서 r = \text{rank}(A)는 양의 특이값의 개수이다.

2. 특이값의 변분적 특성화

최대 특이값 \sigma_1은 다음의 최적화 문제의 해이다.

\sigma_1 = \max_{\|x\| = 1} \|Ax\| = \max_{x \neq 0} \frac{\|Ax\|}{\|x\|}

이는 A에 의한 선형 변환이 단위 벡터에 적용될 때 달성하는 최대 신장(stretching)을 나타낸다. 이 값은 A스펙트럼 노름(spectral norm) 또는 **연산자 노름(operator norm)**이라 한다.

\|A\|_2 = \sigma_1

더 일반적으로, 쿠런트-피셔 정리(Courant-Fischer theorem)의 변형에 의하여

\sigma_k = \min_{\dim(S) = n-k+1} \max_{x \in S, \|x\|=1} \|Ax\|

3. 기하학적 해석: 단위 구면의 타원체 변환

3.1 핵심 관찰

A : \mathbb{R}^n \to \mathbb{R}^m에 의한 선형 변환은 \mathbb{R}^n의 단위 구면 S^{n-1} = \{x \mid \|x\| = 1\}\mathbb{R}^m 내의 타원체(ellipsoid)로 사상한다. 특이값은 이 타원체의 반축(semi-axis)의 길이이다.

3.2 특이값 분해에 의한 설명

특이값 분해(SVD) A = U\Sigma V^T에서 변환 Ax는 다음 세 단계로 분해된다.

단계 1: V^T에 의한 회전/반사. \mathbb{R}^n의 단위 구면을 V^T에 의해 변환한다. V는 직교 행렬이므로 단위 구면은 단위 구면으로 유지된다.

단계 2: \Sigma에 의한 축 방향 스케일링. 각 좌표축 방향으로 \sigma_i만큼 스케일링한다. 단위 구면이 반축 \sigma_1, \sigma_2, \ldots를 갖는 타원체로 변형된다.

단계 3: U에 의한 회전/반사. \mathbb{R}^m에서 타원체의 방향을 회전시킨다. 타원체의 형태(반축의 길이)는 변하지 않는다.

3.3 구체적 예시: 2 \times 2 행렬

A = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix}

특이값: \sigma_1 = 3, \sigma_2 = 1. 단위원 x_1^2 + x_2^2 = 1이 타원 \frac{y_1^2}{9} + y_2^2 = 1로 변환된다. 장반축 3, 단반축 1.

A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}

A^T A = A^2 = \begin{pmatrix} 5 & 4 \\ 4 & 5 \end{pmatrix}의 고유값: 9, 1. 특이값: \sigma_1 = 3, \sigma_2 = 1. 단위원이 장반축 3, 단반축 1의 타원으로 변환되며, 타원의 주축은 A의 우특이벡터 방향이다.

4. 특이값과 행렬의 성질

4.1 계수(Rank)

\text{rank}(A) = \#\{i \mid \sigma_i > 0\}

양의 특이값의 개수가 행렬의 계수이다.

4.2 행렬식 (정방 행렬의 경우)

|\det(A)| = \prod_{i=1}^n \sigma_i

행렬식의 절대값은 특이값의 곱이다. 기하학적으로, 이는 단위 초입방체(unit hypercube)가 A에 의해 변환될 때의 체적 변화율이다.

4.3 조건수(Condition Number)

\kappa(A) = \frac{\sigma_1}{\sigma_r}

여기서 \sigma_r은 최소 양의 특이값이다. 조건수는 타원체의 “납작한 정도“를 측정하며, 선형 계가 수치적으로 얼마나 잘 조건화(well-conditioned)되어 있는지를 나타낸다. \kappa \approx 1이면 잘 조건화되어 있고, \kappa \gg 1이면 악조건(ill-conditioned)이다.

4.4 프로베니우스 노름

\|A\|_F = \sqrt{\sum_{i=1}^r \sigma_i^2}

프로베니우스 노름은 특이값의 제곱합의 제곱근이다.

4.5 핵 노름(Nuclear Norm)

\|A\|_* = \sum_{i=1}^r \sigma_i

핵 노름은 특이값의 합이며, 저계수(low-rank) 행렬 근사와 행렬 완성(matrix completion)에서 사용되는 볼록 완화(convex relaxation)이다.

5. 특이값의 변동 정리

5.1 바일 부등식(Weyl’s Inequality)

A, Bm \times n 행렬이면

|\sigma_i(A) - \sigma_i(B)| \leq \|A - B\|_2, \quad \forall i

이는 특이값이 행렬의 섭동(perturbation)에 대하여 연속적으로 변한다는 것을 의미한다.

5.2 에카르트-영 정리(Eckart-Young Theorem)

계수 k 이하의 행렬 중에서 A에 가장 가까운 행렬은

A_k = \sum_{i=1}^k \sigma_i u_i v_i^T

이며, 근사 오차는

\|A - A_k\|_2 = \sigma_{k+1}, \quad \|A - A_k\|_F = \sqrt{\sum_{i=k+1}^r \sigma_i^2}

이다. 이는 특이값이 행렬의 정보량을 계층적으로 인코딩함을 보여준다.

6. 딥러닝에서의 특이값 분석

가중치 행렬 W의 특이값 분포는 신경망의 학습 동역학을 결정하는 핵심 요소이다.

최대 특이값 \sigma_1: 립시츠 상수(Lipschitz constant)와 직결된다. \sigma_1이 크면 입력의 작은 변화가 출력에 크게 증폭되어 학습이 불안정해질 수 있다. 스펙트럼 정규화(spectral normalization)는 \sigma_1 \leq 1로 제약하여 안정성을 확보한다.

특이값 비율 \sigma_1/\sigma_r: 조건수에 해당하며, 기울기의 방향 편향을 나타낸다. 조건수가 크면 특정 방향으로만 기울기가 전파되어 학습이 비효율적이다.

특이값의 전체 분포: 학습된 가중치 행렬의 특이값 분포는 네트워크의 표현력과 일반화 능력을 분석하는 데 활용된다.