29.35 선형 변환의 특이값(Singular Value)과 기하학적 해석

1. 특이값의 정의

$A \in M_{m \times n}(\mathbb{R})$ 의 **특이값(singular value)**이란 $A^T A$ 의 고유값의 음이 아닌 제곱근이다.

$\sigma_i = \sqrt{\lambda_i(A^T A)}, \quad i = 1, 2, \ldots, \min(m, n)$

$A^T A$ 는 $n \times n$ 양의 반정부호 대칭 행렬이므로 고유값이 모두 $\lambda_i \geq 0$ 이며, 따라서 $\sigma_i \geq 0$ 이다.

관례에 따라 특이값을 내림차순으로 정렬한다.

$\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > \sigma_{r+1} = \cdots = \sigma_{\min(m,n)} = 0$

여기서 $r = \text{rank}(A)$ 는 양의 특이값의 개수이다.

2. 특이값의 변분적 특성화

최대 특이값 $\sigma_1$ 은 다음의 최적화 문제의 해이다.

$\sigma_1 = \max_{\|x\| = 1} \|Ax\| = \max_{x \neq 0} \frac{\|Ax\|}{\|x\|}$

이는 $A$ 에 의한 선형 변환이 단위 벡터에 적용될 때 달성하는 최대 신장(stretching)을 나타낸다. 이 값은 $A$ 의 스펙트럼 노름(spectral norm) 또는 **연산자 노름(operator norm)**이라 한다.

$\|A\|_2 = \sigma_1$

더 일반적으로, 쿠런트-피셔 정리(Courant-Fischer theorem)의 변형에 의하여

$\sigma_k = \min_{\dim(S) = n-k+1} \max_{x \in S, \|x\|=1} \|Ax\|$

3. 기하학적 해석: 단위 구면의 타원체 변환

3.1 핵심 관찰

$A : \mathbb{R}^n \to \mathbb{R}^m$ 에 의한 선형 변환은 $\mathbb{R}^n$ 의 단위 구면 $S^{n-1} = \{x \mid \|x\| = 1\}$ 을 $\mathbb{R}^m$ 내의 타원체(ellipsoid)로 사상한다. 특이값은 이 타원체의 반축(semi-axis)의 길이이다.

3.2 특이값 분해에 의한 설명

특이값 분해(SVD) $A = U\Sigma V^T$ 에서 변환 $Ax$ 는 다음 세 단계로 분해된다.

단계 1: $V^T$ 에 의한 회전/반사. $\mathbb{R}^n$ 의 단위 구면을 $V^T$ 에 의해 변환한다. $V$ 는 직교 행렬이므로 단위 구면은 단위 구면으로 유지된다.

단계 2: $\Sigma$ 에 의한 축 방향 스케일링. 각 좌표축 방향으로 $\sigma_i$ 만큼 스케일링한다. 단위 구면이 반축 $\sigma_1, \sigma_2, \ldots$ 를 갖는 타원체로 변형된다.

단계 3: $U$ 에 의한 회전/반사. $\mathbb{R}^m$ 에서 타원체의 방향을 회전시킨다. 타원체의 형태(반축의 길이)는 변하지 않는다.

3.3 구체적 예시: $2 \times 2$ 행렬

$A = \begin{pmatrix} 3 & 0 \\ 0 & 1 \end{pmatrix}$

특이값: $\sigma_1 = 3$ , $\sigma_2 = 1$ . 단위원 $x_1^2 + x_2^2 = 1$ 이 타원 $\frac{y_1^2}{9} + y_2^2 = 1$ 로 변환된다. 장반축 $3$ , 단반축 $1$ .

$A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix}$

$A^T A = A^2 = \begin{pmatrix} 5 & 4 \\ 4 & 5 \end{pmatrix}$ 의 고유값: $9$ , $1$ . 특이값: $\sigma_1 = 3$ , $\sigma_2 = 1$ . 단위원이 장반축 $3$ , 단반축 $1$ 의 타원으로 변환되며, 타원의 주축은 $A$ 의 우특이벡터 방향이다.

4. 특이값과 행렬의 성질

4.1 계수(Rank)

$\text{rank}(A) = \#\{i \mid \sigma_i > 0\}$

양의 특이값의 개수가 행렬의 계수이다.

4.2 행렬식 (정방 행렬의 경우)

$|\det(A)| = \prod_{i=1}^n \sigma_i$

행렬식의 절대값은 특이값의 곱이다. 기하학적으로, 이는 단위 초입방체(unit hypercube)가 $A$ 에 의해 변환될 때의 체적 변화율이다.

4.3 조건수(Condition Number)

$\kappa(A) = \frac{\sigma_1}{\sigma_r}$

여기서 $\sigma_r$ 은 최소 양의 특이값이다. 조건수는 타원체의 “납작한 정도“를 측정하며, 선형 계가 수치적으로 얼마나 잘 조건화(well-conditioned)되어 있는지를 나타낸다. $\kappa \approx 1$ 이면 잘 조건화되어 있고, $\kappa \gg 1$ 이면 악조건(ill-conditioned)이다.

4.4 프로베니우스 노름

$\|A\|_F = \sqrt{\sum_{i=1}^r \sigma_i^2}$

프로베니우스 노름은 특이값의 제곱합의 제곱근이다.

4.5 핵 노름(Nuclear Norm)

$\|A\|_* = \sum_{i=1}^r \sigma_i$

핵 노름은 특이값의 합이며, 저계수(low-rank) 행렬 근사와 행렬 완성(matrix completion)에서 사용되는 볼록 완화(convex relaxation)이다.

5. 특이값의 변동 정리

5.1 바일 부등식(Weyl’s Inequality)

$A$ , $B$ 가 $m \times n$ 행렬이면

$|\sigma_i(A) - \sigma_i(B)| \leq \|A - B\|_2, \quad \forall i$

이는 특이값이 행렬의 섭동(perturbation)에 대하여 연속적으로 변한다는 것을 의미한다.

5.2 에카르트-영 정리(Eckart-Young Theorem)

계수 $k$ 이하의 행렬 중에서 $A$ 에 가장 가까운 행렬은

$A_k = \sum_{i=1}^k \sigma_i u_i v_i^T$

이며, 근사 오차는

$\|A - A_k\|_2 = \sigma_{k+1}, \quad \|A - A_k\|_F = \sqrt{\sum_{i=k+1}^r \sigma_i^2}$

이다. 이는 특이값이 행렬의 정보량을 계층적으로 인코딩함을 보여준다.

6. 딥러닝에서의 특이값 분석

가중치 행렬 $W$ 의 특이값 분포는 신경망의 학습 동역학을 결정하는 핵심 요소이다.

최대 특이값 $\sigma_1$ : 립시츠 상수(Lipschitz constant)와 직결된다. $\sigma_1$ 이 크면 입력의 작은 변화가 출력에 크게 증폭되어 학습이 불안정해질 수 있다. 스펙트럼 정규화(spectral normalization)는 $\sigma_1 \leq 1$ 로 제약하여 안정성을 확보한다.

특이값 비율 $\sigma_1/\sigma_r$ : 조건수에 해당하며, 기울기의 방향 편향을 나타낸다. 조건수가 크면 특정 방향으로만 기울기가 전파되어 학습이 비효율적이다.

특이값의 전체 분포: 학습된 가중치 행렬의 특이값 분포는 네트워크의 표현력과 일반화 능력을 분석하는 데 활용된다.