6.39 특이값 분해(SVD)의 정의와 존재성

1. 도입

특이값 분해(singular value decomposition, SVD)는 임의의 직사각 행렬을 세 개의 단순한 행렬의 곱으로 표현하는 행렬 분해이다. 고유값 분해는 정사각 행렬에 대해서만 정의되며, 그것조차도 모든 정사각 행렬에 대하여 가능한 것은 아니다. 반면 특이값 분해는 임의의 실수 또는 복소수 직사각 행렬에 대하여 항상 존재한다는 보편성을 가진다. 이러한 보편성과 풍부한 기하학적 의미로 인하여 특이값 분해는 수치 선형대수학에서 가장 중요한 분해 중 하나로 자리 잡고 있다.

2. 특이값 분해의 정의

정의. $A \in \mathbb{R}^{m \times n}$ 를 임의의 실수 행렬이라 하자. 행렬 $A$ 의 특이값 분해는 다음의 형태로 표현된다.

$A = U \Sigma V^\top$

여기서

$U \in \mathbb{R}^{m \times m}$ 는 직교 행렬이며, 그 열 벡터들을 좌특이벡터(left singular vectors)라 한다.
$V \in \mathbb{R}^{n \times n}$ 는 직교 행렬이며, 그 열 벡터들을 우특이벡터(right singular vectors)라 한다.
$\Sigma \in \mathbb{R}^{m \times n}$ 는 다음의 형태를 가지는 직사각 대각 행렬이다.

$\Sigma_{ij} = \begin{cases} \sigma_i & i = j, \quad 1 \leq i \leq r \\ 0 & \text{기타} \end{cases}$

이고, 대각 성분 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0$ 를 특이값(singular values)이라 한다. 여기서 $r = \mathrm{rank}(A) \leq \min(m, n)$ 이다.

복소수 행렬에 대해서는 동일한 정의가 적용되지만, 직교 행렬 대신 유니타리 행렬이 사용되며, 전치 대신 켤레 전치가 사용된다. 즉, $A = U \Sigma V^*$ 의 형태가 된다.

3. 특이값과 고유값의 관계

특이값은 다음과 같은 방식으로 그람 행렬의 고유값과 직접 연결된다.

정리. $A \in \mathbb{R}^{m \times n}$ 의 특이값 $\sigma_1, \sigma_2, \ldots, \sigma_{\min(m,n)}$ 은 양반정치 행렬 $A^\top A \in \mathbb{R}^{n \times n}$ (또는 동등하게 $AA^\top \in \mathbb{R}^{m \times m}$ )의 고유값의 비음의 제곱근과 일치한다.

이 사실은 특이값 분해의 존재성을 증명하는 출발점이 된다. 좀 더 구체적으로,

$A^\top A = V \Sigma^\top \Sigma V^\top, \qquad AA^\top = U \Sigma \Sigma^\top U^\top$

이 성립한다. 여기서 $\Sigma^\top \Sigma$ 와 $\Sigma \Sigma^\top$ 는 모두 대각 행렬이며, 그 대각 성분이 $\sigma_i^2$ 이다. 이로부터 우특이벡터들은 $A^\top A$ 의 정규 직교 고유벡터이며, 좌특이벡터들은 $AA^\top$ 의 정규 직교 고유벡터임을 알 수 있다.

4. 존재성 정리

정리 (특이값 분해의 존재성). 임의의 행렬 $A \in \mathbb{R}^{m \times n}$ 에 대하여 특이값 분해 $A = U \Sigma V^\top$ 가 존재한다.

증명. $A^\top A \in \mathbb{R}^{n \times n}$ 는 대칭 양반정치 행렬이다. 스펙트럼 정리에 의하여 직교 행렬 $V \in \mathbb{R}^{n \times n}$ 가 존재하여

$V^\top (A^\top A) V = \mathrm{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_n^2)$

이 성립하며, $\sigma_1^2 \geq \sigma_2^2 \geq \cdots \geq \sigma_n^2 \geq 0$ 이다. 양반정치성으로부터 모든 $\sigma_i^2 \geq 0$ 이 보장된다.

랭크가 $r$ 이라 가정하자. 즉, $\sigma_1 \geq \cdots \geq \sigma_r > 0$ 이고 $\sigma_{r+1} = \cdots = \sigma_n = 0$ 이다. $V$ 의 열 벡터를 $\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n$ 이라 하자.

$1 \leq i \leq r$ 에 대하여 다음과 같이 정의한다.

$\mathbf{u}_i = \frac{1}{\sigma_i} A \mathbf{v}_i \in \mathbb{R}^m$

이 벡터들이 정규 직교임을 보이자. $i, j \in \{1, \ldots, r\}$ 에 대하여

$\mathbf{u}_i^\top \mathbf{u}_j = \frac{1}{\sigma_i \sigma_j} \mathbf{v}_i^\top A^\top A \mathbf{v}_j = \frac{\sigma_j^2}{\sigma_i \sigma_j} \mathbf{v}_i^\top \mathbf{v}_j = \frac{\sigma_j}{\sigma_i} \delta_{ij} = \delta_{ij}$

이다. 따라서 $\{\mathbf{u}_1, \ldots, \mathbf{u}_r\}$ 은 $\mathbb{R}^m$ 에서 정규 직교이다. 이를 $\mathbb{R}^m$ 의 정규 직교 기저로 확장하여 $\{\mathbf{u}_1, \ldots, \mathbf{u}_m\}$ 를 얻고, 이를 열로 가지는 직교 행렬 $U$ 를 구성한다.

이 $U, \Sigma, V$ 가 $A = U\Sigma V^\top$ 를 만족함을 확인하자. $V^\top$ 이 직교이므로 $A V = U \Sigma$ 임을 보이는 것으로 충분하다. $i \leq r$ 에 대하여 $A \mathbf{v}_i = \sigma_i \mathbf{u}_i$ 이고, $i > r$ 에 대하여 $\|A\mathbf{v}_i\|^2 = \mathbf{v}_i^\top A^\top A \mathbf{v}_i = \sigma_i^2 = 0$ 이므로 $A\mathbf{v}_i = \mathbf{0}$ 이다. 두 경우 모두 $A\mathbf{v}_i$ 는 $\Sigma$ 의 $i$ 번째 열에 대응하는 $U$ 의 선형 결합과 일치한다. 따라서 $AV = U\Sigma$ 이며, $A = U\Sigma V^\top$ 가 성립한다. $\blacksquare$

5. 유일성

특이값 분해의 일부 요소는 유일하게 결정되지만, 다른 요소는 그렇지 않다.

특이값: 항상 유일하게 결정되며, 정렬 순서까지 동일하다.
특이벡터: 일반적으로 유일하지 않다. 다음의 두 가지 자유도가 존재한다.
단일 특이값에 대응하는 좌·우 특이벡터 쌍은 부호의 일치를 유지하면서 동시에 부호를 바꿀 수 있다.
중복된 특이값에 대응하는 특이벡터들은 그들이 생성하는 부분 공간 내에서 임의의 회전이 가능하다.

이러한 비유일성은 수치 알고리듬의 결과를 비교할 때 유의할 점이며, 분해 자체의 유효성에는 영향을 미치지 않는다.

6. 축소 형식과 전체 형식

특이값 분해는 두 가지 형태로 표현될 수 있다.

전체 SVD (full SVD): 위에서 정의한 형식으로, $U \in \mathbb{R}^{m \times m}$ 와 $V \in \mathbb{R}^{n \times n}$ 이 정사각 직교 행렬이며, $\Sigma \in \mathbb{R}^{m \times n}$ 는 직사각 대각 행렬이다.

축소 SVD (reduced SVD): 영 특이값에 대응하는 부분을 제거한 형식으로, $r = \mathrm{rank}(A)$ 에 대하여

$A = U_r \Sigma_r V_r^\top$

이다. 여기서 $U_r \in \mathbb{R}^{m \times r}$ , $V_r \in \mathbb{R}^{n \times r}$ 는 정규 직교 열을 가지는 행렬이고, $\Sigma_r \in \mathbb{R}^{r \times r}$ 는 양의 특이값을 대각 성분으로 가지는 정사각 대각 행렬이다.

축소 형식은 저장 공간과 계산량을 절감하며, 특히 $\min(m,n)$ 이 $\max(m,n)$ 보다 훨씬 작은 경우에 유용하다.

7. 외적 합 표현

특이값 분해는 다음과 같은 외적 합(outer product sum) 형식으로도 표현된다.

$A = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top$

여기서 각 항 $\sigma_i \mathbf{u}_i \mathbf{v}_i^\top$ 은 랭크 1의 행렬이며, 전체 행렬을 랭크 1 성분의 가중합으로 분해한다. 가중치 $\sigma_i$ 가 큰 항들이 행렬의 주된 정보를 담고 있으며, 이는 저랭크 근사의 토대를 제공한다.

8. 특이값의 성질

특이값은 다음과 같은 핵심적인 성질들을 가진다.

비음수성: 모든 특이값은 비음수이다. 정의에 의하여 $\sigma_i \geq 0$ 이다.
랭크와의 관계: 양의 특이값의 개수는 행렬의 랭크와 같다. 즉, $\mathrm{rank}(A) = \#\{i : \sigma_i > 0\}$ 이다.
노름과의 관계: 가장 큰 특이값은 행렬의 스펙트럼 노름과 일치한다. 즉, $\|A\|_2 = \sigma_1$ 이다. 또한 프로베니우스 노름은 $\|A\|_F = \sqrt{\sigma_1^2 + \sigma_2^2 + \cdots + \sigma_r^2}$ 이다.
조건수와의 관계: 정사각 가역 행렬의 2-노름 조건수는 가장 큰 특이값과 가장 작은 특이값의 비 $\kappa_2(A) = \sigma_1 / \sigma_n$ 로 주어진다.
전치와의 관계: $A$ 와 $A^\top$ 는 동일한 영이 아닌 특이값을 가진다.
곱 구조: $A^\top A$ 와 $AA^\top$ 의 비영 고유값은 일치하며, 이들의 양의 제곱근이 $A$ 의 비영 특이값이다.

9. 네 부분 공간과 특이값 분해

특이값 분해는 행렬에 관련된 네 가지 핵심 부분 공간의 구조를 명확히 드러낸다.

열 공간(column space) $\mathcal{R}(A)$ : $\{\mathbf{u}_1, \mathbf{u}_2, \ldots, \mathbf{u}_r\}$ 가 정규 직교 기저를 이룬다.
영 공간(null space) $\mathcal{N}(A)$ : $\{\mathbf{v}_{r+1}, \mathbf{v}_{r+2}, \ldots, \mathbf{v}_n\}$ 이 정규 직교 기저를 이룬다.
행 공간(row space) $\mathcal{R}(A^\top)$ : $\{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_r\}$ 이 정규 직교 기저를 이룬다.
좌영 공간(left null space) $\mathcal{N}(A^\top)$ : $\{\mathbf{u}_{r+1}, \mathbf{u}_{r+2}, \ldots, \mathbf{u}_m\}$ 이 정규 직교 기저를 이룬다.

이 분해는 선형 사상의 정의역과 공역이 직교 분해되며, 사상이 그 핵심 차원에서만 비자명하게 작용함을 명확하게 보여 준다.

10. 수치적 계산

특이값 분해는 수치적으로 안정한 알고리듬을 통하여 계산된다. 표준적인 방법은 이단계 절차를 따른다.

이대각화: 하우스홀더 변환과 같은 직교 변환을 통하여 행렬 $A$ 를 이대각 행렬(bidiagonal matrix)로 변환한다.
이대각 특이값 분해: 이대각 행렬에 대한 반복적 알고리듬(예: 골럽-카한 알고리듬, 분할 정복 방법, 큐알 알고리듬)을 통하여 특이값과 특이벡터를 추출한다.

이 절차는 $A^\top A$ 를 명시적으로 계산하지 않으므로 수치적 정확도가 우수하며, LAPACK과 같은 표준 라이브러리에서 매우 효율적으로 구현되어 있다.

11. 특이값 분해의 보편성

특이값 분해의 가장 큰 장점은 그 보편성이다.

임의의 직사각 행렬에 대하여 항상 존재한다.
정사각 행렬의 경우에도 결함 행렬과 같은 병리적 사례가 발생하지 않는다.
수치적으로 매우 안정한 방법으로 계산될 수 있다.
복소수 행렬과 실수 행렬에 모두 적용된다.

이러한 성질로 인하여 특이값 분해는 데이터 해석, 신호 처리, 영상 처리, 통계 학습, 수치 최적화, 그리고 로봇공학 등 광범위한 분야에서 핵심적인 도구로 사용된다.

12. 로봇공학에서의 응용

12.1 자코비안 행렬의 분석

로봇 매니퓰레이터의 자코비안 행렬은 일반적으로 정사각 행렬이 아닌 직사각 행렬이며, 자세에 따라 랭크가 변화한다. 자코비안의 특이값 분해를 통하여 다음의 정보를 얻을 수 있다.

자코비안의 랭크와 특이 형상 검출
운동의 가능한 방향과 차단된 방향의 식별
가조작성 타원체의 주축과 주축 길이의 추출
특이점 근방에서의 수치적 안정성 평가

12.2 최소 제곱 문제와 의사 역행렬

특이값 분해는 무어-펜로즈 의사 역행렬을 직접 계산하는 가장 안정한 방법을 제공한다. 또한 과결정 시스템과 부족 결정 시스템의 최소 제곱 해와 최소 노름 해를 동일한 틀에서 계산할 수 있게 한다. 이는 역기구학, 매개 변수 식별, 그리고 센서 보정에서 광범위하게 사용된다.

12.3 영상 처리와 점 구름 정합

특이값 분해는 두 점 집합을 정합하는 카브쉬 알고리듬(Kabsch algorithm)의 핵심 단계로 사용된다. 또한 호모그래피 행렬 추정과 본질 행렬 분해에서 필수적으로 활용된다.

12.4 데이터 압축과 차원 축소

센서 데이터, 영상, 그리고 동작 캡쳐 데이터의 저랭크 근사는 특이값 분해를 통하여 수행된다. 가장 큰 몇 개의 특이값에 대응하는 성분만을 유지함으로써 저장 공간과 통신 대역폭을 효과적으로 절감할 수 있다.

12.5 모델 차수 축약

대규모 동역학 시스템의 차수 축약에서 특이값 분해는 본질적인 모드를 식별하고 무시할 수 있는 모드를 제거하는 도구로 활용된다. 균형 절단과 같은 차수 축약 기법은 한켈 행렬의 특이값 분해에 기반한다.

참고문헌

Strang, G. (2023). Introduction to Linear Algebra (6th ed.). Wellesley-Cambridge Press.
Trefethen, L. N., & Bau, D. (2022). Numerical Linear Algebra (25th Anniversary ed.). SIAM.
Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
Horn, R. A., & Johnson, C. R. (2013). Matrix Analysis (2nd ed.). Cambridge University Press.
Lynch, K. M., & Park, F. C. (2017). Modern Robotics: Mechanics, Planning, and Control. Cambridge University Press.

Version: 1.0