6.41 축소 SVD와 전체 SVD

1. 도입

특이값 분해는 동일한 수학적 사실을 표현하는 여러 가지 형식으로 기술될 수 있다. 가장 보편적인 두 형식은 전체 형식(full form)과 축소 형식(reduced form)이며, 이 두 형식은 서로 동등한 정보를 담고 있지만 저장 공간, 계산량, 그리고 응용에서의 편의성 측면에서 차이를 가진다. 이 절에서는 두 형식을 정밀하게 비교하고, 각각이 적합한 상황과 두 형식 사이의 변환 관계를 다룬다.

2. 전체 SVD의 정의

$A \in \mathbb{R}^{m \times n}$ 를 임의의 실수 행렬이라 하고, $r = \mathrm{rank}(A)$ 라 하자. 전체 특이값 분해(full SVD)는 다음의 형식을 가진다.

$A = U \Sigma V^\top$

여기서 각 인수는 다음의 차원과 성질을 가진다.

$U \in \mathbb{R}^{m \times m}$ 는 정사각 직교 행렬이다. 즉, $U^\top U = U U^\top = I_m$ 이며, 그 열 벡터는 $\mathbb{R}^m$ 의 정규 직교 기저를 이룬다.
$V \in \mathbb{R}^{n \times n}$ 는 정사각 직교 행렬이다. 즉, $V^\top V = V V^\top = I_n$ 이며, 그 열 벡터는 $\mathbb{R}^n$ 의 정규 직교 기저를 이룬다.
$\Sigma \in \mathbb{R}^{m \times n}$ 는 행렬 $A$ 와 동일한 형태를 가지는 직사각 대각 행렬이다. 그 대각 성분 $\Sigma_{ii} = \sigma_i$ ( $1 \leq i \leq \min(m,n)$ )는 비음수이며 내림차순으로 정렬된다. 처음 $r$ 개의 대각 성분은 양수이고, 나머지는 영이다.

전체 형식의 핵심적인 특징은 $U$ 와 $V$ 가 각각 정의역 $\mathbb{R}^n$ 과 공역 $\mathbb{R}^m$ 의 완전한 정규 직교 기저를 제공한다는 점이다. 이 완전성 덕분에 전체 형식은 행렬에 관련된 네 가지 부분 공간을 모두 명시적으로 표현한다.

3. 축소 SVD의 정의

축소 특이값 분해(reduced SVD) 또는 얇은 형식(thin form)은 영 특이값에 대응하는 부분을 제거한 형식이다. $r = \mathrm{rank}(A)$ 라 하자. 두 가지 변형이 일반적으로 사용된다.

3.1 얇은 SVD ( $r$ 이 사용되지 않는 변형)

$A = U_{\text{thin}} \Sigma_{\text{thin}} V_{\text{thin}}^\top$

여기서 $k = \min(m, n)$ 이고

$U_{\text{thin}} \in \mathbb{R}^{m \times k}$ 는 정규 직교 열을 가지는 행렬, 즉 $U_{\text{thin}}^\top U_{\text{thin}} = I_k$ 이다.
$\Sigma_{\text{thin}} \in \mathbb{R}^{k \times k}$ 는 정사각 대각 행렬이다.
$V_{\text{thin}} \in \mathbb{R}^{n \times k}$ 는 정규 직교 열을 가지는 행렬, 즉 $V_{\text{thin}}^\top V_{\text{thin}} = I_k$ 이다.

이 변형은 행렬의 랭크를 미리 알 필요가 없으며, 영 특이값을 포함할 수 있다는 점에서 전체 형식과 유사하다. 그러나 $m \neq n$ 일 때 $U_{\text{thin}}$ 또는 $V_{\text{thin}}$ 중 하나는 정사각이 아니다.

3.2 축소 SVD (랭크에 기반한 변형)

$A = U_r \Sigma_r V_r^\top$

여기서

$U_r \in \mathbb{R}^{m \times r}$ 는 양의 특이값에 대응하는 좌특이벡터만을 열로 가지며, $U_r^\top U_r = I_r$ 이다.
$\Sigma_r \in \mathbb{R}^{r \times r}$ 는 양의 특이값만을 대각 성분으로 가지는 정사각 대각 행렬이다.
$V_r \in \mathbb{R}^{n \times r}$ 는 양의 특이값에 대응하는 우특이벡터만을 열로 가지며, $V_r^\top V_r = I_r$ 이다.

이 변형은 영 특이값을 완전히 제거하므로 행렬의 본질적인 비자명한 작용만을 표현한다. 단, 랭크 $r$ 을 미리 결정하여야 한다는 단점이 있다.

4. 두 형식의 비교

항목	전체 SVD	축소 SVD ( $k = \min(m,n)$ )	축소 SVD (랭크 $r$ )
$U$ 의 크기	$m \times m$	$m \times k$	$m \times r$
$V$ 의 크기	$n \times n$	$n \times k$	$n \times r$
$\Sigma$ 의 크기	$m \times n$	$k \times k$	$r \times r$
정사각 직교성	$U, V$ 모두	부분적	부분적
영 특이값 포함	가능	가능	불가
행 공간 기저 표현	명시적	부분적	명시적
영 공간 기저 표현	명시적	부분적	비표현
저장 공간	가장 큼	중간	가장 작음
일반적 사용 빈도	이론 분석	수치 계산	데이터 압축

전체 형식이 행렬의 모든 부분 공간을 표현하는 반면, 축소 형식은 비자명한 작용에만 집중한다. 응용에 따라 어떤 형식이 적합한지가 결정된다.

5. 저장 공간과 계산량의 비교

큰 직사각 행렬 ( $m \gg n$ 또는 $m \ll n$ )의 경우 전체 형식과 축소 형식 사이의 차이는 극적이다. 예컨대 $m = 10\,000$ , $n = 100$ 인 경우를 고려해보자.

전체 형식의 $U$ 는 $10\,000 \times 10\,000 = 10^8$ 개의 원소를 가진다.
얇은 형식의 $U_{\text{thin}}$ 은 $10\,000 \times 100 = 10^6$ 개의 원소를 가진다.

두 경우의 차이는 $100$ 배이며, 이는 메모리 사용량과 계산량 모두에 큰 영향을 미친다. 일반적으로 큰 직사각 행렬에 대해서는 전체 $U$ 의 직교 보수 부분이 거의 사용되지 않으므로, 얇은 형식이 압도적으로 선호된다.

6. 두 형식 사이의 변환

두 형식은 서로 동등한 정보를 담고 있으며, 다음과 같이 변환할 수 있다.

전체 → 얇은: 전체 형식 $U \Sigma V^\top$ 에서 $U$ 의 첫 $k$ 개 열, $V$ 의 첫 $k$ 개 열, $\Sigma$ 의 첫 $k \times k$ 부분 행렬만을 추출한다. 나머지 열들은 영 특이값에 대응하므로 행렬 곱셈에 기여하지 않는다.

얇은 → 전체: 얇은 형식 $U_{\text{thin}} \Sigma_{\text{thin}} V_{\text{thin}}^\top$ 에서 $U_{\text{thin}}$ 의 열들에 정규 직교한 추가 벡터들을 추가하여 $\mathbb{R}^m$ 의 완전한 정규 직교 기저를 구성한다. 이는 그람-슈미트 직교화 또는 하우스홀더 변환을 통하여 수행할 수 있다. 마찬가지로 $V_{\text{thin}}$ 도 $\mathbb{R}^n$ 의 완전한 정규 직교 기저로 확장한다. $\Sigma$ 의 추가 부분은 영으로 채워진다.

얇은 → 랭크 기반 축소: 얇은 형식에서 영 특이값에 대응하는 열들을 모두 제거한다.

랭크 기반 축소 → 얇은: 영 특이값에 대응하는 열들을 추가하여야 한다. 좌특이벡터 측에서는 $U_r$ 의 열들에 정규 직교한 추가 벡터들을, 우특이벡터 측에서는 $V_r$ 의 열들에 정규 직교한 추가 벡터들을 추가한다.

7. 외적 합 형식

축소 SVD는 외적 합으로 표현될 때 가장 간결한 형태를 가진다.

$A = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top$

이 표현은 행렬 $A$ 를 $r$ 개의 랭크 1 항의 합으로 분해한다. 각 항은 좌특이벡터와 우특이벡터의 외적에 대응 특이값을 곱한 형태이다. 외적 합 표현의 장점은 다음과 같다.

행렬 $A$ 를 상위 몇 개의 항으로 자연스럽게 근사할 수 있다.
각 항은 독립적으로 저장 및 처리할 수 있다.
점진적 갱신과 분산 계산에 적합한 구조를 가진다.

8. 영 공간과 직교 보수

전체 형식의 가장 큰 장점은 영 공간과 직교 보수 공간에 대한 명시적인 기저를 제공한다는 점이다. 전체 형식의 우특이벡터를 $\mathbf{v}_1, \ldots, \mathbf{v}_n$ 이라 하면, $\mathbf{v}_{r+1}, \ldots, \mathbf{v}_n$ 은 $A$ 의 영 공간의 정규 직교 기저이다. 마찬가지로 $\mathbf{u}_{r+1}, \ldots, \mathbf{u}_m$ 은 $A^\top$ 의 영 공간의 정규 직교 기저이다.

축소 형식은 이러한 정보를 제공하지 않는다. 따라서 영 공간 또는 좌영 공간을 명시적으로 활용하여야 하는 응용(예: 여유 자유도 로봇의 영 공간 투영, 제약 조건의 부분 공간 처리)에서는 전체 형식 또는 적어도 부분적으로 확장된 형식이 필요하다.

9. 수치 라이브러리의 관행

LAPACK과 같은 표준 수치 선형대수 라이브러리는 두 형식을 모두 제공한다. 예를 들어 LAPACK의 gesdd 루틴은 다음의 옵션을 지원한다.

JOBZ = 'A': 전체 $U$ 와 전체 $V^\top$ 를 모두 계산한다.
JOBZ = 'S': 얇은 $U$ 와 얇은 $V^\top$ 를 계산한다. 이는 일반적으로 'A'보다 빠르다.
JOBZ = 'O': 입력 행렬 $A$ 를 덮어써서 $U$ 또는 $V^\top$ 를 저장한다. 메모리 절약을 위한 옵션이다.
JOBZ = 'N': 특이값만을 계산하고 특이벡터는 계산하지 않는다.

이러한 선택지의 존재는 응용의 다양성을 반영하며, 사용자는 필요한 정보의 양에 따라 적절한 옵션을 선택하여야 한다.

10. 응용에 따른 선택

두 형식의 선택은 응용의 요구사항에 따라 결정된다.

이론적 분석: 모든 부분 공간의 명시적 표현이 필요하므로 전체 형식이 선호된다.
최소 제곱 문제와 의사 역행렬: 일반적으로 얇은 형식으로 충분하며, 계산 효율성 측면에서 권장된다.
데이터 압축과 차원 축소: 축소 형식 또는 더 작은 절단 형식이 사용된다.
자코비안 분석: 영 공간이 중요한 경우 전체 형식이 필요하며, 그렇지 않은 경우 얇은 형식이 적절하다.
저랭크 근사: 외적 합 형식이 가장 자연스럽다.

11. 절단 SVD

축소 형식을 더욱 단순화한 것이 절단 SVD(truncated SVD)이다. 이는 처음 $k$ 개의 항만을 유지하여 행렬을 근사하는 형식이다.

$A_k = \sum_{i=1}^{k} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top, \qquad k < r$

절단 SVD는 데이터 압축, 잡음 제거, 그리고 모델 차수 축약에서 핵심적인 도구이며, 에크하르트-영 정리에 의하여 최적 저랭크 근사를 제공한다.

12. 로봇공학에서의 응용

12.1 자코비안 의사 역행렬의 효율적 계산

매니퓰레이터의 자코비안 행렬은 일반적으로 직사각 행렬이며, 그 의사 역행렬을 계산할 때 얇은 SVD가 표준적으로 사용된다. 얇은 형식은 필요한 모든 정보를 제공하면서도 전체 형식보다 훨씬 효율적이며, 실시간 제어 루프에서 사용하기에 적합하다. 자코비안의 영 공간을 활용한 여유 자유도 제어가 필요한 경우에는 전체 형식 또는 영 공간 기저를 명시적으로 추출하는 추가 단계가 필요하다.

12.2 점 구름 정합과 카브쉬 알고리듬

두 점 집합 사이의 최적 강체 변환을 구하는 카브쉬 알고리듬에서 교차 공분산 행렬에 대한 SVD가 사용된다. 이때 행렬은 $3 \times 3$ 의 작은 정사각 행렬이므로 전체 형식과 얇은 형식 사이의 차이가 미미하며, 일반적으로 전체 형식이 사용된다.

12.3 대규모 동작 데이터의 차원 축소

수많은 자유도를 가지는 인간형 로봇이나 모바일 로봇 군집의 동작 데이터는 매우 큰 직사각 행렬로 표현된다. 이 데이터에 대한 SVD에서는 절단 SVD가 표준적으로 사용되며, 상위 몇 개의 주성분만을 유지함으로써 동작의 본질적인 구조를 추출하고 저장 공간과 계산량을 크게 절감할 수 있다.

12.4 시스템 식별과 한켈 행렬

선형 시스템의 식별에서 사용되는 한켈 행렬은 일반적으로 직사각 행렬이며, 그 SVD는 시스템의 차수를 결정한다. 한켈 특이값의 분포를 관찰하여 적절한 차수를 선택한 후, 절단 SVD를 통하여 축약된 시스템을 추출한다. 이 접근법은 부분 공간 식별 기법의 핵심을 이룬다.

12.5 영상 압축과 시각 SLAM

시각 SLAM에서 사용되는 본질 행렬과 호모그래피 행렬은 작은 정사각 행렬이며, 전체 SVD가 사용된다. 한편 키 프레임 영상의 압축에서는 절단 SVD가 사용되어 통신 대역폭과 저장 공간을 절약한다.

참고문헌

Trefethen, L. N., & Bau, D. (2022). Numerical Linear Algebra (25th Anniversary ed.). SIAM.
Golub, G. H., & Van Loan, C. F. (2013). Matrix Computations (4th ed.). Johns Hopkins University Press.
Strang, G. (2023). Introduction to Linear Algebra (6th ed.). Wellesley-Cambridge Press.
Anderson, E., et al. (1999). LAPACK Users’ Guide (3rd ed.). SIAM.
Lynch, K. M., & Park, F. C. (2017). Modern Robotics: Mechanics, Planning, and Control. Cambridge University Press.
Hartley, R., & Zisserman, A. (2004). Multiple View Geometry in Computer Vision (2nd ed.). Cambridge University Press.

Version: 1.0