29.34 노름 보존 선형 변환과 등거리 변환(Isometry)의 특성화
1. 등거리 변환의 정의
내적 공간 V에서의 선형 변환 T : V \to V가 **등거리 변환(isometry)**이라 함은 모든 벡터의 노름을 보존하는 것이다.
\|T(x)\| = \|x\|, \quad \forall x \in V
등가적으로, T가 두 점 사이의 거리를 보존하면 등거리 변환이다.
\|T(x) - T(y)\| = \|x - y\|, \quad \forall x, y \in V
T의 선형성으로부터 T(x) - T(y) = T(x - y)이므로 두 조건은 동치이다.
2. 등거리 선형 변환의 동치 조건
정리. 유한 차원 실수 내적 공간 V 위의 선형 변환 T : V \to V에 대하여 다음은 모두 동치이다.
(i) \|T(x)\| = \|x\| (\forall x \in V) (노름 보존)
(ii) \langle T(x), T(y) \rangle = \langle x, y \rangle (\forall x, y \in V) (내적 보존)
(iii) T는 정규 직교 기저를 정규 직교 기저로 사상한다.
(iv) T^* T = I (수반 연산자와의 관계)
(v) T의 행렬 표현 Q가 직교 행렬이다: Q^T Q = I
(vi) T의 모든 특이값이 1이다.
2.1 (i) \Leftrightarrow (ii) 증명
(\Rightarrow) 극화 항등식(polarization identity)을 사용한다.
\langle x, y \rangle = \frac{1}{2}\left(\|x+y\|^2 - \|x\|^2 - \|y\|^2\right)
T가 노름을 보존하면 우변의 각 항이 보존되므로 내적도 보존된다.
(\Leftarrow) \|T(x)\|^2 = \langle T(x), T(x) \rangle = \langle x, x \rangle = \|x\|^2. \blacksquare
2.2 (ii) \Leftrightarrow (iv) 증명
\langle T(x), T(y) \rangle = \langle x, T^*T(y) \rangle이므로, \langle T(x), T(y) \rangle = \langle x, y \rangle (\forall x, y)는 \langle x, T^*T(y) \rangle = \langle x, y \rangle (\forall x, y)와 동치이고, 이는 T^*T = I와 동치이다. \blacksquare
2.3 (iv) \Leftrightarrow (vi) 증명
특이값은 T^*T의 고유값의 양의 제곱근이다. T^*T = I이면 T^*T의 모든 고유값이 1이므로 모든 특이값이 1이다. 역으로, 모든 특이값이 1이면 T^*T의 모든 고유값이 1이고, T^*T는 대칭이므로 T^*T = I. \blacksquare
3. 등거리 변환의 기하학적 의미
등거리 변환은 벡터 공간의 **계량 구조(metric structure)**를 완전히 보존하는 선형 변환이다. 구체적으��:
- 길이 보존: 모든 벡터의 노름이 불변이다.
- 각도 보존: 두 벡터 사이의 각도가 불변이다.
- 직교성 보존: 직교 관계가 불변이다.
- 체적 보존: |\det T| = 1이므로 부피가 보존된다.
기하학적으로, 등거리 선형 변환은 **강체 운동(rigid motion)**의 선형 부분에 해당한다. 도형의 형태와 크기를 변형시키지 않�� 오직 위치(방향)만 변화시킨다.
4. 단위 구면의 불변성
S^{n-1} = \{x \in \mathbb{R}^n \mid \|x\| = 1\}을 단위 구면이라 하���. T가 등거리 변환이면 \|T(x)\| = \|x\| = 1이므로 T(S^{n-1}) \subseteq S^{n-1}이다. T가 가역(T^*T = I이면 T는 가역)이므로 T(S^{n-1}) = S^{n-1}이다.
따라서 등거리 선형 변환은 단위 구면을 자기 자신으로 사상하는 변환으로 특성화된다. 이와 대조적으로, 비등거��� 선형 변환은 단위 구면을 타원체로 변형시킨다.
5. 등거리 변환의 분류
유한 차원 실수 내적 공간에서 등거리 선형 변환은 직교 변환과 동일하다. 행렬식에 따라:
\det Q = +1 (고유 등거리 변환): 회전에 해당한다. SO(n)의 원소이다.
\det Q = -1 (비고유 등거리 변환): 반사를 포함한다. O(n) \setminus SO(n)의 원소이다.
6. 부분 등거리 변환
6.1 정의
T : V \to W (\dim V \leq \dim W)가 부분 등거리 변환(partial isometry) 또는 **등거리 매립(isometric embedding)**이라 함은 \|T(x)\| = \|x\| (\forall x \in V)이 성립하는 것이다.
이 경우 T의 행렬 A \in M_{m \times n} (m \geq n)는 A^T A = I_n을 만족한다. 이러한 행렬의 열벡터들은 \mathbb{R}^m에서 정규 직교 집합을 이루며, A를 **열 직교 행렬(column-orthogonal matrix)**이라 한다.
6.2 특이값 분해와의 관계
A^TA = I_n이면 A의 모든 특이값이 1이다. 특이값 분해 A = U\Sigma V^T에서 \Sigma = \begin{pmatrix} I_n \\ 0 \end{pmatrix}이므로
A = U \begin{pmatrix} I_n \\ 0 \end{pmatrix} V^T
이는 A가 V^T에 의한 직교 변환, n차원에서 m차원으로의 표준 매립, U에 ��한 직교 변환의 합성임을 보여준다.
7. 마주로 부등식(Mazur-Ulam Theorem)과의 관계
선형성 가정 없이, 실수 노름 공간에서 원점을 보존하는 전사 등거리 사상은 반드시 선형임이 알려져 있다(마주로-울람 정리). 이 정리는 노름 보존이 매우 강한 조건이어서 선형성을 함축함을 보여준다.
8. 딥러닝에서의 등거리 변환
등거리 변환의 핵심 성질인 노름 ��존은 신경망에서 기울기의 크기 안정성과 직결된다. 순전파에서 가중치 행렬 W가 직교 행렬이면 \|Wx\| = \|x\|이므로 신호의 크기가 보존되고, 역전파에���도 \|W^T \delta\| = \|\delta\|이므로 기울기의 크기가 보존된다.
이러한 이유로 직교 초기화(orthogonal initialization)와 직교 정칙화(orthogonal regularization)가 심층 신경망의 학습 ���정성을 위해 활용된다. 특히 순환 ��경망(RNN)에서 장기 의존성(long-term dependency) 학습의 어려움은 반복적인 행렬 곱에서의 노름 폭발/소멸에 기인하며, 가중치 행렬을 직교 행렬로 제약하면 이 문제가 원천적으로 해소된다.