27.16 직교성(Orthogonality)의 정의와 직교 벡터 집합
1. 직교성의 정의
내적 공간 (V, \langle\cdot,\cdot\rangle)에서 두 벡터 \mathbf{u}, \mathbf{v} \in V가 직교(orthogonal)한다는 것은 내적이 0임을 의미한다.
\mathbf{u} \perp \mathbf{v} \quad \iff \quad \langle\mathbf{u}, \mathbf{v}\rangle = 0
\mathbb{R}^n의 유클리드 내적에서 이는 \mathbf{u}^\top\mathbf{v} = \sum_{i=1}^n u_i v_i = 0에 해당한다. 기하학적으로 두 벡터가 이루는 각도가 \pi/2 (90도)임을 의미한다.
영벡터 \mathbf{0}는 모든 벡터와 직교한다. \langle\mathbf{0}, \mathbf{v}\rangle = 0이 임의의 \mathbf{v}에 대하여 성립하기 때문이다. 이 성질 때문에 영벡터는 직교성에 관한 정의에서 특별한 지위를 갖는다.
2. 피타고라스 정리
직교성의 가장 기본적인 결과는 피타고라스 정리(Pythagorean theorem)이다.
정리. \mathbf{u} \perp \mathbf{v}이면
\|\mathbf{u} + \mathbf{v}\|^2 = \|\mathbf{u}\|^2 + \|\mathbf{v}\|^2
증명: \|\mathbf{u} + \mathbf{v}\|^2 = \langle\mathbf{u}+\mathbf{v}, \mathbf{u}+\mathbf{v}\rangle = \|\mathbf{u}\|^2 + 2\langle\mathbf{u},\mathbf{v}\rangle + \|\mathbf{v}\|^2 = \|\mathbf{u}\|^2 + \|\mathbf{v}\|^2이다.
이 결과는 k개의 상호 직교 벡터로 일반화된다. \mathbf{v}_1, \ldots, \mathbf{v}_k가 쌍별(pairwise) 직교이면
\left\|\sum_{i=1}^k \mathbf{v}_i\right\|^2 = \sum_{i=1}^k \|\mathbf{v}_i\|^2
3. 직교 집합과 직교 정규 집합
벡터 집합 S = \{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\}가 **직교 집합(orthogonal set)**이라 함은, i \neq j인 모든 쌍에 대하여 \langle\mathbf{v}_i, \mathbf{v}_j\rangle = 0이 성립하는 것이다.
S가 추가로 각 벡터의 노름이 1인 조건 \|\mathbf{v}_i\| = 1을 만족하면 **직교 정규 집합(orthonormal set)**이라 한다. 직교 정규 조건은 크로네커 델타를 이용하여 간결하게 표현된다.
\langle\mathbf{v}_i, \mathbf{v}_j\rangle = \delta_{ij} = \begin{cases} 1 & \text{if } i = j \\ 0 & \text{if } i \neq j \end{cases}
정리. 영벡터를 포함하지 않는 직교 집합은 선형 독립이다.
증명: \sum_{i=1}^k \alpha_i \mathbf{v}_i = \mathbf{0}이라 가정하고 양변에 \mathbf{v}_j와의 내적을 취하면
\left\langle\sum_{i=1}^k \alpha_i \mathbf{v}_i, \mathbf{v}_j\right\rangle = \sum_{i=1}^k \alpha_i \langle\mathbf{v}_i, \mathbf{v}_j\rangle = \alpha_j \|\mathbf{v}_j\|^2 = 0
\|\mathbf{v}_j\| \neq 0이므로 \alpha_j = 0이다. 이것이 모든 j에 대하여 성립하므로 선형 독립이다.
이 결과에 의하여, n차원 내적 공간에서 n개의 영벡터가 아닌 직교 벡터로 이루어진 집합은 자동으로 기저가 된다. 이를 직교 기저(orthogonal basis)라 하며, 모든 벡터의 노름이 1이면 직교 정규 기저(orthonormal basis)라 한다.
4. 직교 기저를 이용한 좌표 계산
직교 기저 \mathcal{B} = \{\mathbf{v}_1, \ldots, \mathbf{v}_n\}에서 임의의 벡터 \mathbf{w}의 좌표는 내적만으로 직접 계산된다.
\mathbf{w} = \sum_{i=1}^n \frac{\langle\mathbf{w}, \mathbf{v}_i\rangle}{\|\mathbf{v}_i\|^2} \mathbf{v}_i
직교 정규 기저 \{\mathbf{q}_1, \ldots, \mathbf{q}_n\}의 경우에는 더 단순해진다.
\mathbf{w} = \sum_{i=1}^n \langle\mathbf{w}, \mathbf{q}_i\rangle \mathbf{q}_i
이 표현에서 \langle\mathbf{w}, \mathbf{q}_i\rangle은 \mathbf{w}의 \mathbf{q}_i 방향 성분의 크기(사영 계수)이다. 일반적인 기저에서는 좌표 계산에 역행렬이 필요하지만, 직교 정규 기저에서는 내적으로 충분하다는 것이 핵심적인 계산적 이점이다.
5. 직교 여공간
벡터 공간 V의 부분 공간 W에 대하여, W의 모든 벡터와 직교하는 벡터들의 집합을 W의 **직교 여공간(orthogonal complement)**이라 하며 W^\perp로 표기한다.
W^\perp = \{\mathbf{v} \in V : \langle\mathbf{v}, \mathbf{w}\rangle = 0, \; \forall \mathbf{w} \in W\}
W^\perp는 V의 부분 공간이며, 다음 성질들이 성립한다.
- V = W \oplus W^\perp (직합 분해)
- \dim(W) + \dim(W^\perp) = \dim(V)
- (W^\perp)^\perp = W
- W_1 \subseteq W_2 \Rightarrow W_2^\perp \subseteq W_1^\perp
임의의 \mathbf{v} \in V는 \mathbf{v} = \mathbf{w} + \mathbf{w}^\perp (\mathbf{w} \in W, \mathbf{w}^\perp \in W^\perp)으로 유일하게 분해된다.
6. 정사영
부분 공간 W 위로의 정사영(orthogonal projection)은 \mathbf{v}를 W의 성분과 W^\perp의 성분으로 분해한 것 중 W의 성분을 취하는 연산이다.
\text{proj}_W(\mathbf{v}) = \mathbf{w}, \quad \text{where } \mathbf{v} = \mathbf{w} + \mathbf{w}^\perp
W의 직교 정규 기저가 \{\mathbf{q}_1, \ldots, \mathbf{q}_k\}이면 정사영은
\text{proj}_W(\mathbf{v}) = \sum_{i=1}^k \langle\mathbf{v}, \mathbf{q}_i\rangle \mathbf{q}_i = QQ^\top\mathbf{v}
로 계산된다. 여기서 Q = [\mathbf{q}_1 \; \cdots \; \mathbf{q}_k] \in \mathbb{R}^{n \times k}이다. 행렬 P = QQ^\top는 사영 행렬(projection matrix)이며, P^2 = P, P^\top = P를 만족한다.
7. 딥러닝에서의 직교성
가중치 직교 초기화(orthogonal initialization): 신경망의 가중치 행렬을 직교 행렬(또는 근사 직교 행렬)로 초기화하면, 순전파와 역전파 과정에서 신호의 노름이 보존되어 경사도 소실(vanishing gradient) 및 폭발(exploding gradient) 문제를 완화할 수 있다. Saxe et al. (2014, “Exact solutions to the nonlinear dynamics of learning in deep linear networks”)은 직교 초기화가 심층 선형 신경망에서 학습 역학을 개선함을 이론적으로 분석하였다.
직교 정규화(orthogonal regularization): 학습 중에 가중치 행렬의 열벡터(또는 행벡터)가 직교를 유지하도록 정규화 항을 추가한다. \|W^\top W - I\|_F^2를 손실에 추가하면, 각 뉴런이 서로 다른 특성을 학습하도록 유도할 수 있다.
직교 어텐션: 멀티헤드 어텐션(multi-head attention)에서 각 헤드의 투영 행렬이 서로 직교하면, 각 헤드가 서로 다른 부분 공간에서 정보를 추출하게 되어 표현의 다양성이 향상된다.
잔차 연결과 직교 분해: 잔차 연결(residual connection) \mathbf{y} = \mathbf{x} + f(\mathbf{x})에서, f(\mathbf{x})가 \mathbf{x}와 직교하는 성분만을 학습한다면 \|\mathbf{y}\|^2 = \|\mathbf{x}\|^2 + \|f(\mathbf{x})\|^2이 되어 정보의 손실 없이 표현이 확장된다. 이는 잔차 학습이 직교 여공간 방향의 보정을 수행하는 것으로 해석할 수 있는 이론적 근거이다.