29.36 딥러닝 가중치 행렬의 선형 변환 해석과 특성 공간 매핑
1. 신경망 층의 선형 변환 구조
신경망의 각 완전 연결 층(fully connected layer)은 다음의 아핀 변환과 비선형 활성화의 합성으로 구성된다.
h = \sigma(Wx + b)
여기서 W \in M_{m \times n}(\mathbb{R})는 가중치 행렬, b \in \mathbb{R}^m는 편향 벡터, \sigma는 비선형 활성화 함수이다. 비선형성을 제외하면 핵심 연산은 가중치 행렬 W에 의한 선형 변환 x \mapsto Wx이다.
이 선형 변환은 입력 벡터 x \in \mathbb{R}^n을 출력 공간 \mathbb{R}^m으로 사상하며, W의 대수적/기하학적 성질이 해당 층의 연산 특성을 완전히 결정한다.
2. 가중치 행렬의 열과 행의 해석
2.1 열벡터의 해석
W의 j번째 열 w_{\cdot j}는 입력의 j번째 성분 x_j에 대한 가중치 벡터이다. 출력 Wx는
Wx = x_1 w_{\cdot 1} + x_2 w_{\cdot 2} + \cdots + x_n w_{\cdot n}
로 표현되며, 이는 입력 좌표에 의한 열벡터의 일차결합이다. 따라서 출력은 W의 열 공간(column space) \text{Col}(W) 내에 존재한다.
2.2 행벡터의 해석
W의 i번째 행 w_{i \cdot}^T는 출력의 i번째 성분을 결정하는 **특성 탐지기(feature detector)**에 해당한다.
(Wx)_i = w_{i \cdot}^T x = \langle w_{i \cdot}, x \rangle
이는 입력 x와 행 벡터 w_{i \cdot} 사이의 내적이다. 내적의 값은 두 벡터의 정렬(alignment) 정도를 측정하므로, W의 각 행은 입력 공간에서 특정 방향의 패턴을 탐지하는 선형 필터로 해석된다.
3. 차원 변환과 정보의 압축/확장
3.1 차원 축소 (m < n)
W \in M_{m \times n} (m < n)에 의한 변환은 n차원 입력을 m차원 출력으로 사상한다. 이는 정보의 **압축(compression)**에 해당한다.
차원 정리에 의하여 \dim(\ker(W)) = n - \text{rank}(W) \geq n - m > 0이므로, 반드시 정보 손실이 발생한다. 서로 다른 입력 벡터들이 동일한 출력으로 사상될 수 있다.
3.2 차원 확장 (m > n)
W \in M_{m \times n} (m > n)에 의한 변환은 입력을 더 높은 차원의 공간으로 매립(embedding)한다. 출력은 m차원 공간의 \text{rank}(W)차원 부분 공간에 제한된다.
이러한 차원 확장은 저차원에서 선형 분리 불가능한 데이터를 고차원에서 분리 가능하게 만드는 역할을 한다. 이는 커버 정리(Cover’s theorem)와 관련된 원리이다.
3.3 차원 보존 (m = n)
정방 행렬의 경우, W가 가역이면 전단사 변환으로서 정보를 보존한다. W가 비가역이면 차원 축소가 발생한다.
4. 특이값 분해에 의한 가중치 행렬 분석
W = U\Sigma V^T로 분해하면, 가중치 행렬에 의한 변환은 다음의 세 단계로 해석된다.
단계 1: V^T - 입력 공간의 회전. 입력을 W의 우특이벡터(right singular vector) 방향으로 정렬한다. 우특이벡터는 입력 공간에서의 “주요 입력 방향“에 해당한다.
단계 2: \Sigma - 선택적 스케일링. 각 방향을 특이값 \sigma_i에 비례하여 스케일링한다. \sigma_i가 큰 방향은 증폭되고 작은 방향은 감쇠된다. \sigma_i = 0인 방향은 완전히 소거된다.
단계 3: U - 출력 공간의 회전. 스케일링된 결과를 좌특이벡터(left singular vector) 방향으로 배치한다. 좌특이벡터는 출력 공간에서의 “주요 출력 방향“에 해당한다.
이 분해는 가중치 행렬이 “어떤 입력 패턴을 감지하여 어떤 출력 패턴으로 변환하는가“를 명확히 보여준다.
5. 특성 공간 매핑의 기하학
5.1 입력 특성 공간에서 출력 특성 공간으로의 매핑
신경망의 층 l에서의 활성화 벡터 h^{(l)}이 존재하는 공간을 특성 공간(feature space) 또는 **표현 공간(representation space)**이라 한다. 가중치 행렬 W^{(l)}는 l-1번째 특성 공간에서 l번째 특성 공간으로의 선형 사상을 정의한다.
z^{(l)} = W^{(l)} h^{(l-1)}
5.2 다층 구조의 합성
L개 층의 순전파에서 비선형성을 무시하면
z = W^{(L)} W^{(L-1)} \cdots W^{(1)} x
이는 단일 선형 변환 W_{\text{eff}} = \prod_{l=L}^{1} W^{(l)}과 동치이다. 비선형 활성화 함수가 삽입됨으로써 각 층의 선형 변환이 독립적 역할을 하게 되며, 이것이 심층 네트워크가 단일 선형 층보다 풍부한 표현력을 갖는 근본적 이유이다.
6. 가중치 행렬의 계수와 표현력
6.1 저계수 가중치 행렬
\text{rank}(W) = r < \min(m, n)이면 W의 실질적 출력 차원은 r로 제한된다. 이러한 저계수 구조는 매개변수 효율적 표현에 활용된다.
W \approx AB (A \in M_{m \times r}, B \in M_{r \times n})로 분해하면 원래 mn개의 매개변수가 (m+n)r개로 감소한다. LoRA(Low-Rank Adaptation)가 이 원리를 활용한 대표적 기법이다.
6.2 가중치 행렬의 스펙트럼 분석
학습된 가중치 행렬의 특이값 분포를 분석하면:
- 급격히 감소하는 특이값: 가중치 행렬의 유효 계수(effective rank)가 낮으며, 저계수 근사가 유효함을 시사한다.
- 균일한 특이값: 모든 방향이 동등하게 활용되며, 정보 전달이 균형 잡혀 있음을 나타낸다.
- 소수의 지배적 특이값: 소수의 방향이 출력을 지배하며, 나머지 방향의 기여가 미미함을 의미한다.
7. 기울기 전파와 가중치 행렬의 관계
역전파에서 기울기는 가중치 행렬의 전치를 통해 전파된다.
\frac{\partial L}{\partial h^{(l-1)}} = (W^{(l)})^T \frac{\partial L}{\partial z^{(l)}}
이 관계에서 (W^{(l)})^T의 특이값이 기울기의 크기 변화를 결정한다. W의 특이값이 \sigma_i이면 W^T의 특이값도 \sigma_i이므로, 순전파와 역전파에서 동일한 스케일링이 발생한다.
\sigma_{\max} \gg 1이면 기울기 폭발(exploding gradient), \sigma_{\max} \ll 1이면 기울기 소실(vanishing gradient)이 발생한다. 이상적으로는 모든 특이값이 1 근방에 있어야 안정적 학습이 가능하다.