29.36 딥러닝 가중치 행렬의 선형 변환 해석과 특성 공간 매핑

1. 신경망 층의 선형 변환 구조

신경망의 각 완전 연결 층(fully connected layer)은 다음의 아핀 변환과 비선형 활성화의 합성으로 구성된다.

$h = \sigma(Wx + b)$

여기서 $W \in M_{m \times n}(\mathbb{R})$ 는 가중치 행렬, $b \in \mathbb{R}^m$ 는 편향 벡터, $\sigma$ 는 비선형 활성화 함수이다. 비선형성을 제외하면 핵심 연산은 가중치 행렬 $W$ 에 의한 선형 변환 $x \mapsto Wx$ 이다.

이 선형 변환은 입력 벡터 $x \in \mathbb{R}^n$ 을 출력 공간 $\mathbb{R}^m$ 으로 사상하며, $W$ 의 대수적/기하학적 성질이 해당 층의 연산 특성을 완전히 결정한다.

2. 가중치 행렬의 열과 행의 해석

2.1 열벡터의 해석

$W$ 의 $j$ 번째 열 $w_{\cdot j}$ 는 입력의 $j$ 번째 성분 $x_j$ 에 대한 가중치 벡터이다. 출력 $Wx$ 는

$Wx = x_1 w_{\cdot 1} + x_2 w_{\cdot 2} + \cdots + x_n w_{\cdot n}$

로 표현되며, 이는 입력 좌표에 의한 열벡터의 일차결합이다. 따라서 출력은 $W$ 의 열 공간(column space) $\text{Col}(W)$ 내에 존재한다.

2.2 행벡터의 해석

$W$ 의 $i$ 번째 행 $w_{i \cdot}^T$ 는 출력의 $i$ 번째 성분을 결정하는 **특성 탐지기(feature detector)**에 해당한다.

$(Wx)_i = w_{i \cdot}^T x = \langle w_{i \cdot}, x \rangle$

이는 입력 $x$ 와 행 벡터 $w_{i \cdot}$ 사이의 내적이다. 내적의 값은 두 벡터의 정렬(alignment) 정도를 측정하므로, $W$ 의 각 행은 입력 공간에서 특정 방향의 패턴을 탐지하는 선형 필터로 해석된다.

3. 차원 변환과 정보의 압축/확장

3.1 차원 축소 ( $m < n$ )

$W \in M_{m \times n}$ ( $m < n$ )에 의한 변환은 $n$ 차원 입력을 $m$ 차원 출력으로 사상한다. 이는 정보의 **압축(compression)**에 해당한다.

차원 정리에 의하여 $\dim(\ker(W)) = n - \text{rank}(W) \geq n - m > 0$ 이므로, 반드시 정보 손실이 발생한다. 서로 다른 입력 벡터들이 동일한 출력으로 사상될 수 있다.

3.2 차원 확장 ( $m > n$ )

$W \in M_{m \times n}$ ( $m > n$ )에 의한 변환은 입력을 더 높은 차원의 공간으로 매립(embedding)한다. 출력은 $m$ 차원 공간의 $\text{rank}(W)$ 차원 부분 공간에 제한된다.

이러한 차원 확장은 저차원에서 선형 분리 불가능한 데이터를 고차원에서 분리 가능하게 만드는 역할을 한다. 이는 커버 정리(Cover’s theorem)와 관련된 원리이다.

3.3 차원 보존 ( $m = n$ )

정방 행렬의 경우, $W$ 가 가역이면 전단사 변환으로서 정보를 보존한다. $W$ 가 비가역이면 차원 축소가 발생한다.

4. 특이값 분해에 의한 가중치 행렬 분석

$W = U\Sigma V^T$ 로 분해하면, 가중치 행렬에 의한 변환은 다음의 세 단계로 해석된다.

단계 1: $V^T$ - 입력 공간의 회전. 입력을 $W$ 의 우특이벡터(right singular vector) 방향으로 정렬한다. 우특이벡터는 입력 공간에서의 “주요 입력 방향“에 해당한다.

단계 2: $\Sigma$ - 선택적 스케일링. 각 방향을 특이값 $\sigma_i$ 에 비례하여 스케일링한다. $\sigma_i$ 가 큰 방향은 증폭되고 작은 방향은 감쇠된다. $\sigma_i = 0$ 인 방향은 완전히 소거된다.

단계 3: $U$ - 출력 공간의 회전. 스케일링된 결과를 좌특이벡터(left singular vector) 방향으로 배치한다. 좌특이벡터는 출력 공간에서의 “주요 출력 방향“에 해당한다.

이 분해는 가중치 행렬이 “어떤 입력 패턴을 감지하여 어떤 출력 패턴으로 변환하는가“를 명확히 보여준다.

5. 특성 공간 매핑의 기하학

5.1 입력 특성 공간에서 출력 특성 공간으로의 매핑

신경망의 층 $l$ 에서의 활성화 벡터 $h^{(l)}$ 이 존재하는 공간을 특성 공간(feature space) 또는 **표현 공간(representation space)**이라 한다. 가중치 행렬 $W^{(l)}$ 는 $l-1$ 번째 특성 공간에서 $l$ 번째 특성 공간으로의 선형 사상을 정의한다.

$z^{(l)} = W^{(l)} h^{(l-1)}$

5.2 다층 구조의 합성

$L$ 개 층의 순전파에서 비선형성을 무시하면

$z = W^{(L)} W^{(L-1)} \cdots W^{(1)} x$

이는 단일 선형 변환 $W_{\text{eff}} = \prod_{l=L}^{1} W^{(l)}$ 과 동치이다. 비선형 활성화 함수가 삽입됨으로써 각 층의 선형 변환이 독립적 역할을 하게 되며, 이것이 심층 네트워크가 단일 선형 층보다 풍부한 표현력을 갖는 근본적 이유이다.

6. 가중치 행렬의 계수와 표현력

6.1 저계수 가중치 행렬

$\text{rank}(W) = r < \min(m, n)$ 이면 $W$ 의 실질적 출력 차원은 $r$ 로 제한된다. 이러한 저계수 구조는 매개변수 효율적 표현에 활용된다.

$W \approx AB$ ( $A \in M_{m \times r}$ , $B \in M_{r \times n}$ )로 분해하면 원래 $mn$ 개의 매개변수가 $(m+n)r$ 개로 감소한다. LoRA(Low-Rank Adaptation)가 이 원리를 활용한 대표적 기법이다.

6.2 가중치 행렬의 스펙트럼 분석

학습된 가중치 행렬의 특이값 분포를 분석하면:

급격히 감소하는 특이값: 가중치 행렬의 유효 계수(effective rank)가 낮으며, 저계수 근사가 유효함을 시사한다.
균일한 특이값: 모든 방향이 동등하게 활용되며, 정보 전달이 균형 잡혀 있음을 나타낸다.
소수의 지배적 특이값: 소수의 방향이 출력을 지배하며, 나머지 방향의 기여가 미미함을 의미한다.

7. 기울기 전파와 가중치 행렬의 관계

역전파에서 기울기는 가중치 행렬의 전치를 통해 전파된다.

$\frac{\partial L}{\partial h^{(l-1)}} = (W^{(l)})^T \frac{\partial L}{\partial z^{(l)}}$

이 관계에서 $(W^{(l)})^T$ 의 특이값이 기울기의 크기 변화를 결정한다. $W$ 의 특이값이 $\sigma_i$ 이면 $W^T$ 의 특이값도 $\sigma_i$ 이므로, 순전파와 역전파에서 동일한 스케일링이 발생한다.

$\sigma_{\max} \gg 1$ 이면 기울기 폭발(exploding gradient), $\sigma_{\max} \ll 1$ 이면 기울기 소실(vanishing gradient)이 발생한다. 이상적으로는 모든 특이값이 $1$ 근방에 있어야 안정적 학습이 가능하다.