29.37 신경망 층(Layer)에서의 기저 변환과 표현 학습의 기하학적 원리

1. 표현 학습의 기본 관점

딥러닝에서 **표현 학습(representation learning)**이란 원시 입력 데이터를 후속 과제(분류, 회귀 등)에 적합한 특성 표현(feature representation)으로 자동 변환하는 과정이다. 신경망의 각 층은 입력 데이터의 좌표 표현을 변환하며, 이 과정은 선형대수학의 기저 변환(change of basis)으로 해석할 수 있다.

2. 기저 변환으로서의 신경망 층

2.1 선형 층의 기저 변환 해석

가중치 행렬 $W \in M_{m \times n}(\mathbb{R})$ 에 의한 선형 변환 $z = Wx$ 를 기저 변환의 관점에서 분석하라. $W$ 의 특이값 분해 $W = U\Sigma V^T$ 에서:

$V$ 의 열벡터 $\{v_1, \ldots, v_n\}$ 은 입력 공간 $\mathbb{R}^n$ 의 정규 직교 기저를 구성한다. 이 기저는 $W$ 에 의한 변환에서 “주요 입력 방향“이다.
$U$ 의 열벡터 $\{u_1, \ldots, u_m\}$ 은 출력 공간 $\mathbb{R}^m$ 의 정규 직교 기저를 구성한다. 이 기저는 “주요 출력 방향“이다.
$\Sigma$ 의 대각 성분 $\sigma_i$ 는 각 방향의 중요도(스케일링 인수)이다.

따라서 $W$ 에 의한 변환은 입력을 기저 $\{v_i\}$ 에서 기저 $\{u_i\}$ 로 변환하면서 각 축을 $\sigma_i$ 만큼 스케일링하는 것이다.

2.2 비선형 활성화의 역할

순수 선형 기저 변환은 데이터의 선형 구조만 포착할 수 있다. 비선형 활성화 함수 $\sigma$ (ReLU, sigmoid 등)는 기저 변환 후의 좌표에 비선형 왜곡을 가하여 선형적으로 분리 불가능한 구조를 선형 분리 가능하게 변형한다.

$h = \sigma(Wx + b)$

이 과정에서 $Wx + b$ 는 아핀 기저 변환(좌표계 변환 + 평행이동)이고, $\sigma$ 는 좌표별 비선형 변형이다.

3. 층별 표현 변환의 기하학

3.1 매니폴드 가설(Manifold Hypothesis)

고차원 입력 데이터(예: 이미지)는 입력 공간의 저차원 매니폴드(manifold) 위에 집중되어 있다고 가정한다. 신경망의 각 층은 이 매니폴드를 점진적으로 “펴서(unfolding)” 출력 공간에서 선형 분리 가능한 형태로 만든다.

기하학적으로, 각 층의 작용은 다음과 같이 이해할 수 있다.

초기 층: 입력 공간의 국소적 특성(edge, texture 등)을 탐지하는 기저 벡터를 학습한다. 이는 입력 데이터 매니폴드의 접선 공간(tangent space)에서의 좌표계를 설정하는 것에 해당한다.

중간 층: 국소 특성을 조합하여 더 추상적인 특성을 구성한다. 기저 변환의 관점에서, 이전 층의 기저 벡터들의 비선형 조합으로 새로운 기저를 형성하는 것이다.

최종 층: 과제에 직접 유용한 표현을 생성한다. 분류 문제에서는 각 클래스를 분리하는 방향이 기저 벡터로 학습된다.

4. 학습된 표현의 기하학적 구조

4.1 선형 프로빙(Linear Probing)

학습된 표현의 품질을 평가하는 표준적 방법은 특성 벡터 $h^{(l)}$ 위에 선형 분류기 $y = Wh + b$ 를 학습시키는 것이다. 선형 분류기의 성능이 높다는 것은 해당 층의 특성 공간에서 데이터가 선형 분리 가능하다는 것을 의미하며, 이는 층 $l$ 까지의 변환이 데이터의 기하학적 구조를 효과적으로 “펴 놓았음“을 나타낸다.

4.2 클래스 중심의 분리

분류 과제에서 학습이 진행됨에 따라, 동일 클래스에 속하는 데이터 점들의 특성 벡터가 공간의 특정 영역에 군집(clustering)하고, 서로 다른 클래스 간의 거리가 증가한다. 이 과정은 기저 변환의 관점에서 “클래스를 구분하는 방향을 주축으로 하는 좌표계“를 학습하는 것이다.

5. 공분산 구조의 변환

입력 데이터의 공분산 행렬이 $C_x = \mathbb{E}[xx^T]$ 이면, 선형 층 $z = Wx$ 이후의 공분산은

$C_z = W C_x W^T$

이다. 이는 기저 변환에 의한 이차 형식의 변환에 해당한다. 가중치 행렬 $W$ 는 입력의 공분산 구조를 출력의 공분산 구조로 변환하며, 이상적으로는 출력의 공분산이 과제에 유용한 구조를 갖도록 학습된다.

배치 정규화(batch normalization)는 각 층의 출력 공분산을 단위 행렬에 가깝게 유지하여, 이후 층의 학습이 입력 분포의 변동에 민감하지 않게 만든다. 이는 기하학적으로 특성 공간의 좌표축을 정규 직교화하는 것에 해당한다.

6. 잔차 연결(Residual Connection)의 기저 변환 해석

잔차 블록 $h^{(l+1)} = h^{(l)} + f(h^{(l)})$ 에서 변환 $f$ 는 항등 변환으로부터의 “잔차“를 학습한다. 기저 변환의 관점에서, 이는 현재 좌표계에서 미세한 조정(perturbation)만을 학습하는 것이다.

$h^{(l+1)} = (I + J_f) h^{(l)} + \text{higher order}$

여기서 $J_f$ 는 $f$ 의 야코비안이다. $I + J_f$ 는 항등 변환에 가까운 변환이므로, 각 잔차 블록은 좌표계의 점진적 회전/변형을 수행한다. 이 구조가 심층 네트워크에서 기울기 전파를 안정화하는 핵심 원리이다.

7. 어텐션 메커니즘의 기저 변환 해석

트랜스포머(Transformer)의 자기 어텐션(self-attention)에서 쿼리, 키, 값 행렬 $W_Q$ , $W_K$ , $W_V$ 는 입력 표현을 서로 다른 부분 공간으로 사영하는 선형 변환이다.

어텐션 가중치 $\alpha_{ij} = \text{softmax}\left(\frac{(W_Q x_i)^T (W_K x_j)}{\sqrt{d_k}}\right)$ 는 $W_Q$ 와 $W_K$ 가 정의하는 부분 공간에서의 유사도를 측정하며, 이에 기반한 값 벡터의 가중 합산은 입력에 적응적인(adaptive) 기저 변환을 구현한다. 고정된 기저 변환과 달리, 어텐션 기반 변환은 입력 데이터에 의존하는 동적 기저를 사용한다.