Chapter 29. 선형 변환(Linear Transformation)과 기저(Basis)의 매핑
1. 장(章)의 위상
선형 변환과 기저의 매핑에 관한 이론은 선형대수학의 핵심을 이루는 두 축이며, 동시에 딥러닝의 거의 모든 계층 연산이 의지하고 있는 수학적 토대이다. 신경망의 한 계층은 본질적으로 입력 벡터 공간을 출력 벡터 공간으로 매핑하는 함수이며, 가장 단순하면서도 가장 빈번하게 등장하는 형태인 완전 결합 계층(Fully Connected Layer)은 정확히 두 유한차원 벡터 공간 사이의 선형 변환에 편향(Bias) 항을 더한 아핀 변환(Affine Transformation)이다. 마찬가지로 합성곱 계층은 평행 이동에 등변(Equivariant)인 특수한 선형 변환이며, 어텐션의 질의·키·값 변환 또한 학습 가능한 행렬에 의해 정의되는 선형 변환이다. 이러한 의미에서 이 장은 단순히 추상적인 대수적 결과를 정리하는 데 그치지 않고, 신경망의 모든 계층이 어떤 수학적 대상으로 환원되는지를 명료하게 드러내는 역할을 한다.
2. 다루는 주제의 개요
이 장에서는 먼저 두 벡터 공간 V와 W 사이에서 정의되는 선형 변환의 형식적 정의를 다루고, 그 핵심 성질인 가법성(Additivity)과 동차성(Homogeneity)을 분석한다. 이어서 임의의 선형 변환이 정의역의 기저와 공역의 기저가 한 번 고정되면 행렬에 의해 유일하게 표현됨을 보이며, 이를 통해 추상적 변환과 구체적 행렬 사이의 일대일 대응 관계를 확립한다. 또한 기저의 변경이 동일한 선형 변환의 행렬 표현을 어떻게 변화시키는지를 다루는 기저 변환 행렬과 그 결과로 유도되는 닮음(Similarity) 관계를 다룬다.
이와 더불어 선형 변환의 핵(Kernel) 또는 영공간(Null Space)과 상(Image) 또는 치역(Range)이 각각 정의역과 공역에서 부분 공간을 이룬다는 사실, 그리고 차원 정리(Rank-Nullity Theorem)가 이 두 부분 공간의 차원을 어떻게 연결하는지를 분석한다. 또한 단사(Injective), 전사(Surjective), 동형(Isomorphism)과 같은 특수한 형태의 선형 변환을 분류하며, 이들 분류가 신경망 계층의 표현력 분석에서 어떤 의미를 가지는지를 다룬다.
3. 딥러닝과의 연결
선형 변환과 기저의 매핑이라는 이론적 틀은 딥러닝의 거의 모든 분석에서 핵심적 역할을 수행한다. 신경망의 가중치 행렬은 그 자체로 선형 변환의 표준 기저에 대한 행렬 표현이며, 가중치 행렬의 계수(Rank)는 그 계층이 표현할 수 있는 선형 부분 공간의 차원을 결정한다. 가중치 행렬을 저랭크(Low-Rank) 행렬로 근사하거나 분해하는 LoRA(Low-Rank Adaptation)와 같은 기법은, 선형 변환을 더 작은 차원의 보조 공간을 거쳐 두 단계로 분해하는 절차에 다름 아니다. 또한 임베딩 행렬은 이산적인 토큰 공간을 연속적인 벡터 공간의 한 기저 위로 매핑하는 사상으로 해석될 수 있으며, 이는 곧 기저 매핑의 한 사례이다.
이러한 관점에서 이 장의 내용은 후속 장에서 다루게 될 고유값 분해, 특이값 분해, 차원 축소, 야코비안 분석, 헤시안 분석 등의 도구를 이해하기 위한 가장 기초적인 어휘를 제공한다. 즉, 어떠한 행렬도 그 자체로는 단지 수의 배열이지만, 일단 두 벡터 공간 사이의 선형 변환으로 해석되면 그 위에 정의되는 모든 분해와 분석이 의미를 획득한다. 이 장은 그러한 해석의 출발점을 엄밀하게 마련하는 데 목적을 둔다.