29.1 선형 변환(Linear Transformation)의 형식적 정의
1. 정의의 출발점
선형 변환은 두 벡터 공간 사이에서 정의되는 함수 가운데, 벡터 공간 구조를 보존하는 가장 기본적이고 핵심적인 사상이다. 형식적으로 동일한 체(Field) \mathbb{F} 위에서 정의된 두 벡터 공간 V와 W를 생각하자. 함수 T : V \to W가 다음 두 조건을 모두 만족할 때, T를 V에서 W로의 선형 변환(Linear Transformation) 또는 선형 사상(Linear Map)이라 부른다.
1.1 가법성(Additivity)
임의의 \mathbf{u}, \mathbf{v} \in V에 대하여 다음 등식이 성립한다.
T(\mathbf{u} + \mathbf{v}) = T(\mathbf{u}) + T(\mathbf{v})
1.2 동차성(Homogeneity)
임의의 스칼라 c \in \mathbb{F}와 임의의 \mathbf{v} \in V에 대하여 다음 등식이 성립한다.
T(c \, \mathbf{v}) = c \, T(\mathbf{v})
이 두 성질은 흔히 합쳐서 다음 한 줄의 등식으로 기술되기도 한다.
T(c_1 \mathbf{u} + c_2 \mathbf{v}) = c_1 T(\mathbf{u}) + c_2 T(\mathbf{v}), \quad \forall \mathbf{u}, \mathbf{v} \in V, \ \forall c_1, c_2 \in \mathbb{F}
이러한 결합된 형식은 T가 임의의 선형결합(Linear Combination)을 보존한다는 사실을 가장 간결하게 표현한다.
2. 정의의 직접적 귀결
2.1 영벡터의 보존
선형 변환의 정의로부터 영벡터가 영벡터로 사상된다는 사실이 즉시 따라 나온다. \mathbf{0}_V \in V를 정의역의 영벡터라 할 때, 동차성을 c = 0에 적용하면 다음을 얻는다.
T(\mathbf{0}_V) = T(0 \cdot \mathbf{0}_V) = 0 \cdot T(\mathbf{0}_V) = \mathbf{0}_W
여기서 \mathbf{0}_W는 공역의 영벡터이다. 따라서 선형 변환은 항상 정의역의 영점을 공역의 영점으로 보낸다. 이 사실은 단순해 보이지만, 영점을 영점으로 보내지 않는 사상(예: 평행 이동을 포함한 일반적 아핀 사상)은 선형 변환이 아닐 수 있음을 즉각적으로 식별하는 데 사용된다.
2.2 선형결합의 일반화된 보존
가법성과 동차성을 반복적으로 적용하면, 임의의 유한 선형결합에 대해서도 다음이 성립한다.
T\left( \sum_{i=1}^{n} c_i \, \mathbf{v}_i \right) = \sum_{i=1}^{n} c_i \, T(\mathbf{v}_i), \quad \forall \mathbf{v}_i \in V, \ \forall c_i \in \mathbb{F}
이 성질은 선형 변환이 정의역에서 표현되는 모든 선형 구조를 공역으로 그대로 옮긴다는 사실을 보여 준다. 이로부터 즉시 따라 나오는 결론은, 선형 변환이 정의역의 한 기저 위에서의 값에 의해 완전히 결정된다는 사실이다. 즉, 정의역의 기저 \{\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n\} 위에서 T(\mathbf{e}_i)가 모두 정해지면, 임의의 정의역 벡터 \mathbf{v} = \sum_i c_i \mathbf{e}_i에 대한 T(\mathbf{v})의 값은 위 식에 의해 유일하게 결정된다.
3. 비선형 사상과의 구별
선형 변환의 두 조건을 만족하지 못하는 사상을 비선형 사상(Nonlinear Map)이라 한다. 가장 흔한 사례는 다음과 같다. 첫째, 평행 이동 T(\mathbf{v}) = \mathbf{v} + \mathbf{b}는 \mathbf{b} \neq \mathbf{0}이면 영벡터를 보존하지 않으므로 선형 변환이 아니다. 이러한 사상을 포함하기 위하여 도입되는 일반화된 개념이 아핀 사상(Affine Map)이며, 이는 어떤 선형 변환에 평행 이동을 더한 형태로 정의된다. 둘째, 제곱 사상 T(x) = x^2이나 절댓값 사상 T(x) = \vert x \vert는 동차성을 만족하지 못하므로 선형 변환이 아니다. 셋째, 활성 함수로 사용되는 시그모이드, 하이퍼볼릭 탄젠트, 정류 선형 함수(ReLU) 등은 모두 비선형이며, 정확히 그 비선형성으로 인해 신경망이 단순한 선형 모형을 넘어서 복잡한 함수를 표현할 수 있다.
4. 행렬에 의한 표현과의 관계
유한차원 벡터 공간 V = \mathbb{F}^n, W = \mathbb{F}^m 사이의 선형 변환은 항상 어떤 행렬 A \in \mathbb{F}^{m \times n}에 의해 다음의 형태로 표현될 수 있다.
T(\mathbf{v}) = A \, \mathbf{v}, \quad \forall \mathbf{v} \in \mathbb{F}^{n}
즉, 행렬-벡터 곱셈은 그 자체로 가법성과 동차성을 만족하므로 항상 선형 변환을 정의하며, 역으로 임의의 선형 변환은 정의역과 공역의 표준 기저에 대한 행렬 표현으로 환원된다. 이 일대일 대응 관계는 추상적 선형대수학과 구체적 행렬 계산 사이의 다리를 제공하며, 후속 절에서 보다 일반적인 기저에 대한 표현으로 확장된다.
5. 일반적 함수 공간에서의 사례
선형 변환의 정의는 유한차원에 국한되지 않으며, 무한차원 함수 공간에서도 그대로 성립한다. 대표적인 예시로 미분 연산자 D : f \mapsto f'는 충분히 매끄러운 함수들의 공간 위에서 정의된 선형 변환이다. 임의의 두 매끄러운 함수 f, g와 임의의 스칼라 c_1, c_2에 대하여,
D(c_1 f + c_2 g) = c_1 f' + c_2 g' = c_1 D(f) + c_2 D(g)
가 성립하기 때문이다. 마찬가지로 적분 연산자 I : f \mapsto \int_{a}^{b} f(x) \, dx도 함수 공간에서 실수 공간으로 가는 선형 변환이며, 푸리에 변환과 라플라스 변환 또한 적절히 정의된 함수 공간 위에서 선형 변환의 한 사례이다. 이러한 무한차원 사례는 선형 변환의 개념이 단순히 행렬 곱셈을 추상화한 것이 아니라, 벡터 공간 구조 그 자체에 본질적으로 결부되어 있음을 보여 준다.
6. 신경망 계층과의 관계
딥러닝의 맥락에서 가장 직접적인 사례는 완전 결합 계층의 가중치 부분이다. 입력 벡터 \mathbf{x} \in \mathbb{R}^{n}에 가중치 행렬 W \in \mathbb{R}^{m \times n}을 곱하여 출력 W\mathbf{x} \in \mathbb{R}^{m}을 산출하는 부분은 그 자체로 선형 변환이며, 가법성과 동차성의 두 조건을 정의에 의해 자동으로 만족한다. 여기에 편향 벡터 \mathbf{b}를 더한 W\mathbf{x} + \mathbf{b}는 더 이상 선형 변환이 아니라 아핀 변환이며, 그 위에 비선형 활성 함수가 적용됨으로써 비로소 신경망 계층 전체는 비선형 함수가 된다. 이러한 분해는 신경망의 표현력을 분석할 때 가장 기초가 되는 시각이며, 본 절에서 정립한 선형 변환의 형식적 정의는 그러한 분해를 엄밀하게 지탱하는 토대를 제공한다.