27.21 행렬 곱셈의 기하학적 해석: 선형 변환의 합성

27.21 행렬 곱셈의 기하학적 해석: 선형 변환의 합성

1. 선형 변환으로서의 행렬

행렬 \mathbf{A} \in \mathbb{R}^{m \times n}n차원 벡터 공간에서 m차원 벡터 공간으로의 선형 변환(linear transformation) T: \mathbb{R}^n \to \mathbb{R}^m을 표현하는 수학적 도구이다. 임의의 벡터 \mathbf{x} \in \mathbb{R}^n에 대하여 T(\mathbf{x}) = \mathbf{A}\mathbf{x}로 정의할 때, 이 변환은 다음 두 가지 성질을 만족한다.

T(\mathbf{x} + \mathbf{y}) = T(\mathbf{x}) + T(\mathbf{y}), \quad T(c\mathbf{x}) = cT(\mathbf{x})

여기서 \mathbf{x}, \mathbf{y} \in \mathbb{R}^n이고 c \in \mathbb{R}이다. 이 두 조건을 통합하면 T(c_1\mathbf{x} + c_2\mathbf{y}) = c_1 T(\mathbf{x}) + c_2 T(\mathbf{y})가 성립하며, 이것이 선형성(linearity)의 핵심이다.

기하학적으로 행렬 \mathbf{A}에 의한 변환은 공간의 점들을 이동시키되, 원점을 고정하고 직선을 직선으로 보존하며 평행한 직선들의 평행 관계를 유지한다. 즉, 행렬 곱셈 \mathbf{y} = \mathbf{A}\mathbf{x}는 단순한 수치 연산이 아니라, 공간 자체를 회전(rotation), 신축(scaling), 전단(shearing), 반사(reflection) 등의 방식으로 변형하는 기하학적 조작이다.

2 \times 2 행렬의 경우를 통해 이를 구체적으로 살펴보자. 단위 정사각형의 꼭짓점 (0,0), (1,0), (0,1), (1,1)에 행렬 \mathbf{A}를 적용하면, 변환된 꼭짓점들은 평행사변형을 형성한다. 행렬 \mathbf{A}의 열벡터 \mathbf{a}_1, \mathbf{a}_2는 각각 표준 기저 벡터 \mathbf{e}_1 = (1,0)^\top, \mathbf{e}_2 = (0,1)^\top의 상(image)이므로, 변환된 공간의 새로운 기저 방향을 나타낸다.

\mathbf{A}\mathbf{e}_1 = \mathbf{a}_1, \quad \mathbf{A}\mathbf{e}_2 = \mathbf{a}_2

따라서 행렬의 열벡터를 관찰하면 해당 선형 변환이 공간을 어떻게 변형하는지 직관적으로 파악할 수 있다.

2. 선형 변환의 합성과 행렬 곱셈

두 선형 변환 S: \mathbb{R}^n \to \mathbb{R}^pT: \mathbb{R}^p \to \mathbb{R}^m이 있을 때, 합성 변환 (T \circ S): \mathbb{R}^n \to \mathbb{R}^m(T \circ S)(\mathbf{x}) = T(S(\mathbf{x}))로 정의된다. S를 나타내는 행렬이 \mathbf{B} \in \mathbb{R}^{p \times n}이고 T를 나타내는 행렬이 \mathbf{A} \in \mathbb{R}^{m \times p}이면, 합성 변환은 다음과 같이 행렬 곱으로 표현된다.

(T \circ S)(\mathbf{x}) = T(S(\mathbf{x})) = \mathbf{A}(\mathbf{B}\mathbf{x}) = (\mathbf{A}\mathbf{B})\mathbf{x}

행렬 곱 \mathbf{C} = \mathbf{A}\mathbf{B}가 합성 변환 T \circ S를 나타내는 행렬이 된다. 이것이 행렬 곱셈의 기하학적 본질이다. 행렬 곱셈은 두 선형 변환을 순차적으로 적용하는 것과 동치이며, 곱셈의 결과 행렬은 합성된 단일 변환을 나타낸다.

이로부터 행렬 곱셈의 결합법칙(associativity)이 자연스럽게 도출된다. 세 선형 변환 R, S, T의 합성에서 (T \circ S) \circ R = T \circ (S \circ R)가 성립하므로,

(\mathbf{A}\mathbf{B})\mathbf{C} = \mathbf{A}(\mathbf{B}\mathbf{C})

가 항상 성립한다. 반면, 교환법칙이 일반적으로 성립하지 않는 이유도 기하학적으로 명확해진다. “먼저 회전한 후 전단하는 것“과 “먼저 전단한 후 회전하는 것“은 서로 다른 기하학적 결과를 산출하기 때문이다.

3. 기본 선형 변환의 행렬 표현

\mathbb{R}^2에서의 기본적인 기하학적 변환들은 다음과 같은 행렬로 표현된다.

회전 변환(Rotation): 원점을 중심으로 각도 \theta만큼 반시계 방향으로 회전하는 변환은 다음 행렬로 나타낸다.

\mathbf{R}(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}

이 행렬은 직교 행렬(orthogonal matrix)로서 \mathbf{R}(\theta)^\top \mathbf{R}(\theta) = \mathbf{I}를 만족하며, 벡터의 길이와 벡터 간 각도를 보존한다. 행렬식 \det(\mathbf{R}(\theta)) = 1이므로 면적도 보존된다.

신축 변환(Scaling): 각 축 방향으로 독립적인 배율을 적용하는 변환이다.

\mathbf{S}(s_1, s_2) = \begin{pmatrix} s_1 & 0 \\ 0 & s_2 \end{pmatrix}

s_1 = s_2이면 등방적(isotropic) 신축, s_1 \neq s_2이면 이방적(anisotropic) 신축이 된다. 행렬식 \det(\mathbf{S}) = s_1 s_2는 면적의 변화 비율을 나타낸다.

전단 변환(Shearing): x축 방향 전단은 다음 행렬로 표현된다.

\mathbf{H}(k) = \begin{pmatrix} 1 & k \\ 0 & 1 \end{pmatrix}

이 변환은 y 좌표에 비례하여 x 좌표를 이동시킨다. 행렬식이 1이므로 면적은 보존되지만 형태는 변형된다.

반사 변환(Reflection): x축에 대한 반사는 다음과 같다.

\mathbf{F}_x = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}

행렬식 \det(\mathbf{F}_x) = -1은 변환이 공간의 방향(orientation)을 뒤집는다는 것을 의미한다.

4. 합성의 순서와 변환 결과의 차이

행렬 곱셈의 비교환성은 합성 순서에 따라 기하학적 결과가 달라지는 데에서 비롯된다. 예를 들어, \theta = \pi/2 회전 행렬 \mathbf{R}x축 방향 신축 행렬 \mathbf{S}를 합성하는 경우를 생각하자.

\mathbf{R} = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}, \quad \mathbf{S} = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}

먼저 신축 후 회전을 적용하면,

\mathbf{R}\mathbf{S} = \begin{pmatrix} 0 & -1 \\ 2 & 0 \end{pmatrix}

이 경우 x축 방향으로 늘린 후 회전하여 y축 방향으로 긴 형태가 된다. 반대로 먼저 회전 후 신축을 적용하면,

\mathbf{S}\mathbf{R} = \begin{pmatrix} 0 & -2 \\ 1 & 0 \end{pmatrix}

회전 후 x축 방향으로 늘리므로 다른 형태가 산출된다. 이처럼 \mathbf{R}\mathbf{S} \neq \mathbf{S}\mathbf{R}이며, 이는 기하학적 변환의 순서가 결과에 본질적으로 영향을 미친다는 사실을 보여준다.

5. 딥러닝에서의 선형 변환 합성

딥러닝의 신경망에서 각 계층은 선형 변환과 비선형 활성화 함수의 조합으로 구성된다. 편향(bias)을 무시하면, L개의 선형 계층을 통과하는 과정은 다음과 같이 표현된다.

\mathbf{h}_1 = \sigma(\mathbf{W}_1 \mathbf{x}), \quad \mathbf{h}_2 = \sigma(\mathbf{W}_2 \mathbf{h}_1), \quad \ldots, \quad \mathbf{y} = \sigma(\mathbf{W}_L \mathbf{h}_{L-1})

여기서 \mathbf{W}_\ell\ell번째 계층의 가중치 행렬이고, \sigma(\cdot)는 비선형 활성화 함수이다. 만약 활성화 함수가 없다면, 전체 네트워크는 단일 행렬 곱 \mathbf{W}_L \mathbf{W}_{L-1} \cdots \mathbf{W}_1 \mathbf{x}로 축약되어 하나의 선형 변환과 동등해진다. 이것이 비선형 활성화 함수가 필수적인 이유이다. 비선형성이 삽입됨으로써 각 계층의 선형 변환이 합성되어 축약되는 것을 방지하고, 네트워크가 복잡한 비선형 함수를 근사할 수 있게 된다.

역전파(backpropagation) 과정에서 기울기의 전파는 야코비안 행렬(Jacobian matrix)의 연쇄적 곱셈으로 표현된다. 연쇄 법칙(chain rule)에 의하여,

\frac{\partial \mathcal{L}}{\partial \mathbf{W}_\ell} = \frac{\partial \mathcal{L}}{\partial \mathbf{h}_L} \cdot \frac{\partial \mathbf{h}_L}{\partial \mathbf{h}_{L-1}} \cdots \frac{\partial \mathbf{h}_{\ell+1}}{\partial \mathbf{h}_\ell} \cdot \frac{\partial \mathbf{h}_\ell}{\partial \mathbf{W}_\ell}

이 역시 행렬 곱의 합성이며, 이 곱이 지나치게 커지거나 작아지면 기울기 폭발(gradient explosion) 또는 기울기 소실(gradient vanishing) 문제가 발생한다. 직교 초기화(orthogonal initialization)나 잔차 연결(residual connection)과 같은 기법들은 이러한 행렬 곱 합성의 기하학적 성질을 제어하여 학습 안정성을 확보하는 방법이다.