27.21 행렬 곱셈의 기하학적 해석: 선형 변환의 합성

1. 선형 변환으로서의 행렬

행렬 $\mathbf{A} \in \mathbb{R}^{m \times n}$ 는 $n$ 차원 벡터 공간에서 $m$ 차원 벡터 공간으로의 선형 변환(linear transformation) $T: \mathbb{R}^n \to \mathbb{R}^m$ 을 표현하는 수학적 도구이다. 임의의 벡터 $\mathbf{x} \in \mathbb{R}^n$ 에 대하여 $T(\mathbf{x}) = \mathbf{A}\mathbf{x}$ 로 정의할 때, 이 변환은 다음 두 가지 성질을 만족한다.

$T(\mathbf{x} + \mathbf{y}) = T(\mathbf{x}) + T(\mathbf{y}), \quad T(c\mathbf{x}) = cT(\mathbf{x})$

여기서 $\mathbf{x}, \mathbf{y} \in \mathbb{R}^n$ 이고 $c \in \mathbb{R}$ 이다. 이 두 조건을 통합하면 $T(c_1\mathbf{x} + c_2\mathbf{y}) = c_1 T(\mathbf{x}) + c_2 T(\mathbf{y})$ 가 성립하며, 이것이 선형성(linearity)의 핵심이다.

기하학적으로 행렬 $\mathbf{A}$ 에 의한 변환은 공간의 점들을 이동시키되, 원점을 고정하고 직선을 직선으로 보존하며 평행한 직선들의 평행 관계를 유지한다. 즉, 행렬 곱셈 $\mathbf{y} = \mathbf{A}\mathbf{x}$ 는 단순한 수치 연산이 아니라, 공간 자체를 회전(rotation), 신축(scaling), 전단(shearing), 반사(reflection) 등의 방식으로 변형하는 기하학적 조작이다.

$2 \times 2$ 행렬의 경우를 통해 이를 구체적으로 살펴보자. 단위 정사각형의 꼭짓점 $(0,0)$ , $(1,0)$ , $(0,1)$ , $(1,1)$ 에 행렬 $\mathbf{A}$ 를 적용하면, 변환된 꼭짓점들은 평행사변형을 형성한다. 행렬 $\mathbf{A}$ 의 열벡터 $\mathbf{a}_1, \mathbf{a}_2$ 는 각각 표준 기저 벡터 $\mathbf{e}_1 = (1,0)^\top$ , $\mathbf{e}_2 = (0,1)^\top$ 의 상(image)이므로, 변환된 공간의 새로운 기저 방향을 나타낸다.

$\mathbf{A}\mathbf{e}_1 = \mathbf{a}_1, \quad \mathbf{A}\mathbf{e}_2 = \mathbf{a}_2$

따라서 행렬의 열벡터를 관찰하면 해당 선형 변환이 공간을 어떻게 변형하는지 직관적으로 파악할 수 있다.

2. 선형 변환의 합성과 행렬 곱셈

두 선형 변환 $S: \mathbb{R}^n \to \mathbb{R}^p$ 와 $T: \mathbb{R}^p \to \mathbb{R}^m$ 이 있을 때, 합성 변환 $(T \circ S): \mathbb{R}^n \to \mathbb{R}^m$ 은 $(T \circ S)(\mathbf{x}) = T(S(\mathbf{x}))$ 로 정의된다. $S$ 를 나타내는 행렬이 $\mathbf{B} \in \mathbb{R}^{p \times n}$ 이고 $T$ 를 나타내는 행렬이 $\mathbf{A} \in \mathbb{R}^{m \times p}$ 이면, 합성 변환은 다음과 같이 행렬 곱으로 표현된다.

$(T \circ S)(\mathbf{x}) = T(S(\mathbf{x})) = \mathbf{A}(\mathbf{B}\mathbf{x}) = (\mathbf{A}\mathbf{B})\mathbf{x}$

행렬 곱 $\mathbf{C} = \mathbf{A}\mathbf{B}$ 가 합성 변환 $T \circ S$ 를 나타내는 행렬이 된다. 이것이 행렬 곱셈의 기하학적 본질이다. 행렬 곱셈은 두 선형 변환을 순차적으로 적용하는 것과 동치이며, 곱셈의 결과 행렬은 합성된 단일 변환을 나타낸다.

이로부터 행렬 곱셈의 결합법칙(associativity)이 자연스럽게 도출된다. 세 선형 변환 $R$ , $S$ , $T$ 의 합성에서 $(T \circ S) \circ R = T \circ (S \circ R)$ 가 성립하므로,

$(\mathbf{A}\mathbf{B})\mathbf{C} = \mathbf{A}(\mathbf{B}\mathbf{C})$

가 항상 성립한다. 반면, 교환법칙이 일반적으로 성립하지 않는 이유도 기하학적으로 명확해진다. “먼저 회전한 후 전단하는 것“과 “먼저 전단한 후 회전하는 것“은 서로 다른 기하학적 결과를 산출하기 때문이다.

3. 기본 선형 변환의 행렬 표현

$\mathbb{R}^2$ 에서의 기본적인 기하학적 변환들은 다음과 같은 행렬로 표현된다.

회전 변환(Rotation): 원점을 중심으로 각도 $\theta$ 만큼 반시계 방향으로 회전하는 변환은 다음 행렬로 나타낸다.

$\mathbf{R}(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$

이 행렬은 직교 행렬(orthogonal matrix)로서 $\mathbf{R}(\theta)^\top \mathbf{R}(\theta) = \mathbf{I}$ 를 만족하며, 벡터의 길이와 벡터 간 각도를 보존한다. 행렬식 $\det(\mathbf{R}(\theta)) = 1$ 이므로 면적도 보존된다.

신축 변환(Scaling): 각 축 방향으로 독립적인 배율을 적용하는 변환이다.

$\mathbf{S}(s_1, s_2) = \begin{pmatrix} s_1 & 0 \\ 0 & s_2 \end{pmatrix}$

$s_1 = s_2$ 이면 등방적(isotropic) 신축, $s_1 \neq s_2$ 이면 이방적(anisotropic) 신축이 된다. 행렬식 $\det(\mathbf{S}) = s_1 s_2$ 는 면적의 변화 비율을 나타낸다.

전단 변환(Shearing): $x$ 축 방향 전단은 다음 행렬로 표현된다.

$\mathbf{H}(k) = \begin{pmatrix} 1 & k \\ 0 & 1 \end{pmatrix}$

이 변환은 $y$ 좌표에 비례하여 $x$ 좌표를 이동시킨다. 행렬식이 1이므로 면적은 보존되지만 형태는 변형된다.

반사 변환(Reflection): $x$ 축에 대한 반사는 다음과 같다.

$\mathbf{F}_x = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}$

행렬식 $\det(\mathbf{F}_x) = -1$ 은 변환이 공간의 방향(orientation)을 뒤집는다는 것을 의미한다.

4. 합성의 순서와 변환 결과의 차이

행렬 곱셈의 비교환성은 합성 순서에 따라 기하학적 결과가 달라지는 데에서 비롯된다. 예를 들어, $\theta = \pi/2$ 회전 행렬 $\mathbf{R}$ 과 $x$ 축 방향 신축 행렬 $\mathbf{S}$ 를 합성하는 경우를 생각하자.

$\mathbf{R} = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}, \quad \mathbf{S} = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}$

먼저 신축 후 회전을 적용하면,

$\mathbf{R}\mathbf{S} = \begin{pmatrix} 0 & -1 \\ 2 & 0 \end{pmatrix}$

이 경우 $x$ 축 방향으로 늘린 후 회전하여 $y$ 축 방향으로 긴 형태가 된다. 반대로 먼저 회전 후 신축을 적용하면,

$\mathbf{S}\mathbf{R} = \begin{pmatrix} 0 & -2 \\ 1 & 0 \end{pmatrix}$

회전 후 $x$ 축 방향으로 늘리므로 다른 형태가 산출된다. 이처럼 $\mathbf{R}\mathbf{S} \neq \mathbf{S}\mathbf{R}$ 이며, 이는 기하학적 변환의 순서가 결과에 본질적으로 영향을 미친다는 사실을 보여준다.

5. 딥러닝에서의 선형 변환 합성

딥러닝의 신경망에서 각 계층은 선형 변환과 비선형 활성화 함수의 조합으로 구성된다. 편향(bias)을 무시하면, $L$ 개의 선형 계층을 통과하는 과정은 다음과 같이 표현된다.

$\mathbf{h}_1 = \sigma(\mathbf{W}_1 \mathbf{x}), \quad \mathbf{h}_2 = \sigma(\mathbf{W}_2 \mathbf{h}_1), \quad \ldots, \quad \mathbf{y} = \sigma(\mathbf{W}_L \mathbf{h}_{L-1})$

여기서 $\mathbf{W}_\ell$ 은 $\ell$ 번째 계층의 가중치 행렬이고, $\sigma(\cdot)$ 는 비선형 활성화 함수이다. 만약 활성화 함수가 없다면, 전체 네트워크는 단일 행렬 곱 $\mathbf{W}_L \mathbf{W}_{L-1} \cdots \mathbf{W}_1 \mathbf{x}$ 로 축약되어 하나의 선형 변환과 동등해진다. 이것이 비선형 활성화 함수가 필수적인 이유이다. 비선형성이 삽입됨으로써 각 계층의 선형 변환이 합성되어 축약되는 것을 방지하고, 네트워크가 복잡한 비선형 함수를 근사할 수 있게 된다.

역전파(backpropagation) 과정에서 기울기의 전파는 야코비안 행렬(Jacobian matrix)의 연쇄적 곱셈으로 표현된다. 연쇄 법칙(chain rule)에 의하여,

$\frac{\partial \mathcal{L}}{\partial \mathbf{W}_\ell} = \frac{\partial \mathcal{L}}{\partial \mathbf{h}_L} \cdot \frac{\partial \mathbf{h}_L}{\partial \mathbf{h}_{L-1}} \cdots \frac{\partial \mathbf{h}_{\ell+1}}{\partial \mathbf{h}_\ell} \cdot \frac{\partial \mathbf{h}_\ell}{\partial \mathbf{W}_\ell}$

이 역시 행렬 곱의 합성이며, 이 곱이 지나치게 커지거나 작아지면 기울기 폭발(gradient explosion) 또는 기울기 소실(gradient vanishing) 문제가 발생한다. 직교 초기화(orthogonal initialization)나 잔차 연결(residual connection)과 같은 기법들은 이러한 행렬 곱 합성의 기하학적 성질을 제어하여 학습 안정성을 확보하는 방법이다.