29.19 선형 변환의 합성(Composition)과 행렬 곱셈의 대응

29.19 선형 변환의 합성(Composition)과 행렬 곱셈의 대응

1. 선형 변환의 합성 정의

U, V, W를 체 \mathbb{F} 위의 벡터 공간이라 하고, T : U \to V, S : V \to W를 선형 변환이라 하자. TS합성(composition) S \circ T : U \to W는 다음과 같이 정의된다.

(S \circ T)(x) = S(T(x)), \quad \forall x \in U

합성의 정의역은 T의 정의역 U이고, 공역은 S의 공역 W이다.

2. 합성의 선형성 보존

정리. T : U \to VS : V \to W가 선형 변환이면 S \circ T : U \to W도 선형 변환이다.

증명. 임의의 x, y \in U\alpha \in \mathbb{F}에 대하여

가법성:

(S \circ T)(x + y) = S(T(x + y)) = S(T(x) + T(y)) = S(T(x)) + S(T(y)) = (S \circ T)(x) + (S \circ T)(y)

동차성:

(S \circ T)(\alpha x) = S(T(\alpha x)) = S(\alpha T(x)) = \alpha S(T(x)) = \alpha (S \circ T)(x)

첫 번째 등식에서 T의 가법성/동차성을, 두 번째 등식에서 S의 가법성/동차성을 각각 사용하였다. \blacksquare

3. 행렬 곱셈과의 대응

3.1 기본 대응 정리

정리. T : \mathbb{R}^n \to \mathbb{R}^m의 행렬 표현이 A \in M_{m \times n}(\mathbb{R})이고, S : \mathbb{R}^m \to \mathbb{R}^p의 행렬 표현이 B \in M_{p \times m}(\mathbb{R})이면, 합성 S \circ T : \mathbb{R}^n \to \mathbb{R}^p의 행렬 표현은 BA \in M_{p \times n}(\mathbb{R})이다.

[S \circ T] = [S][T] = BA

증명. 임의의 x \in \mathbb{R}^n에 대하여

(S \circ T)(x) = S(T(x)) = S(Ax) = B(Ax) = (BA)x

결합법칙 (BA)x = B(Ax)에 의해 S \circ T의 행렬 표현은 BA이다. \blacksquare

이 정리는 행렬 곱셈이 선형 변환의 합성을 인코딩하기 위해 정의된 연산임을 보여준다. 행렬 곱셈의 정의가 행과 열의 내적으로 주어지는 것은 자의적 규약이 아니라 합성의 구조로부터 필연적으로 도출되는 결과이다.

3.2 차원 정합 조건

합성 S \circ T가 정의되려면 T의 공역과 S의 정의역이 일치해야 한다. 행렬의 관점에서, Am \times n 행렬이고 Bp \times m 행렬일 때 곱 BA가 정의되며, 결과는 p \times n 행렬이다.

\underset{p \times m}{B} \cdot \underset{m \times n}{A} = \underset{p \times n}{BA}

A의 열 수(n)와 B의 행 수가 아닌, **A의 행 수(m)와 B의 열 수(m)**가 일치해야 곱셈이 정의된다. 이는 합성의 정의역/공역 정합 조건의 행렬적 표현이다.

4. 합성 및 행렬 곱셈의 대수적 성질

4.1 결합법칙(Associativity)

T : U \to V, S : V \to W, R : W \to X가 선형 변환이면

R \circ (S \circ T) = (R \circ S) \circ T

행렬의 관점에서 이는 (CB)A = C(BA), 즉 행렬 곱셈의 결합법칙에 대응한다.

증명. 임의의 x \in U에 대하여

(R \circ (S \circ T))(x) = R((S \circ T)(x)) = R(S(T(x)))

((R \circ S) \circ T)(x) = (R \circ S)(T(x)) = R(S(T(x)))

두 결과가 동일하다. \blacksquare

4.2 분배법칙(Distributivity)

선형 변환의 합성은 덧셈에 대하여 좌분배법칙과 우분배법칙을 만족한다.

S \circ (T_1 + T_2) = S \circ T_1 + S \circ T_2

(S_1 + S_2) \circ T = S_1 \circ T + S_2 \circ T

행렬의 관점에서 이는 B(A_1 + A_2) = BA_1 + BA_2(B_1 + B_2)A = B_1 A + B_2 A에 대응한다.

4.3 비교환성(Non-commutativity)

일반적으로 S \circ T \neq T \circ S이다. 이는 행렬 곱셈의 비교환성 AB \neq BA에 대응한다. 특히 TS의 정의역과 공역의 차원이 다르면 T \circ S는 정의조차 되지 않을 수 있다.

구체적 예시. \mathbb{R}^2에서 \mathbb{R}^2로의 두 선형 변환을 고려하라.

A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}, \quad B = \begin{pmatrix} 1 & 0 \\ 1 & 1 \end{pmatrix}

AB = \begin{pmatrix} 2 & 1 \\ 1 & 1 \end{pmatrix}, \quad BA = \begin{pmatrix} 1 & 1 \\ 1 & 2 \end{pmatrix}

AB \neq BA이므로 합성의 순서가 결과에 영향을 미친다.

4.4 항등 변환과 항등 행렬

항등 변환 \text{id}_V : V \to V, \text{id}_V(x) = x는 합성에 대한 항등원(identity element)이다.

T \circ \text{id}_U = T, \quad \text{id}_V \circ T = T

행렬의 관점에서 AI_n = A, I_m A = A에 대응한다.

5. 일반 기저에서의 합성과 행렬 곱

표준 기저가 아닌 일반 기저에서도 합성과 행렬 곱의 대응이 성립한다. U, V, W에 각각 기저 \mathcal{B}_1, \mathcal{B}_2, \mathcal{B}_3가 주어졌을 때

[S \circ T]_{\mathcal{B}_3}^{\mathcal{B}_1} = [S]_{\mathcal{B}_3}^{\mathcal{B}_2} \cdot [T]_{\mathcal{B}_2}^{\mathcal{B}_1}

여기서 [T]_{\mathcal{B}_2}^{\mathcal{B}_1}은 정의역에서 기저 \mathcal{B}_1, 공역에서 기저 \mathcal{B}_2를 사용한 T의 행렬 표현이다.

증명. 임의의 x \in U에 대하여

[(S \circ T)(x)]_{\mathcal{B}_3} = [S(T(x))]_{\mathcal{B}_3} = [S]_{\mathcal{B}_3}^{\mathcal{B}_2} [T(x)]_{\mathcal{B}_2} = [S]_{\mathcal{B}_3}^{\mathcal{B}_2} [T]_{\mathcal{B}_2}^{\mathcal{B}_1} [x]_{\mathcal{B}_1}

\blacksquare

이 결과에서 핵심적인 점은 중간 기저가 일치해야 한다는 것이다. T의 공역 기저와 S의 정의역 기저가 모두 \mathcal{B}_2로 동일해야 행렬 곱이 합성을 올바르게 표현한다.

6. 자기 합성과 행렬의 거듭제곱

T : V \to V가 자기사상(endomorphism)이면 T의 반복 합성이 가능하다.

T^k = \underbrace{T \circ T \circ \cdots \circ T}_{k \text{회}}

행렬 표현에서 이는 A^k에 대응한다. T^0 = \text{id}_V, A^0 = I_n으로 정의한다.

이 대응에 의하여 행렬의 다항식 p(A) = c_k A^k + \cdots + c_1 A + c_0 I는 선형 변환의 다항식 p(T) = c_k T^k + \cdots + c_1 T + c_0 \text{id}_V에 대응한다.

7. 딥러닝 신경망과의 대응

다층 신경망(multi-layer neural network)에서 비선형 활성화 함수를 제거하면, L개 층의 순전파(forward propagation)는 선형 변환의 합성으로 표현된다.

y = W_L W_{L-1} \cdots W_2 W_1 x

행렬 곱셈과 합성의 대응에 의하여, 이는 단일 선형 변환 W = W_L W_{L-1} \cdots W_1과 동치이다. 이 관찰은 비선형 활성화 함수 없이는 여러 층을 쌓더라도 표현력이 단일 선형 층과 동일함을 수학적으로 증명한다.

구체적으로, 각 W_in \times n 행렬이면 합성 W = \prod_{i=L}^{1} W_i 또한 n \times n 행렬이다. 이는 선형 변환의 합성이 다시 선형 변환이라는 정리의 직접적 귀결이며, 딥러닝에서 비선형성의 필요성을 설명하는 수학적 근거이다.

8. 합성의 핵과 상에 대한 관계

T : U \to V, S : V \to W의 합성 S \circ T : U \to W에 대하여 다음이 성립한다.

핵의 포함 관계:

\ker(T) \subseteq \ker(S \circ T)

이는 T(x) = 0이면 (S \circ T)(x) = S(0) = 0이기 때문이다.

상의 포함 관계:

\text{Im}(S \circ T) \subseteq \text{Im}(S)

이는 (S \circ T)(x) = S(T(x)) \in \text{Im}(S)이기 때문이다.

계수에 대한 부등식:

\text{rank}(S \circ T) \leq \min(\text{rank}(S), \text{rank}(T))

이 부등식은 합성을 통해 정보가 소실될 수 있음을 나타내며, 신경망에서 병목층(bottleneck layer)의 차원이 전체 네트워크의 표현 능력을 제한하는 원리와 직접적으로 대응한다.