29.12 표준 기저(Standard Basis)에서의 선형 변환 행렬 유도

1. 표준 기저의 정의

$n$ 차원 벡터 공간 $\mathbb{R}^n$ 에서 **표준 기저(standard basis)**란 다음과 같이 정의되는 $n$ 개의 벡터 집합 $\{e_1, e_2, \ldots, e_n\}$ 이다.

$e_1 = \begin{pmatrix} 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \quad e_2 = \begin{pmatrix} 0 \\ 1 \\ \vdots \\ 0 \end{pmatrix}, \quad \ldots, \quad e_n = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 1 \end{pmatrix}$

각 $e_i$ 는 $i$ 번째 성분만 $1$ 이고 나머지 성분은 모두 $0$ 인 벡터이다. 이 집합은 $\mathbb{R}^n$ 의 기저를 이루며, 임의의 벡터 $x = (x_1, x_2, \ldots, x_n)^T \in \mathbb{R}^n$ 는 다음과 같이 유일하게 표현된다.

$x = x_1 e_1 + x_2 e_2 + \cdots + x_n e_n = \sum_{i=1}^{n} x_i e_i$

표준 기저는 정규 직교(orthonormal) 기저이므로 $\langle e_i, e_j \rangle = \delta_{ij}$ 를 만족한다. 여기서 $\delta_{ij}$ 는 크로네커 델타(Kronecker delta)이다.

2. 선형 변환의 행렬 표현과 표준 기저

$T : \mathbb{R}^n \to \mathbb{R}^m$ 이 선형 변환이라 하자. 선형 변환을 행렬로 표현하려면 정의역과 공역 각각에 기저를 지정해야 한다. 표준 기저를 선택하면 행렬 표현의 구성이 가장 직접적인 형태를 취한다.

임의의 벡터 $x \in \mathbb{R}^n$ 에 대하여

$T(x) = T\left(\sum_{j=1}^{n} x_j e_j\right) = \sum_{j=1}^{n} x_j T(e_j)$

가 성립한다. 이는 선형성, 즉 가법성과 동차성으로부터 직접 도출된다. 위 등식은 $T$ 의 작용이 기저 벡터에 대한 상(image) $T(e_1), T(e_2), \ldots, T(e_n)$ 에 의해 완전히 결정됨을 보여준다.

3. 표준 기저에서의 행렬 유도

3.1 열벡터 구성 원리

각 $T(e_j) \in \mathbb{R}^m$ 를 $\mathbb{R}^m$ 의 표준 기저 $\{f_1, f_2, \ldots, f_m\}$ 으로 전개하면

$T(e_j) = a_{1j} f_1 + a_{2j} f_2 + \cdots + a_{mj} f_m = \begin{pmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{pmatrix}$

이다. 여기서 $a_{ij}$ 는 $T(e_j)$ 의 $i$ 번째 성분이다.

$m \times n$ 행렬 $A$ 를 다음과 같이 정의하라.

$A = \begin{pmatrix} \vert & \vert & & \vert \\ T(e_1) & T(e_2) & \cdots & T(e_n) \\ \vert & \vert & & \vert \end{pmatrix} = (a_{ij})_{m \times n}$

즉, 행렬 $A$ 의 $j$ 번째 열은 $T(e_j)$ 의 좌표 벡터이다. 이것이 표준 기저에서의 선형 변환 행렬 유도의 핵심 원리이다.

3.2 행렬-벡터 곱과의 대응 증명

위에서 구성한 행렬 $A$ 에 대하여 $T(x) = Ax$ 가 성립함을 보인다.

$Ax = A\left(\sum_{j=1}^{n} x_j e_j\right) = \sum_{j=1}^{n} x_j (Ae_j)$

행렬 $A$ 와 표준 기저 벡터 $e_j$ 의 곱 $Ae_j$ 는 $A$ 의 $j$ 번째 열을 추출하므로

$Ae_j = T(e_j)$

따라서

$Ax = \sum_{j=1}^{n} x_j T(e_j) = T(x)$

이로써 $T(x) = Ax$ 가 모든 $x \in \mathbb{R}^n$ 에 대하여 성립한다. $\blacksquare$

3.3 행렬의 유일성

표준 기저에서의 행렬 표현은 유일하다. 만약 $T(x) = Bx$ 를 만족하는 $m \times n$ 행렬 $B$ 가 존재한다면, 각 $j = 1, 2, \ldots, n$ 에 대하여

$Be_j = T(e_j) = Ae_j$

이므로 $A$ 와 $B$ 의 모든 열이 동일하다. 따라서 $A = B$ 이다.

4. 구체적 유도 절차

표준 기저에서 선형 변환 $T$ 의 행렬을 구하는 절차를 정리하면 다음과 같다.

각 표준 기저 벡터 $e_j$ ( $j = 1, 2, \ldots, n$ )를 $T$ 에 대입하여 $T(e_j)$ 를 계산한다.
$T(e_j)$ 를 공역의 표준 기저에 대한 좌표 벡터로 표현한다.
$T(e_1), T(e_2), \ldots, T(e_n)$ 을 열벡터로 나란히 배치하여 행렬 $A$ 를 구성한다.

5. 구체적 예시

5.1 예시 1: $\mathbb{R}^2$ 에서 $\mathbb{R}^2$ 로의 회전 변환

원점 중심 각도 $\theta$ 의 반시계 방향 회전 변환 $R_\theta : \mathbb{R}^2 \to \mathbb{R}^2$ 를 고려하라.

$R_\theta(e_1) = R_\theta\begin{pmatrix} 1 \\ 0 \end{pmatrix} = \begin{pmatrix} \cos\theta \\ \sin\theta \end{pmatrix}$

$R_\theta(e_2) = R_\theta\begin{pmatrix} 0 \\ 1 \end{pmatrix} = \begin{pmatrix} -\sin\theta \\ \cos\theta \end{pmatrix}$

따라서 회전 변환의 행렬 표현은

$A = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$

이다.

5.2 예시 2: $\mathbb{R}^3$ 에서 $\mathbb{R}^2$ 로의 사영 변환

$T : \mathbb{R}^3 \to \mathbb{R}^2$ 를 $T(x_1, x_2, x_3) = (x_1, x_3)$ 으로 정의하면

$T(e_1) = \begin{pmatrix} 1 \\ 0 \end{pmatrix}, \quad T(e_2) = \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \quad T(e_3) = \begin{pmatrix} 0 \\ 1 \end{pmatrix}$

이므로 행렬 표현은

$A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

이다.

5.3 예시 3: 미분 연산자의 행렬 표현

다항식 공간 $P_2(\mathbb{R}) = \{a_0 + a_1 t + a_2 t^2 \mid a_0, a_1, a_2 \in \mathbb{R}\}$ 에서 $P_1(\mathbb{R})$ 로의 미분 연산자 $D : P_2(\mathbb{R}) \to P_1(\mathbb{R})$ 를 고려하라. 표준 기저를 $P_2(\mathbb{R})$ 에서는 $\{1, t, t^2\}$ , $P_1(\mathbb{R})$ 에서는 $\{1, t\}$ 로 취하면

$D(1) = 0 = 0 \cdot 1 + 0 \cdot t$

$D(t) = 1 = 1 \cdot 1 + 0 \cdot t$

$D(t^2) = 2t = 0 \cdot 1 + 2 \cdot t$

따라서 미분 연산자의 행렬 표현은

$A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 2 \end{pmatrix}$

이다.

6. 표준 기저 행렬 표현의 성질

표준 기저에서의 행렬 표현은 다음의 중요한 성질을 갖는다.

선형 변환과 행렬의 일대일 대응. $\mathcal{L}(\mathbb{R}^n, \mathbb{R}^m)$ 을 $\mathbb{R}^n$ 에서 $\mathbb{R}^m$ 으로의 모든 선형 변환의 집합, $M_{m \times n}(\mathbb{R})$ 을 모든 $m \times n$ 실수 행렬의 집합이라 하면, 표준 기저에서의 행렬 표현은 다음의 동형 사상(isomorphism)을 정의한다.

$\Phi : \mathcal{L}(\mathbb{R}^n, \mathbb{R}^m) \to M_{m \times n}(\mathbb{R}), \quad T \mapsto A$

이 사상은 다음을 보존한다.

덧셈 보존: $\Phi(T_1 + T_2) = \Phi(T_1) + \Phi(T_2)$
스칼라 곱 보존: $\Phi(cT) = c\Phi(T)$
합성과 행렬 곱의 대응: $S : \mathbb{R}^m \to \mathbb{R}^p$ 가 선형 변환이면 $\Phi(S \circ T) = \Phi(S)\Phi(T)$

행렬 성분의 직접적 의미. 행렬 $A = (a_{ij})$ 의 성분 $a_{ij}$ 는 입력의 $j$ 번째 좌표가 출력의 $i$ 번째 좌표에 기여하는 가중치(weight)이다. 이러한 해석은 딥러닝에서 가중치 행렬의 각 성분이 입력 뉴런에서 출력 뉴런으로의 연결 강도를 나타내는 것과 정확히 대응한다.

7. 표준 기저 행렬 유도의 이론적 의의

표준 기저에서의 행렬 유도는 다음과 같은 이론적 의의를 갖는다.

첫째, 추상적 선형 변환을 구체적 행렬 연산으로 환원함으로써 계산 가능성을 확보한다. 이는 선형대수학이 순수 이론에 머물지 않고 수치적 구현으로 연결되는 핵심 고리이다.

둘째, 표준 기저에서의 행렬이 확정되면, 임의의 다른 기저에서의 행렬 표현은 전이 행렬(transition matrix)을 이용한 유사 변환(similarity transformation)으로 구할 수 있다. 따라서 표준 기저에서의 행렬은 모든 기저에서의 행렬 표현을 생성하는 출발점 역할을 한다.

셋째, 신경망(neural network)의 각 층(layer)에서 수행되는 연산 $y = Wx + b$ 에서 가중치 행렬 $W$ 는 정확히 표준 기저에서의 선형 변환 행렬에 해당한다. 이로써 신경망의 연산을 선형대수학의 틀 안에서 엄밀하게 분석할 수 있다.