28.8 벡터 공간의 텐서곱 공간 구축과 기저 확장

1. 텐서곱 공간의 구축

두 유한 차원 벡터 공간 $V$ 와 $W$ 의 텐서곱 공간 $V \otimes W$ 를 구체적으로 구축하는 절차를 살펴보자. $\dim V = m$ , $\dim W = n$ 이고, 각각의 기저를 $\{\mathbf{e}_1, \ldots, \mathbf{e}_m\}$ , $\{\mathbf{f}_1, \ldots, \mathbf{f}_n\}$ 이라 하자.

형식적 구축: 모든 순서쌍 $(\mathbf{v}, \mathbf{w}) \in V \times W$ 에 대하여 형식적 기호 $\mathbf{v} \otimes \mathbf{w}$ 를 생성한다. 이들이 생성하는 자유 벡터 공간(free vector space)에서 다음 관계를 동치 관계(equivalence relation)로 부과한다.

$\begin{aligned} (\mathbf{v}_1 + \mathbf{v}_2) \otimes \mathbf{w} &\sim \mathbf{v}_1 \otimes \mathbf{w} + \mathbf{v}_2 \otimes \mathbf{w} \\ \mathbf{v} \otimes (\mathbf{w}_1 + \mathbf{w}_2) &\sim \mathbf{v} \otimes \mathbf{w}_1 + \mathbf{v} \otimes \mathbf{w}_2 \\ (c\mathbf{v}) \otimes \mathbf{w} &\sim c(\mathbf{v} \otimes \mathbf{w}) \\ \mathbf{v} \otimes (c\mathbf{w}) &\sim c(\mathbf{v} \otimes \mathbf{w}) \end{aligned}$

자유 벡터 공간을 이 관계로 생성된 부분 공간으로 나눈 몫 공간(quotient space)이 $V \otimes W$ 이다. 이 구축은 텐서곱의 쌍선형성을 보장하며, 보편 성질을 자동으로 만족한다.

좌표 구축: 실용적으로는 $V \otimes W$ 를 $\mathbb{R}^{m \times n}$ 과 동일시한다. $\mathbf{v} = \sum_i v_i \mathbf{e}_i$ 와 $\mathbf{w} = \sum_j w_j \mathbf{f}_j$ 에 대하여,

$\mathbf{v} \otimes \mathbf{w} = \sum_{i=1}^{m}\sum_{j=1}^{n} v_i w_j \; (\mathbf{e}_i \otimes \mathbf{f}_j)$

$(i,j)$ 성분이 $v_i w_j$ 인 $m \times n$ 배열이 된다.

2. 기저의 확장(Extension)

텐서곱 공간의 기저는 각 인자 공간의 기저로부터 체계적으로 구축된다.

두 공간의 텐서곱 기저: $V$ 의 기저 $\{\mathbf{e}_i\}_{i=1}^m$ 과 $W$ 의 기저 $\{\mathbf{f}_j\}_{j=1}^n$ 에 대하여, $V \otimes W$ 의 기저는

$\{\mathbf{e}_i \otimes \mathbf{f}_j \mid 1 \leq i \leq m, \; 1 \leq j \leq n\}$

이다. 이 기저 원소의 수는 $mn$ 개이므로 $\dim(V \otimes W) = mn$ 이다.

이 기저가 실제로 $V \otimes W$ 를 생성하고 선형 독립임을 확인하자. 임의의 $T \in V \otimes W$ 는 정의에 의하여 $\mathbf{v}_k \otimes \mathbf{w}_k$ 들의 유한 합이며, 각 $\mathbf{v}_k$ 와 $\mathbf{w}_k$ 를 기저로 전개하면 $\mathbf{e}_i \otimes \mathbf{f}_j$ 들의 선형 결합으로 표현된다. 선형 독립성은 쌍선형 사상 $V \times W \to \mathbb{R}$ 의 집합과 $V \otimes W$ 의 선형 범함수 집합이 동형이라는 사실로부터 도출된다.

다중 텐서곱 기저: $d$ 개의 벡터 공간 $V_1, \ldots, V_d$ 의 텐서곱 공간 $V_1 \otimes \cdots \otimes V_d$ 의 기저는 다음과 같다.

$\left\{\mathbf{e}_{i_1}^{(1)} \otimes \mathbf{e}_{i_2}^{(2)} \otimes \cdots \otimes \mathbf{e}_{i_d}^{(d)} \;\middle|\; 1 \leq i_k \leq n_k, \; k = 1, \ldots, d\right\}$

기저 원소의 수는 $\prod_{k=1}^{d} n_k$ 이며, 이것이 텐서곱 공간의 차원이다. 기저 원소는 $d$ 개의 인덱스 $(i_1, \ldots, i_d)$ 에 의해 라벨링되며, 이는 $d$ 차 텐서의 원소가 $d$ 개의 인덱스로 참조되는 것과 정확히 대응한다.

3. 기저 변환과 텐서 성분의 변환

각 인자 공간에서 기저를 변경하면 텐서의 성분도 변환된다. $V$ 에서 기저 변환 $\mathbf{e}_i' = \sum_k P_{ki}\mathbf{e}_k$ (즉 $\mathbf{e}' = \mathbf{P}\mathbf{e}$ )을 적용하면, $V$ 에서 벡터의 좌표는 $v_i' = \sum_k (P^{-1})_{ik}v_k$ 로 변환된다.

$V \otimes W$ 의 원소 $T = \sum_{ij} T_{ij}\;\mathbf{e}_i \otimes \mathbf{f}_j$ 에서, $V$ 의 기저를 $\mathbf{P}$ 로, $W$ 의 기저를 $\mathbf{Q}$ 로 변환하면, 새 기저에서의 성분은 다음과 같다.

$T'_{ij} = \sum_{k,l} (P^{-1})_{ik}(Q^{-1})_{jl} T_{kl}$

행렬 표기로 $\mathbf{T}' = \mathbf{P}^{-1}\mathbf{T}\mathbf{Q}^{-\top}$ 이다. 이는 2차 텐서(행렬)의 기저 변환 법칙이다.

$d$ 차 텐서의 경우, 각 모드의 기저 변환 $\mathbf{P}_k$ ( $k = 1, \ldots, d$ )에 대하여 성분의 변환은 다음과 같다.

$\mathcal{T}'_{i_1 \cdots i_d} = \sum_{j_1, \ldots, j_d} (P_1^{-1})_{i_1 j_1} \cdots (P_d^{-1})_{i_d j_d} \mathcal{T}_{j_1 \cdots j_d}$

이 변환 법칙은 텐서가 좌표계에 무관한 기하학적 대상이라는 본질을 반영한다. 성분은 기저에 따라 변하지만, 텐서 자체는 불변이다.

4. 텐서곱 공간의 성질

텐서곱 공간은 다음과 같은 대수적 성질을 가진다.

결합성: $(U \otimes V) \otimes W \cong U \otimes (V \otimes W)$ . 자연스러운 동형 사상 $(\mathbf{u} \otimes \mathbf{v}) \otimes \mathbf{w} \mapsto \mathbf{u} \otimes (\mathbf{v} \otimes \mathbf{w})$ 에 의한다.

교환성: $V \otimes W \cong W \otimes V$ . 자연스러운 동형 사상 $\mathbf{v} \otimes \mathbf{w} \mapsto \mathbf{w} \otimes \mathbf{v}$ 에 의한다. 성분 수준에서 이는 행렬의 전치에 해당한다.

분배성: $U \otimes (V \oplus W) \cong (U \otimes V) \oplus (U \otimes W)$ . 여기서 $\oplus$ 는 직합(direct sum)이다. 차원으로 확인하면 $\dim U \cdot (\dim V + \dim W) = \dim U \cdot \dim V + \dim U \cdot \dim W$ 이다.

스칼라와의 텐서곱: $\mathbb{R} \otimes V \cong V$ . 스칼라와의 텐서곱은 원래 공간을 복구한다.

쌍대 공간과의 관계: $V^* \otimes W \cong \text{Hom}(V, W)$ . $V$ 의 쌍대 공간과 $W$ 의 텐서곱은 $V$ 에서 $W$ 로의 선형 사상 공간과 동형이다. 차원으로 확인하면 $m \cdot n = mn$ 이며, 이는 $m \times n$ 행렬이 $\mathbb{R}^m$ 에서 $\mathbb{R}^n$ 으로의 선형 사상을 나타내는 것과 일치한다.

5. 딥러닝에서의 텐서곱 공간

딥러닝에서 텐서곱 공간의 개념은 모델의 표현력과 연산 구조를 이해하는 데 도움을 준다.

임베딩 공간의 확장: 단어 임베딩 $\mathbf{e}_w \in \mathbb{R}^d$ 와 위치 임베딩 $\mathbf{p}_t \in \mathbb{R}^d$ 를 결합하는 방법으로 덧셈( $\mathbf{e}_w + \mathbf{p}_t$ )과 텐서곱( $\mathbf{e}_w \otimes \mathbf{p}_t \in \mathbb{R}^{d \times d}$ )이 있다. 덧셈은 같은 공간 내에서의 결합이고, 텐서곱은 곱 공간으로의 확장이다. 텐서곱은 두 정보의 모든 상호작용을 포착하나 차원이 $d^2$ 으로 증가하므로, 실용적으로는 덧셈이나 접합(concatenation)이 더 자주 사용된다.

다중 헤드 어텐션의 기저 구조: 다중 헤드 어텐션에서 각 헤드가 서로 다른 부분 공간에서 독립적으로 어텐션을 수행하는 것은, 전체 표현 공간을 여러 부분 공간의 직합 $\mathbb{R}^{d_{\text{model}}} \cong \mathbb{R}^{d_k} \oplus \cdots \oplus \mathbb{R}^{d_k}$ 으로 분해하는 것으로 이해할 수 있다.

텐서 분해의 수학적 기반: CP 분해 $\mathcal{T} \approx \sum_{r=1}^{R} \mathbf{a}_r^{(1)} \otimes \cdots \otimes \mathbf{a}_r^{(d)}$ 에서 각 항은 텐서곱 공간의 분해 가능 원소이다. 분해 가능 원소들의 합으로 일반 텐서를 근사하는 것이 텐서 분해의 기본 원리이며, 이는 텐서곱 공간의 구조에 의존한다. 분해 가능 원소의 집합(세그레 다양체, Segre variety)은 텐서곱 공간의 대수적 다양체를 이루며, 텐서 분해의 이론적 분석은 대수기하학의 도구를 필요로 한다.