28.10 혼합 텐서(Mixed Tensor)의 정의와 좌표 변환 규칙

1. 혼합 텐서의 정의

혼합 텐서(mixed tensor)는 반변(contravariant) 인덱스와 공변(covariant) 인덱스를 동시에 가지는 텐서이다. (p,q)형 혼합 텐서는 p개의 반변 인덱스(위 인덱스)와 q개의 공변 인덱스(아래 인덱스)를 가지며, 다음과 같이 표기한다.

T^{i_1 \cdots i_p}{}_{j_1 \cdots j_q}

순수 반변 텐서(q = 0)와 순수 공변 텐서(p = 0)는 혼합 텐서의 특수한 경우이다.

(p,q)형 텐서는 수학적으로 다음과 같은 다중선형 사상이다.

T: \underbrace{V^* \times \cdots \times V^*}_{p} \times \underbrace{V \times \cdots \times V}_{q} \to \mathbb{R}

p개의 공변 벡터(쌍대 벡터)와 q개의 반변 벡터를 입력으로 받아 스칼라를 출력하며, 모든 인수에 대해 선형이다.

(p,q)형 텐서 공간의 차원은 n^{p+q}이다 (n = \dim V). 전체 차수는 p + q이며, 같은 전체 차수를 가지더라도 (p,q)의 조합에 따라 서로 다른 텐서 공간에 속한다. 예를 들어, (2,0)형, (1,1)형, (0,2)형은 모두 전체 차수 2이지만 서로 다른 변환 법칙을 가진다.

2. 혼합 텐서의 좌표 변환 규칙

기저 변환 행렬 \mathbf{P} (구 기저에서 신 기저로의 변환)에 대하여, (p,q)형 혼합 텐서의 성분은 다음과 같이 변환된다.

T'^{i_1 \cdots i_p}{}_{j_1 \cdots j_q} = \sum_{k_1, \ldots, k_p, l_1, \ldots, l_q} (P^{-1})^{i_1}{}_{k_1} \cdots (P^{-1})^{i_p}{}_{k_p} \; P^{l_1}{}_{j_1} \cdots P^{l_q}{}_{j_q} \; T^{k_1 \cdots k_p}{}_{l_1 \cdots l_q}

핵심 규칙을 정리하면 다음과 같다.

  • 반변 인덱스(위 인덱스)에는 \mathbf{P}^{-1}이 적용된다.
  • 공변 인덱스(아래 인덱스)에는 \mathbf{P}가 적용된다.
  • 각 인덱스는 독립적으로 변환된다.

3. (1,1)형 텐서: 선형 사상

(1,1)형 텐서 T^i{}_j는 가장 중요한 혼합 텐서로서, 선형 사상(linear map)을 나타낸다. 벡터 \mathbf{v} = v^j\mathbf{e}_j에 대하여 변환된 벡터의 i번째 성분은 다음과 같다.

w^i = T^i{}_j v^j = \sum_j T^i{}_j v^j

(1,1)형 텐서의 좌표 변환은 다음과 같다.

T'^i{}_j = \sum_{k,l} (P^{-1})^i{}_k \; P^l{}_j \; T^k{}_l

행렬 표기로 \mathbf{T}' = \mathbf{P}^{-1}\mathbf{T}\mathbf{P}이다. 이것이 바로 닮음 변환(similarity transformation)이다. 선형 사상의 행렬 표현이 기저 변환에 따라 닮음 변환으로 바뀐다는 선형대수학의 기본 결과가, 텐서 변환 법칙의 특수한 경우로 자연스럽게 도출된다.

(1,1)형 텐서의 중요한 성질은 트레이스(trace)가 좌표 변환에 불변이라는 것이다.

T'^i{}_i = \sum_i T'^i{}_i = \sum_{i,k,l}(P^{-1})^i{}_k P^l{}_i T^k{}_l = \sum_{k,l}\delta^l{}_k T^k{}_l = \sum_k T^k{}_k = T^i{}_i

(P^{-1})^i{}_k P^l{}_i = \delta^l_k를 사용하였다. 이는 트레이스가 기저에 무관한 불변량(invariant)임을 의미하며, 행렬의 트레이스가 닮음 변환에 불변인 것과 일치한다.

4. 크로네커 델타와 메트릭 텐서

크로네커 델타 \delta^i{}_j는 가장 기본적인 (1,1)형 혼합 텐서이다.

\delta^i{}_j = \begin{cases} 1 & \text{if } i = j \\ 0 & \text{if } i \neq j \end{cases}

이것이 텐서인지 확인하려면 변환 법칙을 적용하면 된다.

\delta'^i{}_j = (P^{-1})^i{}_k P^l{}_j \delta^k{}_l = (P^{-1})^i{}_k P^k{}_j = \delta^i{}_j

크로네커 델타의 성분은 기저 변환에 대해 불변이다. 이는 항등 사상(identity map)이 좌표계에 무관하게 정의되는 것과 일치한다.

메트릭 텐서 g_{ij}(0,2)형 공변 텐서이고, 역 메트릭 텐서 g^{ij}(2,0)형 반변 텐서이다. 이들의 곱은 크로네커 델타가 된다.

\sum_k g^{ik}g_{kj} = \delta^i{}_j

이는 메트릭 텐서와 역 메트릭 텐서가 인덱스 올림과 내림에서 서로 역연산 관계임을 나타낸다.

5. 인덱스 올림과 내림

메트릭 텐서를 사용하여 혼합 텐서의 인덱스 위치를 변경할 수 있다.

인덱스 내림: (1,1)형 텐서 T^i{}_j에서 반변 인덱스 i를 내리면 (0,2)형 텐서를 얻는다.

T_{kj} = \sum_i g_{ki}T^i{}_j

인덱스 올림: (0,2)형 텐서 T_{ij}에서 공변 인덱스 j를 올리면 (1,1)형 텐서를 얻는다.

T^k{}_i = \sum_j g^{kj}T_{ji}

유클리드 공간에서 g_{ij} = \delta_{ij}이므로 인덱스 올림과 내림은 성분을 변화시키지 않는다. 이 경우 (p,q)형 텐서의 구분이 실질적으로 불필요해지며, 이것이 딥러닝에서 공변/반변 구분이 생략되는 이유이다.

6. 혼합 텐서의 축약

혼합 텐서에서 하나의 반변 인덱스와 하나의 공변 인덱스를 동일 인덱스로 설정하고 합산하면 축약(contraction)이 이루어진다. (p,q)형 텐서를 축약하면 (p-1, q-1)형 텐서를 얻는다.

S^{i_1 \cdots i_{p-1}}{}_{j_1 \cdots j_{q-1}} = \sum_k T^{i_1 \cdots i_{p-1} k}{}_{j_1 \cdots j_{q-1} k}

축약은 좌표 변환에 대해 올바르게 정의된 연산이다. 즉, 축약의 결과는 좌표계에 무관하다. 이는 (P^{-1})^k{}_a P^b{}_k = \delta^b_a에 의하여, 축약되는 한 쌍의 인덱스에 대한 변환 행렬이 상쇄되기 때문이다.

(1,1)형 텐서의 축약은 트레이스이다. T^i{}_i = \text{tr}(\mathbf{T}). 이것이 트레이스가 불변량인 이유의 텐서적 설명이다.

행렬 곱셈 C^i{}_k = A^i{}_j B^j{}_k는 두 (1,1)형 텐서의 축약이다. 반복되는 인덱스 j가 하나는 위(반변)이고 하나는 아래(공변)이므로, 올바른 텐서 축약이며 결과도 좌표 변환에 대해 올바르게 변환된다.

7. 딥러닝에서의 혼합 텐서

딥러닝의 표준적 유클리드 공간에서는 공변과 반변의 구분이 형식적으로 중요하지 않으나, 이론적 분석에서는 유용한 관점을 제공한다.

야코비안 행렬: 함수 \mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m의 야코비안 J^i{}_j = \frac{\partial f^i}{\partial x^j}(1,1)형 혼합 텐서이다. 출력 인덱스 i는 반변이고 입력 인덱스 j는 공변이다. 이는 야코비안이 두 공간 사이의 선형 근사(linear approximation)를 나타내기 때문이다.

역전파에서의 텐서 구조: 연쇄 법칙 \frac{\partial \mathcal{L}}{\partial x^j} = \sum_i \frac{\partial \mathcal{L}}{\partial y^i} \frac{\partial y^i}{\partial x^j}에서, \frac{\partial \mathcal{L}}{\partial y^i}는 공변 벡터(아래 인덱스)이고 야코비안 \frac{\partial y^i}{\partial x^j}(1,1)형 텐서이다. 축약의 결과 \frac{\partial \mathcal{L}}{\partial x^j}는 공변 벡터이다. 이 텐서적 해석은 역전파가 좌표계에 무관한 올바른 연산임을 보장한다.

어텐션 메커니즘의 텐서적 분석: 어텐션 가중치 \alpha_{ij} = \text{softmax}(\mathbf{q}_i^\top\mathbf{k}_j / \sqrt{d_k})에서, 인덱스 i는 쿼리 위치, j는 키 위치이다. 어텐션 출력 \mathbf{o}_i = \sum_j \alpha_{ij}\mathbf{v}_j는 축약 연산이다. 시퀀스의 좌표계(토큰 순서)가 변경되어도 어텐션의 의미가 보존되려면, 어텐션 가중치가 올바른 변환 법칙을 따라야 하며, 이는 위치 인코딩(positional encoding)의 설계와 관련된다.

리만 기하학적 최적화: 매개변수 공간이 리만 다양체인 경우, 리만 기울기(Riemannian gradient)는 메트릭 텐서를 통해 공변 기울기를 반변 벡터로 올려서 얻는다. \text{grad}\,f = g^{ij}\frac{\partial f}{\partial \theta^j}\mathbf{e}_i이다. 이 과정에서 혼합 텐서와 메트릭 텐서의 상호작용이 핵심적이며, Bonnabel (2013)의 “Stochastic Gradient Descent on Riemannian Manifolds“에서 이 관점이 확률적 경사 하강법에 적용되었다.