다변량 시계열 예측 교차 차원 의존성 활용 트랜스포머 (Crossformer, 2023-01-20)

2025-12-13, G30DR

1. 서론 (Introduction)

1.1 연구 배경: 시계열 예측의 패러다임 전환

현대 데이터 사이언스와 인공지능 분야에서 시계열 예측(Time Series Forecasting)은 가장 도전적이면서도 실용적인 가치가 높은 연구 주제 중 하나다. 전력망의 부하 예측, 교통 흐름 제어, 금융 시장의 변동성 분석, 그리고 기상 관측에 이르기까지, 시계열 데이터는 우리 사회의 기반 인프라를 운영하는 데 필수적인 정보를 제공한다. 과거 ARIMA(Autoregressive Integrated Moving Average)나 VAR(Vector Autoregression)와 같은 통계적 방법론이 주류를 이루던 시기를 지나, 순환 신경망(RNN, LSTM, GRU)이 딥러닝 기반 예측의 가능성을 열었고, 현재는 자연어 처리(NLP) 분야를 석권한 트랜스포머(Transformer) 아키텍처가 시계열 분야로 이식되어 새로운 표준으로 자리 잡고 있다.1

그러나 NLP에서의 성공을 시계열 분야로 그대로 가져오는 과정에는 근본적인 난관이 존재한다. 언어 데이터는 이산적(discrete)인 토큰으로 구성된 반면, 시계열 데이터는 연속적(continuous)인 수치 데이터이며, 단어 간의 문법적 관계와는 다른 시간적 인과성과 주기성(Periodicity), 그리고 추세(Trend)를 내포하고 있다. 특히 다변량 시계열(Multivariate Time Series, MTS) 예측에서는 두 가지 핵심적인 의존성, 즉 시간의 흐름에 따른 ’시간적 의존성(Cross-Time Dependency)’과 서로 다른 변수들 간의 상호작용인 ’차원 간 의존성(Cross-Dimension Dependency)’을 동시에 포착해야 하는 이중적 과제가 주어진다.1

1.2 문제 제기: 기존 트랜스포머 모델의 한계

Informer, Autoformer, FEDformer와 같은 초기 시계열 트랜스포머 모델들은 주로 시간적 의존성을 효율적으로 계산하는 데 집중했다. 이들은 긴 시퀀스 길이( $L$ )에 따른 계산 복잡도를 $O(L^2)$ 에서 $O(L \log L)$ 또는 $O(L)$ 로 줄이기 위해 희소 어텐션(Sparse Attention)이나 주파수 도메인 변환 등을 도입했다.1 그러나 이 과정에서 다변량 데이터의 차원적 특성은 상대적으로 소홀히 다루어졌다.

대부분의 기존 모델은 특정 시점 $t$ 의 모든 변수 값 $x_t \in \mathbb{R}^D$ 를 하나의 벡터로 임베딩하여 모델에 입력한다. 이는 변수 간의 고유한 개별성을 희석시키고, 모델이 변수 간의 구체적인 인과관계를 학습하는 것을 방해한다. 즉, ’시간 $t$ 에서의 전력 소비량’과 ’시간 $t$ 에서의 기온’이 하나의 벡터 안에서 섞여버려, 기온이 전력 소비에 미치는 영향을 명시적으로 분리해내기 어려워지는 것이다. 이러한 방식은 다변량 예측 문제를 사실상 단변량(Univariate) 처리 방식의 확장으로 격하시키는 결과를 초래했다.1

1.3 Crossformer의 등장과 연구 목적

이러한 배경 속에서 2023년 ICLR에서 발표된 Crossformer는 다변량 시계열 예측의 본질인 ’차원 간 의존성’을 명시적으로 모델링하기 위해 제안된 혁신적인 아키텍처다. Crossformer는 기존 모델들이 간과했던 변수 간의 상호작용을 포착하기 위해 DSW(Dimension-Segment-Wise) 임베딩과 TSA(Two-Stage Attention) 메커니즘을 도입했다. 또한, 계산 복잡도의 폭발적인 증가를 막기 위해 **라우터 메커니즘(Router Mechanism)**을 고안하여 효율성을 확보했다.1

본 보고서는 Crossformer의 아키텍처 원리, 수학적 배경, 구현 세부 사항을 남김없이 파헤치고, 이를 경쟁 모델인 PatchTST, iTransformer 등과 비교 분석하여 그 기술적 가치와 한계를 규명한다. 특히 최근 학계의 뜨거운 논쟁 주제인 채널 독립성(Channel Independence, CI) 대 채널 의존성(Channel Dependence, CD) 전략의 관점에서 Crossformer가 가지는 의의를 심층적으로 논의한다.

2. 이론적 배경 및 선행 연구 분석 (Theoretical Background & Related Works)

2.1 시계열 예측 모델의 진화와 한계

시계열 예측의 역사는 데이터의 복잡성을 어떻게 효율적으로 모델링할 것인가에 대한 투쟁의 역사다.

통계적 모델 및 RNN 기반 모델:

ARIMA와 같은 통계적 모델은 데이터의 정상성(Stationarity)을 가정하며, 비선형적인 패턴을 포착하는 데 한계가 있다. LSTNet 1과 같은 RNN 기반 모델은 CNN을 사용하여 지역적 특징을, RNN을 사용하여 장기 의존성을 포착하려 했으나, 기울기 소실 문제로 인해 매우 긴 시퀀스(Long Sequence)를 다루는 데 어려움을 겪었다.

트랜스포머 기반 모델의 등장:

Vaswani et al.(2017)의 트랜스포머는 어텐션 메커니즘을 통해 장기 의존성 문제를 해결했다. 그러나 시계열 데이터에 이를 직접 적용할 때 발생하는 2차 복잡도 문제( $O(L^2)$ )와 위치 정보의 손실 문제는 새로운 해결책을 요구했다.

Informer (AAAI 2021): ProbSparse Attention을 통해 중요한 쿼리(Query)만을 선별하여 계산 효율성을 높였다.
Autoformer (NeurIPS 2021): 시계열 분해(Decomposition) 블록을 내장하여 추세와 계절성을 분리하고, Auto-Correlation 메커니즘을 도입했다.
FEDformer (ICML 2022): 푸리에 변환 및 웨이블릿 변환을 통해 주파수 도메인에서 희소한 특징을 학습했다.

이러한 모델들은 모두 ’시간 축’의 효율성에 집중했다는 공통점이 있다. 입력 데이터 $X \in \mathbb{R}^{T \times D}$ 는 일반적으로 $T$ 개의 $d_{model}$ 차원 벡터로 변환되어 처리되는데, 이 과정에서 차원 축 $D$ 의 정보는 잠재 공간(Latent Space)에 뭉뚱그려진다.

2.2 채널 독립성(CI) vs. 채널 의존성(CD) 논쟁

최근 시계열 예측 연구의 가장 큰 화두는 다변량 데이터를 처리하는 방식에 관한 것이다.

채널 독립성 (Channel Independence, CI):

PatchTST 7와 DLinear 9로 대표되는 전략이다. 다변량 데이터를 $D$ 개의 단변량 시계열로 간주하고, 하나의 공유된 모델(Shared Backbone)을 사용하여 각각 예측한 뒤 결과를 합친다.

장점: 데이터 부족 문제 완화, 과적합 방지, 분포 이동(Distribution Shift)에 대한 강건성 확보.
단점: 변수 간의 명시적인 상호작용을 모델링하지 않음.
채널 의존성 (Channel Dependence, CD):

Crossformer, iTransformer 10, TimeMixer 등이 채택한 전략이다. 변수 간의 상관관계를 모델의 핵심 정보로 활용한다.

장점: 변수 간 인과관계나 물리적 법칙이 중요한 시스템(예: 열역학 시스템, 교통 흐름)에서 이론적으로 더 우수한 성능 기대 가능.
단점: 변수의 수( $D$ )가 늘어날수록 계산 복잡도가 급증( $O(D^2)$ )하며, 노이즈가 많은 변수 간의 관계를 학습할 경우 성능 저하(Negative Transfer) 발생 가능.

Crossformer는 CD 전략을 취하면서도, 기존 CD 모델들이 겪었던 계산 복잡도 문제와 차원 정보 소실 문제를 해결하고자 등장했다. Crossformer의 저자들은 “기존 트랜스포머가 CD를 제대로 활용하지 못한 것이지, CD 자체가 무용지물인 것은 아니다“라고 주장한다.1

3. Crossformer 아키텍처 심층 분석 (Methodology: Architecture Deep Dive)

Crossformer의 아키텍처는 다변량 시계열 데이터를 2차원 배열(시간 $\times$ 차원)로 보존하며 처리하도록 설계되었다. 핵심 구성 요소는 DSW 임베딩, TSA 레이어, 그리고 **계층적 인코더-디코더(HED)**이다.1

3.1 Dimension-Segment-Wise (DSW) 임베딩

3.1.1 개념 및 필요성

기존 트랜스포머는 시점 $t$ 의 모든 변수 값 $x_t$ 를 하나의 벡터 $h_t$ 로 변환한다:
$h_t = \text{Linear}(x_t) + \text{PosEmb}_t$
이 방식은 차원 정보를 혼합하여 이후 단계에서 특정 변수 간 관계를 파악하기 어렵게 만든다. 또한 단일 시점의 값은 노이즈에 취약하고 정보량이 부족하다.

DSW 임베딩은 각 차원(변수)별로 시계열을 독립적으로 취급하되, 이를 일정 길이( $L_{seg}$ )의 세그먼트로 나누어 임베딩한다. 이는 NLP의 토큰화나 비전 트랜스포머(ViT)의 패치(Patch)와 유사하지만, 차원 축을 보존한다는 점에서 결정적인 차이가 있다.3

3.1.2 수식적 정의

입력 데이터 $X \in \mathbb{R}^{T \times D}$ 에 대하여:

세그먼트 분할: 각 차원 $d$ ( $1 \le d \le D$ )에 대해, 길이 $L_{seg}$ 인 세그먼트로 분할한다. 총 세그먼트 수는 $L = T / L_{seg}$ 가 된다.
$x_{i,d}^{(s)} = \{x_{t,d} \mid (i-1)L_{seg} < t \le iL_{seg}\}$
여기서 $i$ 는 세그먼트 인덱스( $1 \le i \le L$ )이다.
임베딩 및 위치 인코딩: 각 세그먼트는 $d_{model}$ 차원으로 선형 투영(Linear Projection)되고, 여기에 세그먼트 위치와 차원 위치를 나타내는 포지션 임베딩이 더해진다.
$h_{i,d} = E \cdot x_{i,d}^{(s)} + E_{i,d}^{(pos)}$

$E \in \mathbb{R}^{d_{model} \times L_{seg}}$ : 학습 가능한 투영 행렬.
$E_{i,d}^{(pos)}$ : 시간 순서 $i$ 와 차원 종류 $d$ 를 모두 반영하는 위치 임베딩 벡터.

결과적으로 입력 데이터는 $H \in \mathbb{R}^{L \times D \times d_{model}}$ 형태의 3차원 텐서(배치 제외)로 변환된다. 이는 시간 축과 차원 축이 분리된 2차원 그리드 구조를 형성한다.1

비교 항목	기존 트랜스포머 임베딩	DSW 임베딩 (Crossformer)	Patching (PatchTST)
입력 단위	단일 시점의 모든 변수 벡터	각 변수의 시간 세그먼트	각 변수의 시간 패치
차원 처리	혼합 (Mixed)	보존 (Preserved)	독립 (Independent, Channel-Indep)
출력 형태	1D Sequence ( $T \times d_{model}$ )	2D Grid ( $L \times D \times d_{model}$ )	3D ( $D \times N_{patch} \times d_{model}$ )

3.2 Two-Stage Attention (TSA) 레이어

Crossformer의 핵심 엔진인 TSA 레이어는 2차원 배열 구조( $L \times D$ )를 처리하기 위해 시간 축과 차원 축을 분리하여 순차적으로 어텐션을 수행한다.

3.2.1 Cross-Time Stage (시간 교차 단계)

이 단계의 목적은 각 변수 내에서 시간적 흐름과 의존성을 파악하는 것이다. 모든 차원 $d$ 에 대해 독립적으로, 시간 축 $L$ 을 따라 Multi-Head Self-Attention (MSA)을 수행한다.
$Z_{:,d}^{time} = \text{LayerNorm}(Z_{:,d} + \text{MSA}_{time}(Z_{:,d}, Z_{:,d}, Z_{:,d}))$

$Z_{:,d}^{time} = \text{LayerNorm}(Z_{:,d}^{time} + \text{MLP}(Z_{:,d}^{time}))$

복잡도: 각 차원마다 $O(L^2)$ 의 연산이 필요하므로, 전체 복잡도는 $O(D \cdot L^2)$ 이다.
특징: 모든 차원이 동일한 MSA 가중치(Weights)를 공유한다. 이는 데이터의 패턴을 학습하는 데 있어 변수 간 공통적인 시간적 특성을 포착하고 파라미터 수를 줄이는 효과가 있다.1

3.2.2 Cross-Dimension Stage (차원 교차 단계) 및 라우터 메커니즘

이 단계의 목적은 동일한 시간 세그먼트 내에서 변수 간의 상호작용을 파악하는 것이다. 만약 단순하게 차원 축 $D$ 에 대해 MSA를 수행하면 복잡도는 $O(L \cdot D^2)$ 가 된다. 변수의 수 $D$ 가 수백~수천 개인 경우(예: 교통 데이터, 기상 데이터) 이는 계산 불가능한 수준이 된다.

Crossformer는 이를 해결하기 위해 **라우터 메커니즘(Router Mechanism)**을 제안한다. 이는 소수의 ‘라우터(Router)’ 벡터를 매개체로 사용하여 변수 간 정보를 교환하는 방식이다.

라우터 초기화: 각 시간 세그먼트 $i$ 마다 $c$ 개의 학습 가능한 라우터 벡터 $R_i \in \mathbb{R}^{c \times d_{model}}$ 를 할당한다 ( $c \ll D$ ).
Aggregation (정보 수집): 모든 차원의 벡터 $Z_{i,:}^{time}$ 가 라우터 $R_i$ 에게 정보를 전달한다. 이때 라우터가 쿼리( $Q$ ), 차원 벡터들이 키( $K$ )와 밸류( $V$ )가 된다.
$B_i = \text{MSA}_{dim1}(Q=R_i, K=Z_{i,:}^{time}, V=Z_{i,:}^{time})$
여기서 $B_i \in \mathbb{R}^{c \times d_{model}}$ 는 모든 차원의 정보가 압축된 ’메시지’이다.
Distribution (정보 분배): 압축된 메시지 $B_i$ 를 다시 각 차원 벡터들에게 분배한다. 이때 차원 벡터들이 쿼리( $Q$ ), 메시지 $B_i$ 가 키( $K$ )와 밸류( $V$ )가 된다.
$Z_{i,:}^{dim} = \text{MSA}_{dim2}(Q=Z_{i,:}^{time}, K=B_i, V=B_i)$
복잡도 혁신: 기존 $O(D^2)$ 복잡도를 $O(D \cdot c)$ 로 줄였다. $c$ 는 작은 상수이므로, 사실상 **선형 복잡도 $O(D)$ **를 달성한다. 이는 고차원 데이터셋에서의 확장성(Scalability)을 보장하는 핵심 기술이다.1

3.3 Hierarchical Encoder-Decoder (HED)

Crossformer는 단순히 층을 깊게 쌓는 것을 넘어, 컴퓨터 비전의 U-Net이나 Feature Pyramid Network와 유사한 계층적 구조를 채택했다. 이는 시계열 데이터가 다양한 시간 스케일(일간, 주간, 월간 등)의 정보를 포함하고 있다는 점에 착안한 것이다.1

3.3.1 인코더 (Encoder): 세그먼트 병합 (Segment Merging)

인코더의 층이 깊어질수록 인접한 세그먼트들을 병합하여 더 넓은 시간 범위를 하나의 벡터로 표현한다.

레벨 $l$ 의 출력이 $Z^{enc, l}$ 일 때, 다음 레벨 $l+1$ 로 넘어가기 전에 인접한 두 세그먼트 벡터를 연결(Concatenate)하고 선형 변환하여 차원을 유지한다.
$Z^{enc, l+1} = \text{Merge}(Z^{enc, l})$
이 과정을 통해 상위 레이어는 거시적인 정보(Coarse-grained information)를, 하위 레이어는 미세한 정보(Fine-grained information)를 학습한다. 세그먼트 개수 $L$ 은 층마다 절반으로 줄어들어 ( $L \to L/2 \to L/4$ ), 상위 층의 계산 효율성도 높아진다.1

3.3.2 디코더 (Decoder): 다중 스케일 예측 (Multi-Scale Prediction)

디코더 역시 인코더와 대칭되는 계층 구조를 가진다. 각 계층 $l$ 에서 TSA 레이어를 통과한 후, 해당 스케일에서의 예측 결과 $Y_l$ 을 생성한다. 최종 예측 결과는 각 계층의 예측 결과를 모두 합산(Summation)하여 도출된다.
$Y_{final} = \sum_{l=0}^{N} \text{Projection}(Z^{dec, l})$
이는 모델이 단기적인 변동성과 장기적인 추세를 동시에 고려하여 예측할 수 있도록 돕는다.

4. 구현 및 하이퍼파라미터 분석 (Implementation Details)

공식 GitHub 구현체 6를 바탕으로 Crossformer의 실제 구동을 위한 상세 스펙을 분석한다.

4.1 핵심 하이퍼파라미터

Crossformer의 성능은 데이터셋의 특성에 맞는 하이퍼파라미터 설정에 크게 좌우된다.

파라미터 (Code Argument)	논문 표기	기본값 (Default)	의미 및 영향 분석
`data_dim`	$D$	7 (ETTh1)	입력 변수의 개수. 모델 복잡도에 선형적으로 영향을 미침.
`in_len`	$T$	96	입력 시퀀스 길이 (Look-back window).
`out_len`	$\tau$	24	예측 시퀀스 길이 (Horizon).
`seg_len`	$L_{seg}$	6	DSW 임베딩의 세그먼트 길이. 가장 중요한 파라미터 중 하나. 값이 크면 세밀한 정보 손실, 값이 작으면 $L$ 이 커져 계산 비용 증가.
`factor`	$c$	10	TSA의 라우터 개수. 값이 크면 정보 병목 현상 완화되나 복잡도 증가. $c \approx 10$ 이 경험적으로 권장됨.3
`win_size`	-	2	인코더의 세그먼트 병합 시 합쳐질 세그먼트 수. 보통 2로 설정하여 계층마다 길이를 절반으로 줄임.
`d_model`	$d_{model}$	256	임베딩 차원.
`e_layers`	$N$	3	인코더 레이어 수.

4.2 데이터 입력 포맷 및 코드 구조

사용자 지정 데이터셋을 사용할 경우, 다음과 같은 구조가 요구된다:

파일 형식: CSV
구조: 첫 번째 열은 날짜(Date), 이후 열들은 다변량 시계열 변수들.
코드 실행 예시: python main_crossformer.py --data AirQuality --data_dim 13 --in_len 168 --out_len 24 --seg_len 6.6

코드 내부적으로 DimWiseEmbedding 클래스가 입력 텐서를 (Batch, Time, Dim)에서 (Batch, Dim, Seg_Num, Seg_Len)으로 재배열(Reshape/Permute)하는 과정을 수행하며, 이후 TwoStageAttentionLayer 클래스에서 CrossTime과 CrossDimension 연산이 순차적으로 이루어진다.11

5. 실험적 평가 및 SOTA 모델과의 비교 (Experimental Evaluation)

5.1 실험 환경 및 데이터셋

Crossformer는 ETTh1, ETTm1, ETTh2, ETTm2 (전력 변압기 온도), Electricity (ECL), Traffic, Weather (WTH), ILI (독감) 등 8개의 표준 벤치마크 데이터셋에서 평가되었다. 평가 지표로는 MSE(Mean Squared Error)와 MAE(Mean Absolute Error)가 사용되었다.1

5.2 성능 비교 분석

실험 결과는 Crossformer의 강점과 약점을 명확히 보여준다.

5.2.1 Crossformer의 우세 영역 (ETTh1, ETTm1)

변수 간의 물리적 상관관계가 뚜렷한 데이터셋에서 Crossformer는 강력한 성능을 발휘했다.

ETTh1 (Energy Transformer Temperature): Crossformer는 기존의 Autoformer, Pyraformer 등을 큰 격차로 따돌렸다. 예를 들어, 예측 길이 168일 때 Crossformer는 MSE 0.582, MAE 0.571 수준을 기록하며 SOTA를 달성했다 (당시 기준).9
이유 분석: 변압기 온도는 부하량(Load)과 명확한 물리적 인과관계를 가지므로, TSA 레이어의 Cross-Dimension 단계가 유의미한 정보를 포착한 것으로 분석된다.

5.2.2 경쟁 모델(PatchTST)과의 대결

2023년 이후 등장한 PatchTST는 채널 독립성(CI) 전략을 앞세워 많은 벤치마크에서 Crossformer를 능가하는 결과를 보여주었다.7

데이터셋	Crossformer (CD 전략)	PatchTST (CI 전략)	분석
ETTh1	우수 (Competitive)	최우수 (SOTA)	CI 전략이 과적합을 방지하여 일반화 성능이 더 높게 나타남.
Traffic	보통	최우수	변수가 862개로 매우 많음. Crossformer의 라우터 메커니즘이 효율적이지만, CI 모델의 단순함이 노이즈 강건성에서 앞섬.15
ILI	열세	우수	데이터 샘플 수가 매우 적은 데이터셋. CD 모델인 Crossformer는 파라미터가 많아 과적합되기 쉬움.

5.2.3 iTransformer와의 비교

iTransformer는 Crossformer와 유사하게 채널 의존성을 중시하지만, 임베딩 방식을 ’전체 시계열 -> 하나의 토큰’으로 역발상(Inverted)하여 효율성을 극대화했다.

결과: iTransformer는 ETTh1, Weather 등에서 Crossformer보다 낮은 MSE를 기록하며 CD 전략의 새로운 가능성을 보여주었다.14
시사점: Crossformer의 세그먼트 단위 접근법은 세밀하지만 복잡하고, iTransformer의 전체 단위 접근법은 거칠지만(Coarse) 글로벌한 상관관계 파악에 유리하다는 트레이드오프를 보여준다.

5.3 효율성(Efficiency) 분석

Crossformer의 저자들은 라우터 메커니즘을 통해 복잡도를 $O(D)$ 로 낮췄음을 강조하며, 실제 메모리 사용량도 관리 가능한 수준임을 보였다.1

메모리: $D$ 가 증가해도 메모리 사용량이 선형적으로만 증가한다. 이는 Full Attention을 사용하는 모델이 $D^2$ 로 폭증하는 것과 대조적이다.
학습 속도: PatchTST와 비교했을 때, Crossformer는 2단계 어텐션과 인코더-디코더 구조로 인해 상대적으로 학습 속도가 느린 편이다.17 DSW 임베딩과 TSA 레이어의 연산량은 단순한 Patching + Self-Attention 구조보다 무겁다.

6. 비판적 고찰: 채널 의존성의 역설 (Critical Discussion)

6.1 Negative Transfer와 과적합의 위험

Crossformer의 가장 큰 이론적 리스크는 Negative Transfer이다. 모든 변수가 서로 유의미한 관계를 맺고 있는 것은 아니다. 예를 들어, 환율 데이터에서 엔화와 유로화는 관계가 깊지만, 특정 소형주 주가와는 관계가 없을 수 있다. Crossformer의 라우터는 모든 변수의 정보를 집계(Aggregation)하므로, 무관한 변수의 노이즈가 예측에 섞여 들어갈 위험이 있다. 반면 CI 모델(PatchTST)은 이를 원천 차단하므로 노이즈가 많은 데이터셋에서 더 강건한 성능을 보인다.15

6.2 라우터 메커니즘의 정보 병목 (Information Bottleneck)

라우터 개수 $c$ 는 전체 변수 개수 $D$ 보다 훨씬 작게 설정된다 ( $c \ll D$ ). 이는 효율성을 위한 것이지만, 동시에 정보의 병목 구간이 된다. $D$ 개의 다양한 변수 정보가 $c$ 개의 벡터로 압축되는 과정에서 미세한 상관관계 정보가 손실될 수 있다. 이는 저차원 데이터셋보다 고차원 데이터셋(Traffic 등)에서 Crossformer가 고전하는 원인 중 하나로 분석된다.

6.3 HED 구조의 효용성 논란

최근 연구들(특히 DLinear, PatchTST)은 복잡한 디코더 구조 없이 인코더만으로도(Encoder-only) 충분히, 혹은 더 좋은 성능을 낼 수 있음을 보여주고 있다. Crossformer의 계층적 인코더-디코더 구조는 이론적으로는 우아하지만, 실제로는 모델의 깊이를 깊게 만들어 기울기 전파를 어렵게 하고 학습 난이도를 높이는 요인이 될 수 있다.17

7. 결론 및 향후 전망 (Conclusion & Future Directions)

7.1 연구 요약

Crossformer는 다변량 시계열 예측에서 오랫동안 간과되었던 **‘차원 간 의존성(Cross-Dimension Dependency)’**을 딥러닝 아키텍처의 중심부로 가져온 선구적인 연구다. DSW 임베딩을 통해 시간과 차원 정보를 보존하는 2D 텐서 구조를 확립했고, TSA 레이어와 라우터 메커니즘을 통해 $O(D^2)$ 의 계산 복잡도 장벽을 $O(D)$ 로 허물었다. 이는 변수 간의 상호작용이 중요한 물리적 시스템이나 복잡계 예측에 있어 강력한 도구가 된다.

7.2 한계와 발전 방향

비록 PatchTST와 같은 채널 독립(CI) 모델들이 일반적인 벤치마크에서 우위를 점하고 있지만, 이는 Crossformer의 접근법이 틀렸음을 의미하지 않는다. 오히려 데이터의 특성(상관관계의 강도, 데이터 양)에 따라 적합한 모델이 다름을 시사한다. 향후 연구 방향으로는 다음과 같은 주제들이 유망하다:

적응형 라우터 (Adaptive Routing): 고정된 라우터 대신, 데이터의 문맥에 따라 동적으로 라우터의 수와 연결을 조절하여 Negative Transfer를 방지하는 메커니즘.
하이브리드 전략: CI의 강건성과 Crossformer의 관계 학습 능력을 결합하는 앙상블 또는 모듈형 아키텍처 (예: Time-LLM에 Cross-Dimension 모듈 추가 18).
경량화: HED 구조를 단순화하고 TSA 레이어를 최적화하여 PatchTST 수준의 학습 속도를 확보하는 것.

결론적으로, Crossformer는 시계열 데이터가 가진 입체적인 정보(시간과 차원)를 모두 활용하려는 시도로서, 향후 등장할 시계열 파운데이션 모델(Foundation Models)의 중요한 구성 요소가 될 잠재력을 지니고 있다.

8. 참고 자료

CROSSFORMER: TRANSFORMER UTILIZING CROSS - OpenReview, https://openreview.net/pdf/1d793d6ba7c00ecfe98128614d58e2493255bd89.pdf
PROMPT-BASED GENERATIVE PRE-TRAINED TRANSFORMER …, https://proceedings.iclr.cc/paper_files/paper/2024/file/5132940b1bced8a7b28e9695d49d435a-Paper-Conference.pdf
Crossformer: Making Multivariate Time Series Forecasting Truly …, https://medium.com/@kdk199604/crossformer-making-multivariate-time-series-forecasting-truly-multivariate-96ddcb2e32fe
Official implementation for “TimeXer - GitHub, https://github.com/thuml/TimeXer
Crossformer: Transformer Utilizing Cross-Dimension Dependency …, https://aiflower.tistory.com/m/221
Official implementation of our ICLR 2023 paper “Crossformer - GitHub, https://github.com/Thinklab-SJTU/Crossformer
Benchmarking Transformer Variants for Hour-Ahead PV Forecasting, https://www.researchgate.net/publication/395681479_Benchmarking_Transformer_Variants_for_Hour-Ahead_PV_Forecasting_PatchTST_with_Adaptive_Conformal_Inference
Transformer for Time Series Forecasting without Over-reliance on …, https://proceedings.neurips.cc/paper_files/paper/2024/file/a0b1082fc7823c4c68abcab4fa850e9c-Paper-Conference.pdf
Crossformer: Transformer Utilizing Cross-Dimension Dependency for…, https://openreview.net/forum?id=vSVLM2j9eie
itransformer: inverted transformers are - ICLR Proceedings, https://proceedings.iclr.cc/paper_files/paper/2024/file/2ea18fdc667e0ef2ad82b2b4d65147ad-Paper-Conference.pdf
SegmentedCrossformer—A Novel and Enhanced Cross-Time and …, https://www.mdpi.com/2571-9394/7/3/41
Ship trajectory prediction via a transformer-based model by …, https://www.oaepublish.com/articles/ir.2025.29
Crossformer/main_crossformer.py at master · Thinklab-SJTU …, https://github.com/Thinklab-SJTU/Crossformer/blob/master/main_crossformer.py
FCP-Former: Enhancing Long-Term Multivariate … - Semantic Scholar, https://pdfs.semanticscholar.org/367a/c51cfb512a2207833db213b389d67097c926.pdf
Scalable Transformer for High Dimensional Multivariate Time Series …, https://digibug.ugr.es/bitstream/handle/10481/103364/3627673.3679757.pdf?sequence=1&isAllowed=y
iTransformer: Inverted Transformers Are Effective for Time Series…, https://openreview.net/forum?id=JePfAI8fah
Are Self-Attentions Effective for Time Series Forecasting?, https://openreview.net/pdf?id=iN43sJoib7
Enhancing Channel-Independent Time Series Forecasting via Cross …, https://arxiv.org/pdf/2505.12761
Enhancing Channel-Independent Time-Series Forecasting … - arXiv, https://arxiv.org/html/2505.12761v1