하이브리드 어텐션 메커니즘 (2018)

1. 긴 시퀀스 처리의 난제와 하이브리드 어텐션의 부상

1.1 트랜스포머 아키텍처와 Self-Attention의 혁신

2017년 Vaswani 등이 발표한 트랜스포머(Transformer) 아키텍처는 자연어 처리(NLP) 분야의 패러다임을 근본적으로 바꾸어 놓았다.1 이전의 지배적인 모델이었던 순환 신경망(RNN)이나 장단기 메모리(LSTM) 네트워크는 시퀀스 데이터를 순차적으로 처리해야 하는 본질적인 한계를 가지고 있었다.1 이러한 순차적 처리 방식은 병렬 계산을 어렵게 하여 훈련 시간을 지연시켰고, 시퀀스가 길어질수록 초기 정보가 소실되는 장기 의존성 문제(long-range dependency problem)를 야기했다.

트랜스포머는 이러한 순환 구조를 완전히 배제하고, 대신 ’셀프 어텐션(Self-Attention)’이라는 메커니즘을 도입하여 시퀀스 내 모든 토큰 쌍 간의 관계를 한 번에, 병렬적으로 계산한다.1 이 혁신 덕분에 트랜스포머는 훈련 시간을 획기적으로 단축했을 뿐만 아니라, 문장 내 멀리 떨어진 단어 간의 복잡한 문법적, 의미적 관계를 효과적으로 포착할 수 있게 되었다.

셀프 어텐션의 핵심은 ’동적으로 계산된 가중 평균(dynamically computed weighted average)’으로 정의할 수 있다.3 입력 시퀀스의 각 토큰은 세 가지 역할, 즉 쿼리(Query), 키(Key), 밸류(Value)를 나타내는 벡터로 변환된다. 특정 토큰의 문맥적 표현을 계산하기 위해, 해당 토큰의 쿼리 벡터는 시퀀스 내 모든 토큰(자기 자신 포함)의 키 벡터와 비교된다. 이 비교를 통해 계산된 유사도 점수(score)는 각 토큰의 중요도를 나타내는 어텐션 가중치(attention weight)가 되며, 이 가중치들은 모든 토큰의 밸류 벡터에 적용되어 가중합(weighted sum)을 형성한다. 이 과정은 특정 쿼리가 어떤 키에 ’주목(attend)’해야 할지를 동적으로 결정하는 것과 같다.3

이러한 메커니즘은 스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)이라는 수식으로 구체화된다. 쿼리 행렬 $Q$ , 키 행렬 $K$ , 밸류 행렬 $V$ 가 주어졌을 때, 어텐션의 출력은 다음과 같이 계산된다.3

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

여기서 $d_k$ 는 키 벡터의 차원을 의미하며, 내적(dot product) 값이 너무 커져 소프트맥스(softmax) 함수의 그래디언트가 소실되는 것을 방지하기 위한 스케일링 인자(scaling factor)이다.3 이 수식을 통해 모델은 각 토큰에 대해 시퀀스 전체의 문맥을 종합한 풍부한 표현을 생성할 수 있다.

1.2 계산 복잡도의 장벽: $O(n^2)$ 문제

셀프 어텐션의 강력한 표현력에도 불구하고, 이는 치명적인 계산적 한계를 내포하고 있다. 바로 시퀀스 길이 $n$ 에 대해 시간 및 공간 복잡도가 이차적으로 증가하는, 이른바 ’ $O(n^2)$ 문제’이다.6 이 문제는 어텐션 메커니즘의 핵심 연산인 $QK^T$ 행렬 곱셈에서 비롯된다.

시퀀스 길이가 $n$ 이고 임베딩 차원이 $d$ 일 때, $Q$ 와 $K$ 행렬의 크기는 각각 $n x d_k$ 가 된다 ( $d_k$ 는 보통 $d$ 와 비례한다). 따라서 $Q$ 와 $K$ 의 전치 행렬 $K^T$ ( $d_k x n$ )를 곱하면 $n \times n$ 크기의 어텐션 스코어 행렬이 생성된다.6 이 행렬의 각 원소는 시퀀스 내의 한 토큰이 다른 모든 토큰에 대해 가지는 연관성을 나타낸다. 이 연산에 필요한 계산량은 $O(n^2 * d)$ 에 비례하며, $n \times n$ 행렬을 메모리에 저장해야 하므로 공간 복잡도 역시 $O(n^2)$ 이 된다.2

이러한 이차적 복잡도는 시퀀스 길이가 두 배로 늘어나면 계산량과 메모리 요구량이 네 배로 증가함을 의미한다. 이는 BERT와 같은 표준 트랜스포머 모델의 최대 입력 길이를 512 또는 1024 토큰으로 제한하는 실질적인 병목 현상으로 작용했다.9 결과적으로, 수천에서 수만 토큰에 달하는 긴 문서 요약, 다중 문서 질의응답, 법률 문서 분석, 유전체 서열 분석과 같은 중요한 실제 태스크에 표준 트랜스포머를 직접 적용하는 것은 거의 불가능했다.10

1.3 해법으로서의 희소 어텐션과 하이브리드 패러다임

$O(n^2)$ 의 장벽을 넘기 위해 연구자들은 ’희소 어텐션(Sparse Attention)’이라는 패러다임을 제시했다.6 희소 어텐션의 핵심 아이디어는 모든 토큰 쌍 간의 상호작용을 계산하는 대신, 정보 흐름에 필수적이라고 판단되는 일부 토큰 쌍에 대해서만 어텐션을 계산하여 어텐션 행렬을 희소(sparse)하게 만드는 것이다. 이를 통해 계산 복잡도를 시퀀스 길이에 대해 선형적인 $O(n)$ 또는 준선형적인 $O(n log n)$ 으로 낮출 수 있다.12

이러한 접근법의 등장은 연구의 초점을 근본적으로 전환시켰다. 초기에는 “어떻게 하면 완전한(full) 어텐션 계산을 더 빠르게 할 수 있을까?“라는 질문에 집중했지만, 연구 결과들은 엄밀한 의미에서 $O(n^2)$ 보다 빠른 시간 복잡도로 정확한 셀프 어텐션을 계산하는 것은 강력한 계산 복잡도 이론 가정(SETH) 하에서 불가능할 수 있음을 시사했다.8 따라서 문제는 “어떻게 하면 완전한 어텐션 행렬을 정보 손실 없이 가장 효과적으로 *근사(approximate)*할 수 있을까?“로 바뀌었다. 희소 어텐션 모델들의 성공은 완전한 $n \times n$ 어텐션 행렬의 대부분이 실제로는 중복된 정보를 담고 있으며, 잘 설계된 희소 패턴으로도 충분히 강력한 문맥 표현을 학습할 수 있다는 중요한 사실을 입증했다.

이러한 희소 어텐션의 가장 정교한 형태 중 하나가 바로 ’하이브리드 어텐션(Hybrid Attention)’이다. 하이브리드 어텐션은 단일한 희소 패턴에 의존하는 대신, 여러 종류의 어텐션 패턴을 결합하여 효율성과 표현력 사이의 균형을 맞춘다. 특히, 언어 정보의 대부분이 지역적(local) 문맥에 집중되어 있다는 ‘지역성(locality)’ 원칙과, 문장 전체의 의미를 좌우하는 소수의 핵심 토큰이 존재한다는 ’전역적 중요성’이라는 두 가지 언어학적 직관을 동시에 활용한다.1 지역적 문맥은 효율적인 로컬 어텐션으로 포착하고, 전역적 정보 흐름은 전략적으로 배치된 글로벌 어텐션을 통해 유지하는 하이브리드 방식은 긴 시퀀스 처리 문제에 대한 가장 실용적이고 강력한 해법으로 부상했다.

2. 하이브리드 어텐션의 구성 요소: 희소 어텐션 패턴 분석

하이브리드 어텐션 모델의 성공은 단순히 계산량을 줄이는 것을 넘어, 정보가 희소한 연결망을 통해 어떻게 효율적으로 전파될 수 있는지에 대한 깊은 이해에 기반한다. 이는 마치 무작위로 선택된 몇 가지 아이디어의 조합이 아니라, 정보 흐름의 병목 현상을 단계적으로 해결해 나가는 진화적인 설계 패턴으로 볼 수 있다.

2.1 로컬 어텐션 (Local Attention): 언어의 지역성 활용

완전한 $n \times n$ 어텐션 그래프가 계산적으로 비효율적이라는 문제에 직면했을 때, 가장 직관적인 첫 번째 해결책은 언어의 ’지역성(locality)’을 활용하는 것이다. 대부분의 단어는 그 의미가 주변 단어들과의 관계 속에서 결정된다는 언어학적 사실에 착안하여, 각 토큰이 자신의 주변에 있는 일부 토큰에만 집중하도록 어텐션 범위를 제한하는 것이다.17

슬라이딩 윈도우 어텐션 (Sliding Window Attention): 이 방식은 각 토큰이 자신을 중심으로 하는 고정된 크기( $w$ )의 윈도우 내에 있는 토큰들에만 어텐션을 수행하도록 한다.12 예를 들어 윈도우 크기 $w$ 가 주어지면, 각 토큰은 자신의 양옆으로 각각 $w/2$ 개의 토큰에만 주목한다. 이 방식의 계산 복잡도는 $O(n * w)$ 가 된다. 긴 시퀀스에서 $w$ 는 $n$ 에 비해 매우 작은 상수이므로, 이는 사실상 $O(n)$ 의 선형 복잡도를 달성함을 의미한다.19 하지만 이 방식은 정보가 시퀀스의 한쪽 끝에서 다른 쪽 끝으로 전달되기까지 여러 개의 어텐션 레이어를 거쳐야 하는, 즉 그래프의 직경이 커지는 단점을 가진다.
확장 슬라이딩 윈도우 (Dilated Sliding Window): 로컬 어텐션의 한계를 일부 보완하기 위해, 동일한 계산 비용으로 더 넓은 문맥을 포착하는 확장 슬라이딩 윈도우가 제안되었다.12 이는 합성곱 신경망(CNN)의 확장 합성곱(dilated convolution)에서 영감을 받은 것으로, 윈도우 내에서 일정한 간격(dilation)을 두고 토큰을 샘플링하여 어텐션을 수행한다. 예를 들어, dilation 값이 2라면 한 칸씩 건너뛰며 토큰을 참조한다. 멀티-헤드 어텐션 구조에서는 각 헤드가 서로 다른 dilation 값을 가지도록 설정할 수 있다. 이를 통해 일부 헤드는 조밀한 지역 문맥(dilation=1)을, 다른 헤드들은 더 넓지만 듬성듬성한 문맥(dilation>1)을 포착하게 하여, 다양한 스케일의 지역 정보를 동시에 학습할 수 있다.20

2.2 글로벌 어텐션 (Global Attention): 정보의 허브 구축

로컬 어텐션만으로는 시퀀스 전체에 걸친 정보 통합이 비효율적이라는 문제가 남는다. 멀리 떨어진 두 토큰 간의 정보를 교환하려면 수많은 어텐션 레이어를 통과해야 하기 때문이다. 이 문제를 해결하기 위한 두 번째 단계의 해법이 바로 ’글로벌 어텐션(Global Attention)’이다. 이는 정보 네트워크에 일종의 ’허브(hub)’를 구축하는 것과 같다.

글로벌 어텐션은 사전에 지정된 소수의 ’글로벌 토큰’이 시퀀스 내의 모든 다른 토큰에 어텐션하고, 역으로 시퀀스의 모든 토큰이 이 글로벌 토큰들에 어텐션하도록 허용하는 대칭적인 메커니즘이다.9 이 글로벌 토큰들은 정보의 중앙 집중식 교환소 역할을 한다. 로컬 윈도우 밖에 있는 토큰 A가 다른 멀리 떨어진 토큰 B와 정보를 교환하고 싶을 때, A는 글로벌 토큰 G에 정보를 전달하고, G는 다시 B에게 정보를 전달할 수 있다. 이 과정은 단 두 개의 어텐션 레이어만으로도 가능해져, 정보 전파 경로를 획기적으로 단축시킨다.11

어떤 토큰을 글로벌 토큰으로 지정할지는 주로 처리하고자 하는 태스크의 특성에 따라 결정된다. 이를 ‘태스크 동기(task-motivated)’ 접근법이라 한다.9 예를 들어, 문장 전체를 요약하여 분류하는 태스크에서는 문장 전체의 의미를 집약하는 $$ 토큰에 글로벌 어텐션을 부여한다. 질의응답(QA) 태스크에서는 문서의 어떤 부분에 집중해야 할지를 결정하는 데 핵심적인 역할을 하는 ’질문(question)’에 해당하는 모든 토큰에 글로벌 어텐션을 부여하여, 문서의 모든 부분이 질문과 직접적으로 관련성을 계산할 수 있도록 한다.20

2.3. 랜덤 어텐션 (Random Attention): 정보 흐름의 강건성 확보

로컬 어텐션과 소수의 고정된 글로벌 어텐션 허브의 조합은 매우 효율적이지만, 여전히 잠재적인 약점을 가진다. 만약 지정된 글로벌 허브가 특정 정보 교환에 적합하지 않거나, 정보 흐름이 이 소수의 허브에만 과도하게 의존하게 되면 병목 현상이 발생할 수 있다. 이러한 고정된 패턴의 취약점을 보완하고 네트워크의 강건성(robustness)을 높이기 위한 세 번째 단계의 해법이 ’랜덤 어텐션(Random Attention)’이다.

랜덤 어텐션은 각 토큰이 자신의 로컬 윈도우와 글로벌 허브 외에, 시퀀스 내에서 무작위로 선택된 소수의 다른 토큰들에도 추가적으로 어텐션을 수행하도록 하는 방식이다.17 이 아이디어는 무작위 그래프 이론(random graph theory)에서 영감을 받았다. 그래프 이론에 따르면, 거대하고 희소한 그래프에 소수의 무작위 간선(edge)을 추가하는 것만으로도 그래프 전체의 평균 경로 길이를 극적으로 줄일 수 있으며, 이는 정보가 네트워크 전체로 매우 빠르게 퍼져나갈 수 있음을 의미한다.10

랜덤 어텐션은 모델에게 예상치 못한 장거리 의존성을 포착할 수 있는 유연한 경로를 제공한다. 고정된 패턴이 놓칠 수 있는 중요한 관계를 우연히 발견할 기회를 줌으로써, 모델의 표현력을 높이고 정보 흐름에 대한 일종의 내결함성(fault tolerance)을 부여한다. 이로써 로컬, 글로벌, 랜덤 어텐션의 세 가지 구성 요소는 서로의 단점을 보완하며 효율성과 표현력, 강건성을 모두 갖춘 정교한 하이브리드 정보 네트워크를 형성하게 된다.

III. 주요 하이브리드 어텐션 아키텍처 심층 분석

하이브리드 어텐션의 구성 요소들은 각기 다른 설계 철학을 바탕으로 여러 선구적인 아키텍처로 구체화되었다. 이들 모델은 단순히 희소 패턴의 조합을 달리하는 것을 넘어, 실용성, 이론적 완전성, 구조적 표현력 등 각기 다른 목표를 추구하며 발전했다. 본 장에서는 Longformer, BigBird, 그리고 ETC라는 세 가지 핵심 아키텍처를 심층적으로 분석한다.

3.1. Longformer: 슬라이딩 윈도우와 글로벌 어텐션의 실용적 결합

Longformer는 하이브리드 어텐션의 개념을 가장 실용적인 형태로 구현한 모델로 평가받는다. 이 모델의 설계 철학은 ’기존 트랜스포머 생태계와의 호환성을 유지하면서, 어떻게 하면 가장 간단하고 효과적으로 긴 시퀀스 처리 능력을 부여할 수 있는가?’라는 질문에 대한 답을 찾는 데 있다.

아키텍처: Longformer는 앞서 설명한 두 가지 핵심 구성 요소, 즉 지역적 문맥 포착을 위한 ’슬라이딩 윈도우 어텐션’과 전역적 정보 통합을 위한 ’태스크 동기 글로벌 어텐션’을 결합한 순수한 하이브리드 모델이다.9 이 모델의 가장 큰 장점은 기존 BERT나 RoBERTa와 같은 사전 훈련된 모델의 표준 셀프 어텐션 레이어를 Longformer의 희소 어텐션 레이어로 그대로 교체할 수 있는 ‘드롭-인 대체(drop-in replacement)’ 방식으로 설계되었다는 점이다.9 이는 연구자들이나 개발자들이 기존의 복잡한 파이프라인을 크게 수정하지 않고도 긴 문서 처리 기능을 손쉽게 추가할 수 있게 해준다.
수학적 공식화 및 구현: Longformer는 모델의 유연성을 극대화하기 위해 로컬 어텐션과 글로벌 어텐션을 위한 쿼리, 키, 밸류 투영 행렬을 각각 별도로 둔다. 즉, 슬라이딩 윈도우 어텐션을 계산하기 위한 $(Q_s, K_s, V_s)$ 와 글로벌 어텐션을 계산하기 위한 $(Q_g, K_g, V_g)$ 를 따로 학습한다.20 이는 모델이 지역적 문맥을 처리하는 방식과 전역적 정보를 종합하는 방식을 다르게 학습할 수 있도록 한다. 효율적인 계산을 위해서는 어텐션 행렬의 특정 대각선 밴드 부분만 계산하는 것이 중요한데, 이를 위해 고도로 최적화된 맞춤형 CUDA 커널을 구현하여 사용한다. 이 커널은 희소 행렬 곱셈을 효율적으로 처리하여 표준 완전 어텐션에 필적하는 속도를 내면서도 메모리 사용량은 선형적으로 유지한다.20
계산 복잡도: 시퀀스 길이가 $n$ , 윈도우 크기가 $w$ , 글로벌 토큰의 수가 $g$ 일 때, 각 토큰은 $w$ 개의 로컬 토큰과 $g$ 개의 글로벌 토큰에 어텐션한다. 따라서 전체 계산 복잡도는 $O((w+g)n)$ 이 되며, $w$ 와 $g$ 가 $n$ 에 비해 매우 작으므로 시퀀스 길이에 대해 선형 복잡도를 달성한다.19
성능 분석: Longformer는 특히 긴 문맥 이해를 요구하는 벤치마크에서 그 성능을 입증했다. WikiHop, TriviaQA, HotpotQA와 같은 긴 문서 기반 질의응답 태스크에서, 512 토큰으로 입력을 잘라야 했던 RoBERTa와 같은 표준 모델들을 큰 폭으로 능가하는 성능을 기록했다.12 예를 들어, WikiHop 개발 세트에서 Longformer는 4,096 토큰의 전체 문맥을 사용하여 RoBERTa-base 모델 대비 1.4%p 높은 정확도를 보였으며, 이는 단순히 모델 크기나 추가 학습 때문이 아니라 긴 문맥을 처리하는 능력 자체에서 기인한 것임이 실험을 통해 확인되었다.20

3.2. BigBird: 이론적 견고성을 더한 3중 희소 어텐션

BigBird는 Longformer의 실용적인 접근법을 계승하면서도, ’어떻게 하면 희소 어텐션이 이론적으로도 완전 어텐션만큼 강력하다고 보장할 수 있는가?’라는 보다 근본적인 질문에 답하고자 했다. 그 결과, BigBird는 실용적인 성능뿐만 아니라 강력한 이론적 기반을 갖춘 아키텍처로 탄생했다.

아키텍처: BigBird는 Longformer의 아이디어를 확장하여, (1) 슬라이딩 윈도우 어텐션, (2) 글로벌 어텐션, 그리고 (3) 랜덤 어텐션이라는 세 가지 희소 어텐션 메커니즘을 모두 통합했다.14 이 세 가지 구성 요소의 조합은 정보가 네트워크를 통해 흐르는 경로를 다양화하고, 어떤 토큰 쌍이라도 상대적으로 짧은 경로 내에서 정보를 교환할 수 있도록 보장함으로써 완전 어텐션의 표현력을 효과적으로 근사하도록 설계되었다.10
이론적 속성: BigBird를 다른 희소 어텐션 모델과 차별화하는 가장 중요한 특징은 그 이론적 보장에 있다. BigBird의 저자들은 제안된 희소 어텐션 메커니즘이 두 가지 중요한 속성을 만족함을 수학적으로 증명했다.15

범용 근사자(Universal Approximator): BigBird는 모든 연속적인 시퀀스-투-시퀀스 함수를 근사할 수 있다. 이는 모델이 충분한 용량을 가질 때 어떠한 복잡한 시퀀스 변환 작업도 학습할 수 있음을 의미한다.
튜링 완전(Turing Complete): BigBird는 튜링 기계가 수행할 수 있는 모든 계산을 시뮬레이션할 수 있다. 이는 모델이 알고리즘적인 추론 능력을 포함한 범용 계산 능력을 갖추고 있음을 이론적으로 뒷받침한다.

이러한 증명은 BigBird가 계산 효율성을 위해 모델의 근본적인 표현력을 희생하지 않았음을 보여주며, 이는 단순한 경험적 성공을 넘어선 원론적인 성취로 평가된다.

수학적 공식화: BigBird는 어텐션 메커니즘을 그래프 이론의 관점에서 일반화한다. 어텐션 연산을 유향 그래프 $D=(V, E)$ 로 모델링하는데, 여기서 정점 집합 $V$ 는 시퀀스의 토큰 인덱스 ${1,..., n}$ 에 해당하고, 간선 집합 $E$ 는 어텐션이 계산되는 토큰 쌍 $(i, j)$ 를 나타낸다. 쿼리 토큰 $i$ 가 키 토큰 $j$ 에 어텐션한다면, $i$ 에서 $j$ 로 향하는 간선이 존재한다고 본다. 이 관점에서 일반화된 어텐션 수식은 다음과 같이 표현될 수 있다.10

$\text{ATTN}_D(X)_i = x_i + \sum_{h=1}^{H} \sigma(Q_h(x_i)K_h(X_{N(i)})^T) \cdot V_h(X_{N(i)})$

여기서 $N(i)$ 는 그래프 $D$ 에서 노드 $i$ 의 이웃(즉, $i$ 가 어텐션하는 토큰들의 집합)을 나타낸다. BigBird의 희소 어텐션은 이 그래프 $D$ 의 간선 집합 $E$ 를 윈도우, 글로벌, 랜덤 연결의 합집합으로 구성하는 것과 같다.

성능 분석: BigBird는 다양한 긴 시퀀스 NLP 태스크에서 SOTA(State-of-the-Art) 성능을 달성했으며, 많은 경우 Longformer를 포함한 이전 모델들을 능가했다.15 특히, BigBird는 NLP를 넘어 유전체학 데이터 분석과 같은 새로운 도메인으로 트랜스포머의 적용 가능성을 확장했다. DNA 서열과 같이 극도로 긴 시퀀스를 처리하는 데 성공함으로써, 하이브리드 어텐션의 잠재력을 한 단계 끌어올렸다.10

3.3. ETC (Extended Transformer Construction): 구조화된 입력을 위한 글로벌-로컬 상호작용

ETC는 Longformer나 BigBird와는 또 다른 독특한 설계 철학을 제시한다. 이 모델의 핵심 질문은 ’어떻게 하면 어텐션 메커니즘이 텍스트의 선형적인 순서뿐만 아니라, 문서의 단락 구조나 웹페이지의 DOM 트리와 같은 계층적, 구조적 정보를 명시적으로 처리하도록 설계할 수 있는가?’이다.

아키텍처: ETC는 입력을 명시적으로 두 부분, 즉 ’글로벌 입력( $x^g$ )’과 ’롱 입력( $x^l$ )’으로 분리하는 혁신적인 접근법을 취한다.11 글로벌 입력은 문서 전체의 요약 정보나 구조적 정보를 담는 소수의 토큰으로 구성되고, 롱 입력은 실제 텍스트 내용을 담는 긴 토큰 시퀀스로 구성된다.
작동 원리: 어텐션 계산 또한 네 가지 개별적인 부분으로 분할된다: (1) 글로벌 토큰 간의 상호작용인 global-to-global (g2g), (2) 글로벌 토큰이 롱 입력 전체를 참조하는 global-to-long (g2l), (3) 롱 입력의 각 토큰이 글로벌 토큰들을 참조하는 long-to-global (l2g), 그리고 (4) 롱 입력 토큰들 간의 지역적 상호작용인 long-to-long (l2l).11 이 중 계산 비용이 가장 큰 l2l 어텐션은 Longformer와 유사하게 작은 반경 $r$ 내의 로컬 윈도우로 제한된다. 대신, 롱 입력의 토큰들은 l2g와 g2l 어텐션을 통해 글로벌 토큰을 매개로 하여 서로 멀리 떨어진 토큰들과도 효율적으로 정보를 교환할 수 있다.
계산 복잡도: 글로벌 입력의 길이를 $n_g$ , 롱 입력의 길이를 $n_l$ , 로컬 반경을 $r$ 이라 할 때, 전체 계산 복잡도는 $O(n_g(n_g + n_l) + n_l(n_g + 2r + 1))$ 이 된다. 일반적으로 $n_g$ 와 $r$ 은 $n_l$ 에 비해 매우 작으므로, 이 복잡도는 롱 입력의 길이에 대해 선형적인 $O(n_g * n_l)$ 로 근사할 수 있다.11
구조화된 데이터 처리: ETC의 진정한 강점은 이러한 글로벌-로컬 분리 구조가 상대 위치 인코딩(relative position encoding)과 결합될 때 나타난다. 글로벌 토큰들을 문서의 단락이나 섹션 제목에 해당하는 마커로 사용하고, 롱 입력 토큰들과의 상대적 위치를 인코딩함으로써, 모델은 텍스트의 선형적 순서뿐만 아니라 계층적 구조를 자연스럽게 학습할 수 있다.11
성능 분석: ETC는 Natural Questions, HotpotQA와 같이 구조화된 장문 이해가 중요한 벤치마크에서 SOTA 성능을 달성했다.11 특히 ETC의 또 다른 실용적인 장점은, 아키텍처의 유사성 덕분에 기존에 사전 훈련된 BERT 모델의 가중치를 ’리프팅(lifting)’하여 모델을 초기화할 수 있다는 점이다. 이는 막대한 계산 자원이 필요한 사전 훈련 과정을 단축시키거나 생략할 수 있게 해주는 ’웜-스타트(warm-start)’를 가능하게 하여 모델 개발의 효율성을 크게 높인다.11

IV. 하이브리드 어텐션 모델 종합 비교 및 성능 분석

Longformer, BigBird, ETC는 모두 긴 시퀀스 처리라는 공통의 목표를 향하지만, 각기 다른 접근 방식과 강점을 가지고 있다. 이들 모델을 종합적으로 비교하고 성능과 효율성 간의 트레이드오프를 분석함으로써, 특정 응용 분야에 가장 적합한 모델을 선택하기 위한 명확한 가이드라인을 도출할 수 있다.

4.1. 아키텍처 및 복잡도 비교

세 모델의 핵심적인 차이점은 어텐션 패턴의 구성, 이론적 보장의 유무, 그리고 구조화된 데이터 처리 능력에 있다. 아래 표는 이들 모델의 주요 특징을 요약하여 비교한다.

Table 1: 주요 하이브리드 어텐션 메커니즘 비교

특징 (Feature)	Longformer	BigBird	ETC (Extended Transformer Construction)
핵심 어텐션 구성요소	• 로컬: 슬라이딩 윈도우 • 글로벌: 태스크 기반	• 로컬: 슬라이딩 윈도우 • 글로벌: 일부 토큰 • 랜덤 어텐션	• 글로벌-로컬 분리 • $g2g$ , $g2l$ , $l2g$ , $l2l$ (로컬 반경 제한)
계산 복잡도	$O(n)$	$O(n)$	$O(n_l)$ (long input 길이에 선형)
주요 이론적 속성	-	• Universal Approximator • Turing Complete	-
강점 및 주요 적용 분야	• 구현 용이성 (Drop-in) • 긴 문서 분류, QA	• 최고의 성능 및 표현력 • 초장문 요약, 유전체학	• 구조화된 데이터 처리 • 계층적 문서 이해, 웹페이지 분석
기타 특징	• 확장 윈도우 (Dilated) • 별도 Q, K, V 투영	• 그래프 이론 기반 설계	• BERT 가중치 리프팅 가능 • 명시적 Global/Long 입력

이 표는 세 모델이 각기 다른 설계 우선순위를 가지고 있음을 명확히 보여준다. Longformer는 실용성과 구현의 용이성에, BigBird는 이론적 완전성과 최고의 표현력에, 그리고 ETC는 구조화된 데이터에 대한 특화된 처리 능력에 중점을 두고 있다.

4.2. 성능 및 효율성 트레이드오프

모든 하이브리드 어텐션 모델은 표준 완전 어텐션 모델(예: BERT, RoBERTa)에 비해 압도적인 계산 효율성을 제공한다. 선형 복잡도를 달성함으로써 이전에는 불가능했던 수천 토큰 이상의 시퀀스를 처리할 수 있게 된 것이 이들의 가장 큰 공통점이다.11

그러나 하이브리드 모델들 사이에도 미묘한 성능과 효율성의 트레이드오프가 존재한다. 이는 “세상에 공짜 점심은 없다(no free lunch)“는 원칙과 맞닿아 있다.8 각 모델이 채택한 희소 어텐션 패턴은 특정 종류의 정보 흐름을 다른 종류의 정보 흐름보다 우선시하는 암묵적인 ’귀납적 편향(inductive bias)’을 모델에 주입한다. 이 편향이 주어진 태스크의 특성과 얼마나 잘 부합하는지에 따라 모델의 성능이 달라진다.

Longformer의 슬라이딩 윈도우 + 글로벌 패턴은 많은 표준 NLP 태스크에서 매우 효과적인 귀납적 편향을 제공한다. 하지만 이 고정된 패턴은 예기치 못한 매우 복잡한 장거리 의존성 패턴을 포착하는 데에는 한계가 있을 수 있다.
BigBird는 랜덤 어텐션을 추가함으로써 이러한 한계를 극복하고자 한다. 랜덤 연결은 모델이 더 유연하고 강건한 정보 경로를 학습하도록 유도하며, 이는 이론적으로 완전 어텐션의 표현력에 근접하게 만든다. 따라서 매우 길고 복잡한 시퀀스에서는 BigBird가 Longformer보다 잠재적인 성능 우위를 가질 수 있다.
ETC는 입력 데이터를 글로벌 정보와 로컬 정보로 명시적으로 분리해야 한다는 강한 구조적 편향을 가지고 있다. 이러한 편향이 데이터의 실제 구조(예: 문서의 장-절 구조)와 잘 들어맞을 때 ETC는 다른 모델들보다 훨씬 효율적으로 구조 정보를 활용하여 뛰어난 성능을 보일 수 있다. 하지만 평탄한(flat) 비구조적 텍스트에서는 이러한 구조가 오히려 불필요한 제약으로 작용할 수도 있다.11

결론적으로, 희소화는 필연적으로 정보의 근사를 수반하며, 어떤 정보를 보존하고 어떤 정보를 희생할 것인지에 대한 선택이 각 모델의 성능 특성을 결정한다.

4.3. 모델 선택 가이드라인

이러한 분석을 바탕으로, 특정 응용 분야에 적합한 모델을 선택하기 위한 실용적인 가이드라인을 다음과 같이 제시할 수 있다.

Longformer를 선택해야 할 경우:
기존에 BERT나 RoBERTa를 기반으로 구축된 파이프라인을 가지고 있으며, 최소한의 코드 변경으로 긴 문서 처리 기능을 신속하게 추가하고 싶을 때 가장 적합하다. ’드롭-인 대체’의 편리함이 가장 큰 장점이다.
처리하려는 태스크가 표준적인 문서 분류나 질의응답이며, 입력 길이가 4096 토큰 내외일 때 안정적이고 우수한 성능을 기대할 수 있다.
BigBird를 선택해야 할 경우:
구현의 복잡성을 감수하더라도 가능한 최고의 성능을 추구하는 것이 목표일 때 권장된다.
처리해야 할 시퀀스가 4096 토큰을 초과하는 초장문(very long sequences)이거나, 유전체 서열처럼 복잡하고 비직관적인 장거리 의존성이 존재할 가능성이 높은 데이터를 다룰 때 강력한 선택지이다.
모델의 표현력이 이론적으로 보장되어야 하는 연구나 응용 분야에 적합하다.
ETC를 선택해야 할 경우:
입력 데이터가 웹페이지의 DOM 트리, 코드의 추상 구문 트리(AST), 법률 문서의 조항 구조 등 명확한 계층적 또는 그래프 구조를 가지고 있을 때 가장 강력한 성능을 발휘할 수 있다.
사전 훈련된 BERT 모델의 지식을 활용하여 훈련 시간을 단축하고 싶을 때, 가중치 리프팅 기능이 유용한 대안이 될 수 있다.

V. 결론: 하이브리드 어텐션의 응용 및 미래 전망

하이브리드 어텐션 메커니즘은 단순히 트랜스포머 아키텍처의 기술적 개선에 그치지 않고, 인공지능이 다룰 수 있는 데이터의 범위와 문제의 복잡성을 확장시킨 핵심적인 가능 기술(enabling technology)로 자리매김했다. $O(n^2)$ 의 계산 장벽을 허물면서, 이전에는 접근조차 어려웠던 새로운 응용 분야의 문을 열었다.

5.1. 하이브리드 어텐션이 개척한 새로운 응용 분야

표준 트랜스포머의 512 토큰이라는 제약은 인공지능이 ‘단락’ 수준의 이해에 머물게 했다. 하이브리드 어텐션은 이를 ‘문서’ 수준, 나아가 ‘책’ 수준의 이해로 끌어올리는 계기가 되었다.

긴 문서 NLP: 하이브리드 어텐션의 가장 직접적인 수혜 분야는 긴 문서 처리이다. 수천 토큰 길이의 학술 논문 전체를 입력받아 요약하거나, 방대한 법률 계약서에서 특정 조항에 대해 질의응답하는 태스크들이 가능해졌다.14 이는 정보 검색, 법률 기술(LegalTech), 학술 연구 등 다양한 산업에 혁신을 가져왔다.
의료 및 생명정보학: 의료 분야의 데이터, 특히 의사의 진료 기록(Clinical Notes)이나 병리 안내서(Pathology Reports)는 매우 길고 복잡한 비정형 텍스트이다. $Clinical-Longformer$ 나 $Clinical-BigBird$ 와 같이 의료 데이터에 특화된 하이브리드 어텐션 모델들은 이러한 긴 텍스트에서 중요한 정보를 정확하게 추출하여 진단 보조 및 임상 연구에 기여하고 있다.31 더 나아가, 수억 개의 염기 서열로 이루어진 DNA와 같은 유전체학(Genomics) 데이터 분석에 트랜스포머를 적용하는 길을 열었다. BigBird와 같은 모델은 유전자 발현 예측, 질병 관련 변이 탐색 등 생명정보학의 난제에 새로운 해법을 제시하고 있다.10
코드 분석: 프로그램 소스 코드는 변수 선언과 사용, 함수 호출 등 복잡한 장거리 의존성을 내포하고 있다. 희소 어텐션은 이러한 긴 코드 시퀀스를 효율적으로 분석하여 코드 자동 완성, 버그 탐지, 코드 의미 분석 등 소프트웨어 공학 분야의 생산성을 높이는 데 기여할 잠재력을 가지고 있다.34

이처럼 하이브리드 어텐션은 이전에 계산적 한계로 인해 트랜스포머의 적용이 어려웠던 도메인 특화 문제들을 해결하는 기폭제가 되었으며, 이는 각 분야에 특화된 수많은 장문 맥락 모델의 ’캄브리아기 대폭발’과 같은 현상을 촉발했다.

5.2. 미래 연구 방향 및 전망

하이브리드 어텐션은 긴 시퀀스 처리 문제에 대한 중요한 이정표를 세웠지만, 여전히 연구는 현재진행형이다. 앞으로의 연구는 더욱 효율적이고 유연하며 강력한 차세대 어텐션 메커니즘을 향해 나아갈 것이다.

동적 및 적응형 희소 패턴: 현재의 Longformer나 BigBird는 대부분 고정된(fixed) 희소 패턴을 사용한다. 미래의 연구는 입력 데이터의 내용이나 처리 중인 태스크의 특성에 따라 어텐션 패턴을 동적으로 학습하고 적응시키는 방향으로 나아갈 것이다. 이는 모델이 스스로 데이터에 가장 적합한 정보 흐름 경로를 찾아내도록 하여, 고정된 패턴의 귀납적 편향을 극복하고 더 높은 성능을 달성하게 할 것이다.
다양한 효율화 기법과의 결합: 희소화는 어텐션을 효율화하는 유일한 방법이 아니다. 어텐션 행렬이 본질적으로 저랭크(low-rank)라는 사실을 이용하여 행렬 분해를 통해 근사하는 방법13이나, 커널(kernel) 함수를 이용해 내적 계산을 근사하여 선형 복잡도를 달성하는 방법 등 다양한 연구가 진행되고 있다. 미래에는 이러한 저랭크 근사, 커널 기반 방법, 그리고 희소화 기법을 결합하여 성능과 효율성의 새로운 파레토 최적(Pareto frontier)을 탐색하는 하이브리드-하이브리드 모델이 등장할 것으로 전망된다.
하드웨어 최적화: 희소 행렬 연산은 표준 GPU나 TPU와 같은 밀집 행렬 연산에 최적화된 하드웨어에서 항상 최고의 효율을 보이지는 않는다.33 따라서 희소 어텐션 패턴에 특화된 새로운 하드웨어 아키텍처나, 기존 하드웨어에서 희소 연산을 가속하는 소프트웨어 커널에 대한 연구가 더욱 중요해질 것이다. 하드웨어와 알고리즘의 공동 설계(co-design)는 효율성의 한계를 한 단계 더 끌어올릴 것이다.

궁극적으로, 이 모든 연구의 지향점은 ’컨텍스트 윈도우’라는 개념 자체의 한계를 없애는 것이다. 현재의 모델들이 수천, 수만 토큰을 처리할 수 있게 되었지만, 여전히 고정된 길이의 한계는 존재한다. 거의 무한한 길이의 컨텍스트를 실시간으로, 효율적으로 처리할 수 있는 진정한 의미의 ’장기 기억’을 갖춘 차세대 트랜스포머 아키텍처의 등장은 인공지능의 능력을 다시 한번 비약적으로 발전시키는 변곡점이 될 것이다. 하이브리드 어텐션은 그 목표를 향한 여정에서 가장 중요한 발판 중 하나로 기록될 것이다.

참고 자료

Transformer (deep learning architecture) - Wikipedia, 9월 1, 2025에 액세스, https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
Computational Complexity of Self-Attention in the Transformer Model - Stack Overflow, 9월 1, 2025에 액세스, https://stackoverflow.com/questions/65703260/computational-complexity-of-self-attention-in-the-transformer-model
Tutorial 6: Transformers and Multi-Head Attention — UvA DL …, 9월 1, 2025에 액세스, https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial6/Transformers_and_MHAttention.html
[D] How to truly understand attention mechanism in transformers? : r/MachineLearning - Reddit, 9월 1, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/qidpqx/d_how_to_truly_understand_attention_mechanism_in/
Understanding Scaled Dot-Product Attention in Transformer Models - Medium, 9월 1, 2025에 액세스, https://medium.com/@saraswatp/understanding-scaled-dot-product-attention-in-transformer-models-5fe02b0f150c
What is the time complexity of self-attention in deep learning models? - Massed Compute, 9월 1, 2025에 액세스, https://massedcompute.com/faq-answers/?question=What%20is%20the%20time%20complexity%20of%20self-attention%20in%20deep%20learning%20models?
Attention Mechanism Complexity Analysis | by Mridul Rao | Medium, 9월 1, 2025에 액세스, https://medium.com/@mridulrao674385/attention-mechanism-complexity-analysis-7314063459b1
On The Computational Complexity of Self-Attention - Proceedings of Machine Learning Research, 9월 1, 2025에 액세스, https://proceedings.mlr.press/v201/duman-keles23a/duman-keles23a.pdf
[2004.05150] Longformer: The Long-Document Transformer - ar5iv - arXiv, 9월 1, 2025에 액세스, https://ar5iv.labs.arxiv.org/html/2004.05150
Big Bird: Transformers for Longer Sequences, 9월 1, 2025에 액세스, https://proceedings.neurips.cc/paper/2020/file/c8512d142a2d849725f31a9a7a361ab9-Paper.pdf
ETC: Encoding Long and Structured Inputs in … - ACL Anthology, 9월 1, 2025에 액세스, https://aclanthology.org/2020.emnlp-main.19.pdf
Paper page - Longformer: The Long-Document Transformer - Hugging Face, 9월 1, 2025에 액세스, https://huggingface.co/papers/2004.05150
[2006.04768] Linformer: Self-Attention with Linear Complexity - arXiv, 9월 1, 2025에 액세스, https://arxiv.org/abs/2006.04768
Demystifying Sparse Attention: Longformer, BigBird, Reformer, and Linformer Explained | by Boopathi Raj | Medium, 9월 1, 2025에 액세스, https://medium.com/@rajboopathiking/demystifying-sparse-attention-longformer-bigbird-reformer-and-linformer-explained-029b97588144
Big Bird: Transformers for Longer Sequences | Request PDF - ResearchGate, 9월 1, 2025에 액세스, https://www.researchgate.net/publication/343279169_Big_Bird_Transformers_for_Longer_Sequences
Efficient Headline Generation with Hybrid Attention for Long Texts - MDPI, 9월 1, 2025에 액세스, https://www.mdpi.com/2079-9292/13/17/3558
Efficient Attentions for Long Document Summarization - ACL Anthology, 9월 1, 2025에 액세스, https://aclanthology.org/2021.naacl-main.112.pdf
arXiv:2202.07856v2 [cs.CL] 11 Feb 2023, 9월 1, 2025에 액세스, https://arxiv.org/pdf/2202.07856
Longformer: The Long-Document Transformer - ResearchGate, 9월 1, 2025에 액세스, https://www.researchgate.net/publication/340598399_Longformer_The_Long-Document_Transformer
Longformer: The Long-Document Transformer, 9월 1, 2025에 액세스, https://arxiv.org/abs/2004.05150
google-research/bigbird: Transformers for Longer Sequences - GitHub, 9월 1, 2025에 액세스, https://github.com/google-research/bigbird
Big Bird: Transformers for Longer Sequences - arXiv, 9월 1, 2025에 액세스, https://arxiv.org/pdf/2007.14062
Big Bird: Transformers for Longer Sequences, 9월 1, 2025에 액세스, https://arxiv.org/abs/2007.14062
Longformer: The Long-Document Transformer - GitHub, 9월 1, 2025에 액세스, https://github.com/allenai/longformer
(Open Access) Longformer: The Long-Document Transformer (2020) | Iz Beltagy - SciSpace, 9월 1, 2025에 액세스, https://scispace.com/papers/longformer-the-long-document-transformer-18yjwxjc7v
Review — Big Bird: Transformers for Longer Sequences | by Sik-Ho Tsang - Medium, 9월 1, 2025에 액세스, https://sh-tsang.medium.com/brief-review-big-bird-transformers-for-longer-sequences-12ccd3430e3b
ETC: Encoding Long and Structured Data in Transformers | Request PDF - ResearchGate, 9월 1, 2025에 액세스, https://www.researchgate.net/publication/340805792_ETC_Encoding_Long_and_Structured_Data_in_Transformers
ETC: Encoding Long and Structured Inputs in Transformers | Request PDF - ResearchGate, 9월 1, 2025에 액세스, https://www.researchgate.net/publication/347234923_ETC_Encoding_Long_and_Structured_Inputs_in_Transformers
ETC: Encoding Long and Structured Inputs in Transformers - Google Research, 9월 1, 2025에 액세스, https://research.google/pubs/etc-encoding-long-and-structured-inputs-in-transformers/
A Comparative Study of Transformer-based and Hybrid Deep Learning Models for Long Document Summarization of academic research papers - ResearchGate, 9월 1, 2025에 액세스, https://www.researchgate.net/publication/394880352_A_Comparative_Study_of_Transformer-based_and_Hybrid_Deep_Learning_Models_for_Long_Document_Summarization_of_academic_research_papers
[2201.11838] Clinical-Longformer and Clinical-BigBird: Transformers for long clinical sequences - arXiv, 9월 1, 2025에 액세스, https://arxiv.org/abs/2201.11838
Path-BigBird: An AI-Driven Transformer Approach to Classification of Cancer Pathology Reports - PMC - PubMed Central, 9월 1, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10904099/
Day 29: Sparse Transformers: Efficient Scaling for Large Language Models, 9월 1, 2025에 액세스, https://dev.to/nareshnishad/day-29-sparse-transformers-efficient-scaling-for-large-language-models-59j5
Sparse Attention-Based Neural Networks for Code Classification - arXiv, 9월 1, 2025에 액세스, https://arxiv.org/pdf/2311.06575
SparseCoder: Advancing Source Code Analysis with Sparse Attention and Learned Token Pruning - arXiv, 9월 1, 2025에 액세스, https://arxiv.org/html/2310.07109v2