2017년 “Attention Is All You Need” 논문을 통해 트랜스포머(Transformer) 아키텍처가 세상에 등장한 이래, 인공지능 분야는 근본적인 패러다임 전환을 맞이하였다.1 순환 신경망(RNN)의 순차적 처리 방식이 가지는 장기 의존성 포착의 어려움과 병렬 처리의 한계를 극복한 셀프 어텐션(self-attention) 메커니즘은 자연어 처리(NLP) 분야를 순식간에 평정하였고, 이내 컴퓨터 비전, 음성 처리 등 인접 분야로 그 영향력을 확장하며 명실상부한 표준 아키텍처로 자리매김하였다.3 모델이 시퀀스 내의 모든 요소 쌍 간의 관계를 직접적으로 모델링하여 전역적인 문맥을 효과적으로 파악할 수 있게 한 것이 성공의 핵심 동력이었다.3
그러나 이 혁신적인 아키텍처의 성공 이면에는 치명적인 계산적 제약이 존재한다. 바로 셀프 어텐션의 계산량과 메모리 요구량이 입력 시퀀스의 길이 $n$에 대해 이차적으로($O(n^2)$) 증가하는 문제이다.6 이 이차적 복잡도는 트랜스포머가 처리할 수 있는 시퀀스 길이에 근본적인 족쇄를 채웠다. BERT와 같은 초기 모델들이 최대 512 토큰이라는 제한된 길이만을 다룰 수 있었던 이유가 바로 여기에 있다.8 이로 인해 장문서 요약, 고해상도 이미지 생성, 장시간 오디오 처리와 같이 긴 문맥에 대한 이해가 필수적인 수많은 과제에서 트랜스포머의 잠재력을 온전히 발휘하기 어려웠다.10
이러한 계산적 장벽을 극복하고 트랜스포머를 진정한 ‘장문맥(long-context)’ 시대로 이끌기 위한 필연적인 대안으로 희소 어텐션(Sparse Attention)이 등장하였다.12 희소 어텐션의 핵심 철학은 모든 토큰 쌍 간의 상호작용이 동등하게 중요하지 않다는 관찰에서 출발한다.13 실제로 대부분의 정보 교환은 일부 핵심적인 연결을 통해 이루어지므로, 전체 어텐션 행렬($n \times n$)에서 중요도가 낮은 연결을 생략하고 일부 중요한 연결에만 계산 자원을 집중함으로써 효율성을 극대화하고자 하는 것이다.9
초기 연구는 단순히 $O(n^2)$라는 계산 복잡도를 줄이는 데 집중하였으나, 연구가 심화됨에 따라 문제는 ‘어떻게 모든 계산을 피할 것인가’에서 ‘어떤 연결을 유지해야 모델의 표현력을 보존하면서 효율성을 얻을 수 있는가’로 재정의되었다. 즉, 단순한 계산량 감소의 문제를 넘어, 정보가 모델 내에서 어떻게 효율적으로 흐를 수 있는지에 대한 ‘연결성(connectivity)’ 설계의 문제로 발전한 것이다. 이는 Longformer의 ‘로컬+글로벌’ 어텐션이나 BigBird의 ‘로컬+글로벌+랜덤’ 어텐션과 같은 설계 철학에서 명확히 드러나며, 데이터의 내재적 구조에 대한 귀납적 편향(inductive bias)을 아키텍처에 주입하는 정교한 접근법으로 이어졌다.7
본 보고서는 표준 셀프 어텐션의 근본적인 한계를 명확히 규명하고, 이를 해결하기 위해 제안된 다양한 희소 어텐션 기법들의 철학과 원리를 심층적으로 분석한다. OpenAI의 Sparse Transformer, Longformer, BigBird, Reformer 등 선구적인 아키텍처들의 수학적 원리, 성능 벤치마크, 장단점을 비교 평가하고, 나아가 하드웨어 최적화 동향과 미래 연구 방향을 조망함으로써 희소 어텐션 분야에 대한 포괄적이고 깊이 있는 통찰을 제공하고자 한다.
희소 어텐션의 필요성을 이해하기 위해서는 먼저 표준 셀프 어텐션, 특히 스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)의 작동 방식과 그로 인한 계산적 병목 현상을 정확히 파악해야 한다.
트랜스포머의 셀프 어텐션은 “쿼리(Query), 키(Key), 값(Value)이라는 세 가지 벡터를 사용하여 입력 시퀀스 내의 각 요소에 대한 가중치를 계산하는 메커니즘”으로 요약할 수 있다.1 입력 시퀀스의 각 토큰 임베딩 벡터는 세 개의 서로 다른 가중치 행렬($W^Q, W^K, W^V$)과 곱해져 각각 쿼리($Q$), 키($K$), 값($V$) 벡터로 변환된다. 이 과정을 통해 모델은 각 토큰이 다른 토큰들과의 관계를 파악(쿼리-키)하고, 그 관계의 중요도에 따라 정보를 취합(값)할 수 있는 능력을 갖추게 된다.1
스케일드 닷-프로덕트 어텐션 함수는 다음 수식으로 정의된다.1 \(\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\) 이 수식은 다음과 같은 단계로 해석할 수 있다.
표준 셀프 어텐션의 강력한 표현력은 모든 토큰 쌍 간의 상호작용을 계산하는 데서 비롯되지만, 바로 이 지점이 계산적 병목을 야기하는 아킬레스건이 된다. 시퀀스 길이를 $n$, 각 토큰의 임베딩 차원을 $d$라고 가정하자. 멀티-헤드 어텐션에서는 이 차원이 헤드 수 $h$로 나뉘어 각 헤드의 차원은 $d_k = d_v = d/h$가 된다.
핵심적인 병목 현상은 쿼리 행렬 $Q$와 전치된 키 행렬 $K^T$의 곱셈에서 발생한다.6
이 $(n, n)$ 크기의 어텐션 스코어 행렬을 계산하고 메모리에 저장하는 데 필요한 시간 및 공간 복잡도는 각각 $O(n^2 \cdot d_k)$와 $O(n^2)$이다. 일반적으로 헤드 차원 $d_k$는 모델 하이퍼파라미터로 고정된 상수 취급되므로, 전체 복잡도는 시퀀스 길이 $n$에 대해 $O(n^2)$로 표현된다.6
이 $O(n^2)$ 복잡도는 시퀀스 길이가 길어질수록 재앙에 가까운 계산 비용 증가를 초래한다. 예를 들어, 시퀀스 길이가 64,000($64K$)인 문서를 처리한다고 가정해보자. 이 경우 어텐션 스코어 행렬의 크기는 $(64K, 64K)$가 되며, 각 원소를 32비트 부동소수점(4 bytes)으로 저장할 경우 필요한 메모리는 $64000 \times 64000 \times 4$ bytes, 즉 약 16GB에 달한다.14 이는 단일 어텐션 헤드, 단일 레이어에서 발생하는 메모리 요구량이며, 현대의 대규모 모델이 수십 개의 레이어와 헤드를 사용하는 것을 감안하면 사실상 감당 불가능한 수준이다.
이러한 근본적인 제약으로 인해 표준 트랜스포머는 장문서 분류, 긴 대화형 QA, 고해상도 이미지 생성, 비디오 처리 등 방대한 문맥 정보가 필수적인 수많은 현실 세계의 문제에 적용되기 어려웠다. 이는 훈련 단계뿐만 아니라 추론 단계에서도 마찬가지로 심각한 병목으로 작용하며 6, 트랜스포머 아키텍처의 잠재력을 제한하는 가장 큰 걸림돌로 지적되어 왔다.
표준 어텐션의 $O(n^2)$ 장벽을 넘기 위해 등장한 희소 어텐션은 단순히 계산을 생략하는 기술적 트릭을 넘어, 어텐션 메커니즘의 본질과 데이터의 내재적 구조에 대한 깊은 통찰에 기반한다.
희소 어텐션이 계산 효율성을 높이면서도 모델 성능을 유지하거나 심지어 향상시킬 수 있는 이유는 여러 이론적, 경험적 근거에 의해 뒷받침된다.
이러한 배경을 바탕으로, 희소 어텐션 연구는 ‘정적 설계’에서 ‘동적 적응’으로, 그리고 최근에는 ‘하드웨어와의 공동 설계’로 진화하는 뚜렷한 궤적을 보여왔다. 초기에는 Longformer나 Sparse Transformer처럼 데이터에 대한 일반적인 가정(예: 지역성)을 바탕으로 ‘설계된’ 고정 희소 패턴을 제안했다.11 이는 효율적이었지만, 가정이 데이터의 특성과 맞지 않을 경우 성능 저하의 한계를 보였다. 이후 Reformer와 같이 콘텐츠의 유사성에 기반해 동적으로 클러스터를 형성하거나 18, VSA처럼 중요한 토큰을 데이터로부터 직접 ‘학습’하는 적응형 방식으로 발전했다.19 가장 최근에는 NSA(Natively Trainable Sparse Attention)와 같이, 이론적 계산량 감소가 실제 하드웨어(GPU)에서의 속도 향상으로 직결되도록 메모리 접근 패턴과 산술 강도(Arithmetic Intensity)까지 고려하는 ‘하드웨어-정렬(Hardware-Aligned)’ 설계 패러다임이 부상하고 있다.10 이 진화 과정은 딥러닝 연구가 순수한 알고리즘 설계를 넘어, 실제 배포 환경의 물리적 제약까지 고려하는 방향으로 성숙하고 있음을 보여준다.
다양한 희소 어텐션 기법들은 그 접근 방식에 따라 여러 범주로 체계적으로 분류할 수 있다. “A Survey of Efficient Transformers”와 같은 연구에서는 다음과 같은 분류 체계를 제시한다.20
이러한 분류 체계는 복잡하고 방대한 희소 어텐션 연구의 지형을 이해하는 데 유용한 나침반 역할을 한다. 각 기법의 핵심 철학과 장단점을 파악하고, 특정 문제에 가장 적합한 접근법을 선택하는 데 체계적인 기준을 제공한다.
희소 어텐션의 개념을 구체화하고 그 가능성을 입증한 여러 선구적인 아키텍처들이 있다. 이들은 각기 다른 철학과 방식으로 $O(n^2)$의 장벽에 도전했으며, 후속 연구에 지대한 영향을 미쳤다.
OpenAI에서 제안한 Sparse Transformer는 밀집된(dense) $n \times n$ 어텐션 계산을 여러 개의 더 작고 희소한 어텐션 계산으로 분해(factorize)하는 아이디어를 처음으로 제시했다.17 핵심은 정보가 희소한 연결망을 통해 여러 단계를 거치더라도 결국 시퀀스 내의 모든 위치 쌍 간에 도달할 수 있는 경로를 보장하는 것이다.21 이를 위해 두 가지 주요 2차원 분해 패턴을 제안했다.
l개 토큰에만 주의를 기울이는 지역적(local) 어텐션을 수행한다. 다른 헤드는 일정한 보폭(stride) l만큼 떨어진 토큰들에만 주의를 기울인다. 예를 들어, 100번째 토큰은 99, 98,…번째 토큰에 주목하는 동시에, 88, 76, 64,…번째(보폭이 12인 경우) 토큰에도 주목한다. 이 방식은 2D 격자 구조를 가지는 이미지나 주기적인 패턴을 보이는 오디오 데이터에 특히 효과적이다.17l의 블록으로 나눌 때, 각 블록의 마지막 c개 토큰이 해당 블록의 정보를 요약하고, 이후의 모든 토큰들이 이 요약 토큰들에 주목할 수 있도록 한다. 이를 통해 정보가 블록 경계를 넘어 효율적으로 전파될 수 있다.21Sparse Transformer는 이러한 분해된 어텐션을 통해 각 어텐션 헤드가 전체 $n$개가 아닌 약 $\sqrt{n}$개의 토큰에만 주목하도록 설계했다. 그 결과, 전체 계산 복잡도는 $O(n^2)$에서 $O(n\sqrt{n})$으로 크게 감소하였고, 수만 타임스텝 길이를 갖는 시퀀스 모델링의 가능성을 열었다.21
Longformer는 대부분의 NLP 과제에서 어텐션이 주로 지역적으로 발생한다는 강력한 직관에 기반하여 설계되었다.11 이는 Sparse Transformer보다 더 공격적으로 복잡도를 줄여 선형 복잡도($O(n)$)를 달성하는 것을 목표로 한다.
윈도우 크기 $w$와 글로벌 토큰의 수 $g$는 시퀀스 길이 $n$에 비해 매우 작은 상수이므로, 슬라이딩 윈도우 어텐션($O(n \cdot w)$)과 글로벌 어텐션($O(n \cdot g)$)을 결합한 전체 계산 복잡도는 실질적으로 $O(n)$이 된다.11 이 선형 복잡도 덕분에 Longformer는 수천 개 이상의 토큰으로 구성된 긴 문서를 효율적으로 처리할 수 있게 되었다.
Longformer와 같은 초기 모델들이 경험적 성능과 효율성에 집중한 반면, BigBird는 희소 어텐션이 과연 표준(full) 어텐션의 강력한 이론적 속성을 유지할 수 있는가라는 근본적인 질문에 답하고자 했다.7 연구진은 BigBird가 완전 어텐션과 마찬가지로 튜링 완전(Turing Complete)하며, 모든 연속적인 시퀀스 함수에 대한 보편적 근사자(Universal Approximator)임을 수학적으로 증명했다.7
이를 위해 BigBird는 세 가지 어텐션 구성 요소를 정교하게 결합한다.7
이 세 가지 메커니즘의 조합을 통해 BigBird는 계산 복잡도를 $O(n)$으로 줄이면서도, 정보가 시퀀스 내의 어떤 노드 쌍 사이에서도 제한된 단계를 거쳐 흐를 수 있는 경로를 보장한다. 이는 BigBird가 단순한 근사 기법을 넘어, 이론적으로도 견고한 기반을 갖춘 범용적인 장문맥 처리 아키텍처임을 의미한다.7
Reformer는 두 가지 혁신적인 기술을 통해 트랜스포머의 효율성을 극한으로 끌어올리고자 했다: 국소 민감 해싱(Locality-Sensitive Hashing, LSH) 어텐션과 가역 잔차 네트워크(Reversible Residual Networks)이다.18
LSH 어텐션: 이 기법의 핵심 아이디어는 ‘유사한 벡터는 높은 확률로 같은 해시 버킷에 속한다’는 LSH의 원리를 이용하는 것이다.18 전체
$n$개의 키에 대해 유사도를 계산하는 대신, 각 쿼리는 자신과 동일한 해시 버킷에 속하는 키들에 대해서만 어텐션을 계산한다. 구현의 효율성을 위해 모든 쿼리-키 벡터를 해시값으로 정렬한 뒤, 인접한 벡터들끼리 묶어(chunking) 어텐션을 계산하는 방식을 사용한다. 이를 통해 모든 쌍을 비교하지 않고도 높은 확률로 가장 유사한 쌍을 찾을 수 있게 된다.18 이 근사적 접근법을 통해 시간 복잡도는
$O(n \log n)$으로 감소한다.18
가역 잔차 네트워크: 어텐션 계산 외에 트랜스포머의 또 다른 메모리 병목은 역전파(backpropagation)를 위해 각 레이어의 활성화(activation) 값을 모두 저장해야 한다는 점이다. 모델의 레이어 수가 $N$개일 때 메모리 사용량은 $N$에 비례하여 증가한다. Reformer는 가역 잔차 네트워크를 도입하여 이 문제를 해결했다. 이 구조에서는 다음 레이어의 활성화 값으로부터 이전 레이어의 활성화 값을 수학적으로 복원(재계산)할 수 있다. 따라서 훈련 중에 활성화 값을 저장할 필요가 없어지며, 모델의 깊이와 무관하게 메모리 사용량을 $O(1)$ 수준으로 유지할 수 있다. 이 혁신 덕분에 이전에는 상상할 수 없었던 수백 개의 레이어를 가진 매우 깊은 트랜스포머 모델의 훈련이 가능해졌다.14
다양한 희소 어텐션 아키텍처들은 각기 다른 벤치마크에서 그 효과를 입증하며 장문맥 처리 능력의 새로운 기준을 제시했다. 이들의 성능을 종합적으로 비교하고 분석하는 것은 각 아키텍처의 강점과 적용 분야를 이해하는 데 필수적이다.
각 희소 어텐션 아키텍처의 핵심적인 특징과 장단점을 한눈에 비교하기 위해 다음 표를 제시한다. 이 표는 각 모델의 근본적인 메커니즘, 계산 복잡도, 이론적 기반, 그리고 주요 적용 분야를 종합적으로 요약하여 독자의 이해를 돕는다.
| 특징 | Standard Transformer | Sparse Transformer | Longformer | BigBird | Reformer |
|---|---|---|---|---|---|
| 핵심 메커니즘 | Full Attention | Factorized Attention (Strided, Fixed) | Sliding Window + Global | Window + Random + Global | Locality-Sensitive Hashing (LSH) |
| 시간 복잡도 | $O(n^2)$ | $O(n\sqrt{n})$ | $O(n)$ | $O(n)$ | $O(n \log n)$ |
| 공간 복잡도 | $O(n^2)$ | $O(n\sqrt{n})$ | $O(n)$ | $O(n)$ | $O(n \log n)$ |
| 이론적 속성 | Turing Complete | - | - | Turing Complete, Universal Approx. | Approximation |
| 장점 | 높은 표현력, 구현 용이 | 장문맥 생성에 강력, 이미지/오디오 적용 | 선형 복잡도, 긴 문서 이해에 탁월 | 이론적 보장, 범용성, 강력한 성능 | 극도의 메모리 효율성(가역 레이어) |
| 단점 | $n^2$ 복잡도, 장문맥 처리 불가 | 패턴이 데이터와 안 맞을 수 있음 | 글로벌 토큰 수동 지정 필요 | 랜덤 어텐션 구현 복잡성 | 근사로 인한 정확도 손실 가능성 |
| 주요 적용 분야 | 단문 NLP 과제 | 고해상도 이미지/오디오 생성 | 장문서 QA, 분류, 요약 | 장문서 처리 전반, 유전체학 | 수십만 토큰 길이의 초장문맥 처리 |
이 분석을 통해 각 희소 어텐션 모델이 특정 트레이드오프(trade-off) 관계 위에 있음을 알 수 있다. Longformer는 단순하고 효과적인 선형 복잡도를 제공하지만, 글로벌 토큰을 수동으로 지정해야 하는 등 태스크 의존적인 측면이 있다. BigBird는 이론적 견고함과 뛰어난 범용성을 자랑하지만, 랜덤 어텐션으로 인해 구현이 다소 복잡할 수 있다. Reformer는 LSH와 가역 레이어를 통해 압도적인 메모리 효율성을 달성하지만, 해싱 기반 근사로 인해 미세한 정확도 손실이 발생할 수 있다. 따라서 특정 응용 분야에 가장 적합한 모델을 선택하기 위해서는 이러한 장단점을 종합적으로 고려하는 것이 중요하다.
희소 어텐션의 연구가 심화되면서, 알고리즘의 이론적 계산 복잡도(FLOPs) 감소가 실제 하드웨어에서의 속도(throughput) 향상으로 반드시 이어지지는 않는다는 점이 명확해졌다. 이는 현대 GPU 아키텍처의 작동 방식과 밀접한 관련이 있으며, ‘하드웨어-인식(hardware-aware)’ 최적화의 중요성을 부각시켰다.
GPU와 같은 현대 가속기는 계산(computation) 속도에 비해 메모리 접근(memory access) 속도가 상대적으로 느리다. 따라서 연산의 효율성은 순수한 계산량뿐만 아니라, 계산에 필요한 데이터를 얼마나 효율적으로 메모리에서 가져오고 쓰는가에 크게 좌우된다. 이 비율을 나타내는 척도가 산술 강도(Arithmetic Intensity), 즉 메모리 접근 단위 당 수행되는 계산의 양이다.10
희소 어텐션, 특히 랜덤 어텐션과 같이 불규칙하고 분산된 메모리 접근 패턴을 요구하는 알고리즘은 GPU의 메모리 대역폭에 큰 부담을 준다.10 각 어텐션 헤드가 시퀀스의 서로 다른 위치에서 데이터를 무작위로 가져와야 한다면(gather operation), 이는 메모리 접근의 지역성(locality)을 해치고 캐시 효율성을 떨어뜨린다. 결과적으로 GPU의 연산 유닛은 데이터를 기다리며 유휴 상태에 머무는 시간이 길어지고, 산술 강도가 낮아져 이론적으로 FLOPs를 줄였음에도 불구하고 실제 실행 시간은 기대만큼 단축되지 않거나 오히려 느려질 수 있다. 이 때문에 하드웨어의 특성을 고려하지 않은 희소 어텐션은 ‘공짜 점심이 아님’이 밝혀졌다.6
이러한 간극을 메우기 위해 초기 희소 어텐션 연구들은 특정 희소 패턴에 최적화된 저수준(low-level)의 커스텀 CUDA 커널을 개발하는 데 많은 노력을 기울였다. 예를 들어, OpenAI의 Sparse Transformer는 블록-희소(block-sparse) 행렬 곱셈을 효율적으로 수행하는 커널을 제공했으며 28, Longformer 역시 슬라이딩 윈도우 어텐션을 위한 커스텀 CUDA 커널을 구현했다.29 이러한 커널들은 메모리 접근을 최대한 병합하고 GPU의 병렬 처리 능력을 극대화하도록 설계되었다.
최근에는 Triton과 같은 프로그래밍 언어의 등장으로 이러한 최적화 과정이 더욱 용이해졌다. Triton은 연구자들이 파이썬과 유사한 구문으로 고성능 GPU 커널을 작성할 수 있게 해주어, 복잡한 CUDA C++ 코드 없이도 특정 희소 어텐션 패턴에 맞는 고도로 최적화된 커널을 신속하게 개발하고 실험할 수 있는 환경을 제공한다.10 이는 알고리즘 아이디어와 하드웨어 구현 사이의 거리를 좁히는 데 중요한 역할을 하고 있다.
희소 어텐션과는 다른 방향에서 어텐션 효율성 문제를 해결한 FlashAttention의 등장은 이 분야에 중요한 시사점을 던졌다.32 FlashAttention은 어텐션 행렬을 희소화하지 않고도 표준 어텐션을 획기적으로 가속화한다. 그 비결은 계산량(FLOPs)이 아닌 메모리 I/O를 최적화하는 데 있다.
FlashAttention의 핵심 아이디어는 거대한 $n \times n$ 어텐션 행렬을 GPU의 주 메모리인 HBM(High Bandwidth Memory)에 아예 생성하거나 저장하지 않는 것이다. 대신, 타일링(Tiling) 기법을 사용하여 입력 $Q, K, V$ 행렬을 작은 블록으로 나눈다. 각 블록은 GPU 코어에 훨씬 가깝고 빠른 SRAM(On-chip Static RAM)으로 로드되어 어텐션 계산의 일부(행렬 곱, 소프트맥스 등)가 수행된다. 이 과정에서 중간값들은 HBM에 다시 쓰이지 않고 SRAM 내에서 처리되거나, 역전파 시 재계산(recomputation)된다. 이러한 I/O-인식(I/O-aware) 설계는 HBM과의 데이터 교환 횟수를 극적으로 줄여 메모리 대역폭 병목을 완화하고 전체 어텐션 연산을 크게 가속화한다.30
FlashAttention의 성공은 희소 어텐션 연구에도 새로운 방향을 제시했다. 즉, 단순히 0이 아닌 원소의 수를 줄이는 것을 넘어, 그 0이 아닌 원소들이 어떻게 메모리에 배치되고 접근되는지가 실제 성능에 결정적이라는 것이다. 이에 따라, FlashAttention의 I/O 효율적인 계산 방식을 희소 패턴에 맞게 수정하려는 연구가 활발히 진행되고 있다. 예를 들어, Binary Block Masking과 같은 기술은 FlashAttention의 타일링 구조 내에서 희소 마스크를 효율적으로 적용하여, 희소성의 계산량 감소 이점과 FlashAttention의 I/O 효율성 이점을 모두 취하고자 한다.33 이는 차세대 희소 어텐션이 알고리즘적 희소성과 하드웨어적 I/O 효율성을 동시에 고려하는 방향으로 나아갈 것임을 예고한다.
희소 어텐션 분야는 지난 몇 년간 눈부신 발전을 거듭해왔으며, 현재도 활발한 연구가 진행 중이다. 미래의 희소 어텐션은 더욱 동적이고, 하드웨어에 최적화되며, 모델의 근본적인 학습 능력과 깊이 연관된 방향으로 진화할 것으로 전망된다.
고정된 패턴을 사용하는 초기 희소 어텐션의 한계를 넘어, 입력 데이터의 내용에 따라 실시간으로 어텐션 패턴을 결정하는 동적(dynamic) 및 데이터 의존적(data-dependent) 희소성 연구가 주목받고 있다.12 이러한 접근법은 모델이 각 입력에 가장 적합한 정보 흐름 경로를 스스로 찾게 함으로써 유연성과 성능을 극대화하는 것을 목표로 한다.
예를 들어, 비디오 처리를 위한 VSA(Video Sparse Attention)는 두 단계의 계층적 접근법을 제안한다.19 먼저, 비디오 토큰들을 거친(coarse) 수준에서 풀링(pooling)하여 경량의 어텐션을 수행한다. 이 단계의 목적은 전체 비디오에서 정보적으로 가장 중요한 ‘핵심’ 영역(critical tokens)이 어디인지를 예측하는 것이다. 그런 다음, 두 번째 단계에서는 예측된 핵심 영역 내에서만 고해상도의 세밀한(fine-grained) 어텐션을 집중적으로 계산한다. 이처럼 중요한 부분과 그렇지 않은 부분을 동적으로 구분하여 계산 자원을 효율적으로 배분하는 방식은 미래 희소 어텐션의 중요한 패러다임이 될 것이다.
이론적 효율성이 실제 하드웨어에서의 성능 향상으로 이어지기 위해서는 알고리즘 설계 단계부터 하드웨어 아키텍처를 깊이 고려하는 하드웨어-소프트웨어 공동 설계(co-design)가 필수적이다. NSA(Natively Trainable Sparse Attention)와 같은 최신 연구는 이러한 철학을 적극적으로 반영한다.10 NSA는 토큰 압축, Top-k 선택, 슬라이딩 윈도우를 결합한 계층적 희소 전략을 사용하면서, 각 연산이 GPU의 메모리 계층 구조와 연산 특성에 잘 부합하도록 설계되었다. 예를 들어, 불규칙한 메모리 접근을 최소화하고, 행렬 곱셈과 같은 연산이 GPU의 텐서 코어를 효율적으로 활용할 수 있도록 블록 단위로 연산을 구성한다. 이를 통해 산술 강도를 균형 있게 유지하고, 이론적 FLOPs 감소를 실제 속도 향상으로 극대화한다.10 미래의 효율적인 아키텍처는 이처럼 알고리즘의 우아함과 하드웨어의 실용성을 동시에 추구하는 방향으로 발전할 것이다.
희소 어텐션 연구의 가장 흥미로운 미래 방향 중 하나는 희소성이 모델의 창발적 능력과 맺는 근본적인 관계를 탐구하는 것이다. 최근 연구에 따르면, 인-컨텍스트 학습과 같은 LLM의 고차원적인 추론 능력은 훈련 과정에서 특정 희소 어텐션 패턴(예: 이전 토큰에 주목하여 다음 토큰 정보를 복사하는 Induction Head)이 형성되면서 발현된다는 강력한 증거가 제시되었다.15
이는 희소성이 단순히 계산 효율성을 위한 사후 최적화 기법이 아니라, 모델이 복잡한 알고리즘을 학습하고 일반화하는 핵심 메커니즘일 수 있음을 시사한다. 데이터의 통계적 특성(예: 텍스트 내의 반복적인 패턴)이 이러한 유용한 희소 패턴의 형성을 촉진하고, 결과적으로 특정 능력의 발현 시점을 앞당길 수 있다는 가설도 제기되었다.15 앞으로 희소 어텐션의 학습 동역학을 더 깊이 이해하고, 유용한 희소 패턴의 형성을 유도하는 훈련 기법을 개발하는 것은 더 작고 효율적이면서도 강력한 추론 능력을 갖춘 모델을 만드는 데 중요한 열쇠가 될 것이다.
다양한 희소 어텐션 아이디어가 쏟아져 나오면서, 이를 체계적으로 구현하고 평가하는 것의 어려움 또한 커지고 있다. 이러한 문제를 해결하기 위해 AttentionEngine과 같은 통합 프레임워크가 등장하고 있다.36 이러한 프레임워크는 다양한 희소 어텐션 메커니즘(예: 마스킹, 스케일링, 집계)을 모듈화된 기본 연산으로 추상화한다. 사용자는 이 기본 연산들을 조합하여 새로운 희소 어텐션 아이디어를 손쉽게 프로토타이핑할 수 있다. 더 나아가, 이 프레임워크는 주어진 희소 패턴과 백엔드 하드웨어(GPU, TPU 등)의 특성을 고려하여 최적의 커널 코드를 자동으로 생성하고 스케줄링하는 기능까지 제공한다. 이러한 통합 프레임워크의 발전은 새로운 희소 어텐션 연구의 가속화와 산업 현장에서의 신속한 적용을 가능하게 할 것이다.
희소 어텐션은 트랜스포머 아키텍처의 고질적인 $O(n^2)$ 계산 복잡도 병목을 성공적으로 해결하며, 인공지능 모델이 처리할 수 있는 문맥의 길이를 획기적으로 확장시켰다. 이는 단순히 더 긴 시퀀스를 처리하는 기술적 진보를 넘어, 모델이 이전에는 접근할 수 없었던 방대한 정보 속에서 더 깊은 의미적 관계를 학습하고 복잡한 추론을 수행할 수 있는 기반을 마련했다는 데 근본적인 의의가 있다.
본 보고서에서 심층적으로 분석한 바와 같이, 희소 어텐션 분야는 고정된 패턴을 적용하는 초기 단계를 지나, 데이터로부터 동적으로 패턴을 학습하고 하드웨어의 물리적 특성까지 고려하는 정교한 단계로 성숙해왔다. Longformer의 선형 복잡도 달성, BigBird의 이론적 속성 보존, Reformer의 혁신적인 메모리 효율성, 그리고 FlashAttention이 제시한 I/O-인식 최적화 패러다임에 이르기까지, 각 연구는 효율적인 어텐션을 향한 여정에서 중요한 이정표를 세웠다.
장문맥 시대의 효율적인 트랜스포머를 향한 미래의 길은 하나의 정답이 아닌, 여러 요소의 정교한 조화를 요구한다. 이는 알고리즘의 혁신, 하드웨어 아키텍처에 대한 깊은 이해, 그리고 모델의 학습 동역학에 대한 근본적인 통찰이 결합된 형태가 될 것이다. 동적인 데이터 의존적 희소 패턴을 탐구하고, 하드웨어-소프트웨어 공동 설계를 통해 이론과 실제의 간극을 좁히며, 희소성이 모델의 창발적 능력과 맺는 관계를 규명하는 것은 앞으로의 연구를 이끌어갈 핵심 과제이다.
결론적으로, 희소성은 더 이상 선택적인 최적화 기법이 아니라, 차세대 인공지능 모델의 성능과 효율성을 동시에 달성하기 위한 필수불가결한 요소로 자리 잡았다. 희소성의 원리를 더 깊이 탐구하고 정교하게 활용하는 노력은 계속해서 인공지능 기술의 경계를 넓혀나가는 핵심 동력이 될 것이다.
| Chapter 8 Attention and Self-Attention for NLP | Modern Approaches …, 8월 16, 2025에 액세스, https://slds-lmu.github.io/seminar_nlp_ss20/attention-and-self-attention-for-nlp.html |
| (Open Access) Longformer: The Long-Document Transformer (2020) | Iz Beltagy - SciSpace, 8월 16, 2025에 액세스, https://scispace.com/papers/longformer-the-long-document-transformer-18yjwxjc7v |
| The Detailed Explanation of Self-Attention in Simple Words | by Maninder Singh | Medium, 8월 16, 2025에 액세스, https://medium.com/@manindersingh120996/the-detailed-explanation-of-self-attention-in-simple-words-dec917f83ef3 |
| Deep Dive into Self-Attention by Hand✍︎ | Towards Data Science, 8월 16, 2025에 액세스, https://towardsdatascience.com/deep-dive-into-self-attention-by-hand-%EF%B8%8E-f02876e49857/ |
| Sparse Transformers. From naive sparse attention to Kimi’s… | by Mengliu Zhao | AI Advances, 8월 16, 2025에 액세스, https://ai.gopubby.com/sparse-transformers-d46463e0a9a6 |
| PyTorch Implementation of Sparse Attention | by Amit Yadav | Biased-Algorithms | Medium, 8월 16, 2025에 액세스, https://medium.com/biased-algorithms/pytorch-implementation-of-sparse-attention-6c14514f3dd9 |
| Review - Big Bird: Transformers for Longer Sequences | by Sik-Ho Tsang | Medium, 8월 16, 2025에 액세스, https://sh-tsang.medium.com/brief-review-big-bird-transformers-for-longer-sequences-12ccd3430e3b |
| Big Bird: Transformers for Longer Sequences | Request PDF - ResearchGate, 8월 16, 2025에 액세스, https://www.researchgate.net/publication/343279169_Big_Bird_Transformers_for_Longer_Sequences |
| Native Sparse Attention Surpasses Full Attention in Performance at Lightning Speed | by Yu Yang, Ph.D., PE, PMP | Medium, 8월 16, 2025에 액세스, https://medium.com/@ligtleyang/native-sparse-attention-surpasses-full-attention-in-performance-at-lightning-speed-0dc9af7c3f95 |