Booil Jung

린포머(Linformer)

2017년 Vaswani 등이 발표한 “Attention Is All You Need” 논문에서 소개된 트랜스포머 아키텍처는 자연어 처리(NLP) 분야에 혁명적인 변화를 가져왔다.1 이 모델의 핵심 구성 요소는 ‘스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)’ 메커니즘으로, 시퀀스 내의 각 토큰이 다른 모든 토큰과의 관계를 동적으로 계산하여 문맥적 표현을 학습한다. 이 메커니즘은 수학적으로 다음과 같이 정의된다.2 $\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$ 여기서 $Q$(Query), $K$(Key), $V$(Value)는 입력 시퀀스 임베딩 행렬 $X \in \mathbb{R}^{n \times d}$에 각각 고유한 학습 가능한 가중치 행렬 $W^Q, W^K, W^V \in \mathbb{R}^{d \times d_k}$를 곱하여 생성된 행렬이다. $n$은 시퀀스 길이, $d$는 임베딩 차원, 그리고 $d_k$는 키(및 쿼리) 벡터의 차원을 나타낸다.4 이 연산을 통해 모델은 각 쿼리(토큰)가 어떤 키(다른 토큰들)에 얼마나 ‘주의’를 기울여야 할지를 결정하고, 그 가중치를 값(Value) 벡터에 적용하여 최종 문맥 벡터를 생성한다.

트랜스포머의 강력한 성능에도 불구하고, 셀프 어텐션 메커니즘은 치명적인 계산적 한계를 내포하고 있다. 바로 시퀀스 길이 $n$에 대해 시간 및 공간 복잡도가 이차적으로 증가($O(n^2)$)한다는 점이다.7 이 병목 현상의 근원은 어텐션 계산 과정의 핵심적인 두 단계에 있다.

첫째, 시간 복잡도 $O(n^2d)$는 $Q \in \mathbb{R}^{n \times d_k}$와 $K^T \in \mathbb{R}^{d_k \times n}$의 행렬 곱셈에서 발생한다. 이 연산은 모든 토큰 쌍 간의 유사도를 계산하여 $n \times n$ 크기의 어텐션 스코어 행렬을 생성하며, 총 $O(n^2d_k)$의 연산량을 요구한다.6 이후 생성된 $n \times n$ 어텐션 가중치 행렬을 $V \in \mathbb{R}^{n \times d_v}$와 곱하는 과정 역시 $O(n^2d_v)$의 복잡도를 가진다. 일반적으로 임베딩 차원 $d$ (그리고 $d_k, d_v$)는 모델의 하이퍼파라미터로 고정되므로, 전체 시간 복잡도는 시퀀스 길이 $n$에 대한 이차 함수, 즉 $O(n^2)$로 단순화된다.6

둘째, 공간 복잡도 $O(n^2)$는 중간 계산 과정에서 $n \times n$ 크기의 어텐션 스코어 행렬을 메모리에 명시적으로 생성하고 저장해야 하기 때문에 발생한다.6 시퀀스 길이가 길어질수록 이 행렬의 크기는 기하급수적으로 커진다. 예를 들어, 시퀀스 길이가 64,000개인 경우, 단일 어텐션 헤드에서 생성되는 $64K \times 64K$ 행렬은 32비트 부동소수점 기준으로 약 16GB의 메모리를 차지한다.11 이는 현대의 고성능 GPU조차도 감당하기 어려운 수준이며, 긴 시퀀스를 처리하는 데 있어 근본적인 장벽으로 작용한다.

이러한 이차 복잡도 문제는 흔히 계산 속도의 저하로만 인식되지만, 실제로는 ‘메모리 장벽(Memory Wall)’이라는 더 심각한 문제를 야기한다. 최신 가속기(GPU, TPU) 환경에서는 연산 능력보다 메모리 용량이 먼저 한계에 도달하는 경우가 많기 때문이다.10 즉, 긴 시퀀스 처리는 단순히 느린 것을 넘어, 메모리 부족(Out-of-Memory) 오류로 인해 아예 불가능해지는 것이다. 이로 인해 트랜스포머를 장문서 요약, 고해상도 이미지 처리, 유전체 서열 분석 등 긴 컨텍스트가 필수적인 도메인에 적용하는 데 큰 제약이 따랐다.8 린포머(Linformer)는 바로 이 문제를 해결하기 위해 등장한 혁신적인 아키텍처이다.

린포머의 설계는 하나의 대담하고 핵심적인 가설에서 출발한다: 표준 트랜스포머의 컨텍스트 매핑 행렬 $P = \text{softmax}(QK^T/\sqrt{d_k})$가 실제로는 정보의 대부분을 훨씬 낮은 차원의 부분 공간(subspace)에 담고 있는 ‘저차원(low-rank)’ 행렬이라는 것이다.7

저차원 행렬이란, 행렬의 전체 크기($n \times n$)에 비해 선형적으로 독립인 행 또는 열의 개수, 즉 랭크(rank)가 매우 작은($r \ll n$) 행렬을 의미한다. 이러한 행렬은 본질적으로 중복된 정보를 많이 포함하고 있어, 더 적은 수의 기저 벡터(basis vectors)로 효율적으로 표현하거나 근사할 수 있다.14 만약 어텐션 행렬이 실제로 저차원이라면, $n \times n$ 크기의 전체 행렬을 계산하고 저장하는 것은 극심한 비효율이며, 이 행렬을 저차원으로 근사함으로써 계산 및 메모리 복잡도를 획기적으로 줄일 수 있다는 결론에 도달하게 된다.

린포머의 저자들은 이 가설을 뒷받침하기 위해 사전 훈련된 RoBERTa 모델의 어텐션 행렬을 심층적으로 분석했다. 각 레이어에서 추출한 어텐션 행렬에 특이값 분해(Singular Value Decomposition, SVD)를 적용하여 특이값(singular values)의 분포를 조사했다.5 분석 결과, 모든 레이어에 걸쳐 어텐션 행렬의 정보가 소수의 가장 큰 특이값들에 집중되어 있음이 명확하게 나타났다. 특이값들의 누적 분포 그래프는 초반에 매우 가파르게 상승하다가 빠르게 수렴하는 형태를 보였는데, 이는 해당 행렬이 소수의 주성분만으로도 대부분의 정보를 설명할 수 있는 저차원 구조임을 강력하게 시사하는 증거다.5

이러한 경험적 관찰은 린포머 아키텍처 설계의 직접적인 동기가 되었다. 어텐션 행렬이 저차원이라면, 굳이 $n \times n$ 행렬을 모두 계산할 필요 없이, 저차원 공간으로의 사영(projection)을 통해 계산 과정을 근사할 수 있다는 아이디어로 이어진 것이다.

여기서 한 가지 미묘하지만 중요한 점은, 린포머의 가정이 수학적으로 완벽하게 보장되는 속성에 기반하지 않는다는 것이다. 행렬 곱셈의 속성에 따라, 소프트맥스 함수가 적용되기 전의 스코어 행렬 $QK^T$는 그 랭크가 최대 $d_k$($d_k \ll n$인 경우가 일반적)로 제한되므로 저차원임이 보장된다.5 그러나 소프트맥스와 같은 비선형 함수가 원소별로 적용된 후의 최종 어텐션 행렬 $P$는 이론적으로 완전한 랭크(full-rank)를 가질 수 있다. 따라서 린포머의 핵심 가정은 $P$가 수학적으로 엄밀하게 저차원이라는 것이 아니라, 경험적으로 ‘저차원 행렬에 의해 매우 잘 근사될 수 있다’는 것이다. 이는 린포머가 순수한 수학적 원리의 적용이라기보다는, 경험적 관찰에 기반한 실용적인 공학적 해법임을 보여준다. 이 접근법은 약간의 근사 오차를 감수하는 대신, 막대한 계산 효율성을 얻는 영리한 트레이드오프를 선택한 것이다.

저차원 가설을 바탕으로, 린포머는 표준 셀프 어텐션 메커니즘을 수정하여 선형 복잡도를 달성한다. 핵심은 $n \times n$ 어텐션 행렬의 직접적인 계산을 회피하고, 대신 저차원 공간에서의 연산을 통해 이를 근사하는 것이다.

린포머는 시퀀스 길이 $n$을 훨씬 작은 고정된 차원 $k$($k \ll n$)로 축소하기 위해 두 개의 학습 가능한 선형 사영 행렬 $E_i, F_i \in \mathbb{R}^{n \times k}$를 도입한다.14 표준 어텐션에서는 $K$와 $V$ 행렬을 직접 사용하지만, 린포머에서는 이들을 사영 행렬과 곱하여 차원을 축소한 새로운 키 행렬 $K’_i = E_i^T K_i$와 값 행렬 $V’_i = F_i^T V_i$를 생성한다. 여기서 원본 $K_i, V_i$는 $n \times d$ 차원이지만, 사영된 $K’_i, V’_i$는 $k \times d$ 차원이 된다.

수정된 어텐션 계산 과정은 다음과 같이 세 단계로 이루어진다 17:

사영(Projection): 원본 키와 값 행렬 $K_i, V_i$ ($n \times d$)를 각각 사영 행렬 $E_i^T, F_i^T$ ($k \times n$)와 곱하여 저차원 키와 값 행렬 $K’_i, V’_i$ ($k \times d$)를 생성한다.
저차원 어텐션 계산(Context Mapping): 쿼리 행렬 $Q_i$ ($n \times d$)와 사영된 키 행렬의 전치 $K_i’^T$ ($d \times k$)를 곱하여 $n \times k$ 차원의 저차원 어텐션 스코어 행렬 $\tilde{P}_i$를 계산한다. 이 행렬에 스케일링과 소프트맥스를 적용한다.
최종 출력 계산(Aggregation): 소프트맥스를 거친 $n \times k$ 어텐션 가중치 행렬을 사영된 값 행렬 $V’_i$ ($k \times d$)와 곱하여 최종 출력 행렬 $O_i$ ($n \times d$)를 얻는다.

이 과정에서 가장 큰 행렬의 크기가 $n \times k$로 제한되므로, 전체 연산의 시간 및 공간 복잡도는 $O(nk)$가 된다. $k$는 시퀀스 길이 $n$과 무관한 하이퍼파라미터(예: 128, 256)이므로, 실질적인 복잡도는 $n$에 대해 선형인 $O(n)$이 된다.7

이를 종합하여 $i$번째 어텐션 헤드의 최종 컨텍스트 벡터 계산식은 다음과 같이 공식화할 수 있다. $\text{Context}_i = \text{softmax}\left(\frac{Q_i (E_i^T K_i)^T}{\sqrt{d_k}}\right) (F_i^T V_i) = \text{softmax}\left(\frac{Q_i K_i^T E_i}{\sqrt{d_k}}\right) (F_i^T V_i)$ 이 수식은 표준 어텐션과의 차이를 명확히 보여준다. $Q_i K_i^T$를 직접 계산하여 $n \times n$ 행렬을 만드는 대신, $Q_i K_i^T$에 사영 행렬 $E_i$를 먼저 곱함으로써 연산 순서를 변경하고 $n \times k$ 차원의 행렬을 생성한다. 이는 행렬 곱셈의 결합 법칙을 영리하게 활용하여 계산 병목을 우회하는 것과 유사한 효과를 낸다.

린포머는 모델의 효율성을 더욱 극대화하기 위해 사영 행렬 $E$와 $F$에 대한 세 가지 수준의 파라미터 공유 전략을 제안한다.17

헤드별 공유(Headwise sharing): 각 레이어 내의 모든 어텐션 헤드가 동일한 사영 행렬 $E, F$를 공유한다.
키-값 공유(Key-value sharing): 헤드별 공유에서 더 나아가, 키와 값에 대한 사영 행렬을 동일하게 설정한다($E = F$).
레이어별 공유(Layerwise sharing): 모델의 모든 레이어와 모든 헤드에 걸쳐 단 하나의 사영 행렬($E = F$)을 사용한다.

일반적인 직관으로는 더 많은 파라미터를 사용하여 각 레이어나 헤드가 특화된 사영 방식을 학습하는 것이 성능에 유리할 것이라 예상할 수 있다. 그러나 실험 결과는 놀랍게도 가장 제약이 강한 ‘레이어별 공유’ 전략이 가장 우수한 성능을 보였다.17 이 예상 밖의 결과는 매우 중요한 시사점을 가진다. 이는 어텐션의 저차원 구조가 레이어나 헤드에 따라 크게 변하는 특수한 속성이 아니라, 모델 전체에 걸쳐 안정적이고 보편적으로 나타나는 근본적인 속성일 가능성을 암시한다. 즉, 시퀀스의 문맥 정보를 압축하는 효과적인 저차원 부분 공간이 단 하나 존재하며, 모델은 이 단일한 사영 방식을 학습하는 것으로 충분하다는 것이다. 이 발견은 린포머의 저차원 가설을 더욱 강력하게 뒷받침하며, 추가 파라미터 수를 극적으로 줄여 모델을 더욱 가볍고 효율적으로 만든다.

다음 표는 표준 셀프 어텐션과 린포머의 복잡도를 명확하게 비교한다.

항목 (Item)	표준 스케일드 닷-프로덕트 어텐션 (Standard Scaled Dot-Product Attention)	린포머 (Linformer)
핵심 연산 (Core Operation)	$\text{softmax}(QK^T/\sqrt{d_k})V$	$\text{softmax}(Q(E^T K)^T/\sqrt{d_k})(F^T V)$
주요 행렬 곱셈 (Key Matrix Multiplication)	$(n \times d) \cdot (d \times n) \rightarrow (n \times n)$	$(n \times d) \cdot (d \times k) \rightarrow (n \times k)$
시간 복잡도 (Time Complexity)	$O(n^2d)$	$O(nkd)$
공간 복잡도 (Space Complexity)	$O(n^2)$	$O(nk)$
실질적 복잡도 (Practical Complexity)	$O(n^2)$	$O(n)$ (단, $k \ll n$)

린포머의 저차원 사영 아이디어는 경험적 관찰에 기반하지만, 그 타당성은 ‘존슨-린덴스트라우스(Johnson-Lindenstrauss, JL) 보조정리’라는 강력한 수학적 이론에서 영감을 얻었다.5

JL 보조정리는 고차원 유클리드 공간에 분포된 점들의 집합을 훨씬 낮은 차원의 공간으로 사영하더라도, 점들 간의 상대적인 거리 구조가 높은 확률로 거의 보존된다는 것을 보장하는 정리이다.21

구체적으로, $d$차원 공간에 있는 $N$개의 점 집합 $X$에 대해, $k \ge O(\log N / \varepsilon^2)$를 만족하는 차원 $k$로의 선형 사영 $f: \mathbb{R}^d \rightarrow \mathbb{R}^k$가 존재하여, 집합 내의 모든 두 점 $u, v \in X$에 대해 다음 부등식이 성립한다.4 $(1 - \varepsilon)\|u - v\|^2 \le \|f(u) - f(v)\|^2 \le (1 + \varepsilon)\|u - v\|^2$ 여기서 $\varepsilon$은 작은 양의 상수(왜곡률)이다. 이 정리는 차원의 저주(curse of dimensionality)에도 불구하고, 데이터의 본질적인 기하학적 구조는 훨씬 낮은 차원으로 안전하게 압축될 수 있음을 시사한다. 놀라운 점은 이러한 ‘좋은’ 사영이 무작위로 선택된 선형 사영일 가능성이 높다는 것이다.21

린포머는 JL 보조정리를 직접적인 알고리즘으로 사용하는 것은 아니지만, 이 정리는 린포머의 핵심 가정에 대한 이론적 ‘안전망’ 또는 ‘탐험의 허가증’ 역할을 한다. JL 보조정리는 시퀀스 길이 $n$을 더 작은 차원 $k$로 축소하는 것이 수학적으로 타당한 원리임을 보여준다.

어텐션 메커니즘은 본질적으로 토큰 벡터들 간의 내적(dot product)을 통해 유사도를 계산하는 과정이며, 이는 벡터 간의 유클리드 거리와 밀접한 관련이 있다. JL 보조정리는 $n$개의 토큰으로 구성된 시퀀스를 $k$차원의 저차원 공간으로 사영하더라도, 토큰 간의 상대적인 관계(거리 또는 유사도)가 보존될 수 있다는 이론적 근거를 제공한다. 즉, 시퀀스 길이 차원에서의 압축이 정보의 본질적인 구조를 파괴하지 않을 가능성이 높음을 시사하는 것이다.21

JL 보조정리는 ‘좋은’ 무작위 사영의 존재를 보장한다. “과연 $n$차원에서 $k$차원으로 시퀀스 길이를 압축하면서도 치명적인 정보 손실을 피할 수 있는가?”라는 근본적인 질문에 JL 보조정리는 ‘그렇다’고 답한다. 이러한 이론적 확신을 바탕으로, 린포머의 설계자들은 단순히 존재하는 사영을 찾는 것을 넘어, 역전파를 통해 데이터로부터 주어진 태스크에 최적화된 사영 행렬 $E$와 $F$를 ‘학습’하는 실용적인 접근법을 채택할 수 있었다. 이는 이론적 결과가 새로운 딥러닝 아키텍처 패러다임의 타당성을 입증하고, 이를 실용적이고 데이터 기반의 방식으로 구현하는 연구의 강력한 패턴을 보여주는 사례이다.

린포머의 효과는 다양한 NLP 벤치마크와 효율성 테스트를 통해 입증되었다. 저차원 근사가 이론적 우아함에 그치지 않고, 실제 성능 저하 없이 막대한 효율성 향상을 가져온다는 점이 확인되었다.

RoBERTa 모델을 기반으로 구현된 린포머는 다양한 자연어 이해(NLU) 다운스트림 태스크에서 표준 트랜스포머와 대등한 성능을 보였다.17 특히 사영 차원 $k=256$으로 설정했을 때는 일부 태스크에서 표준 모델을 약간 능가하는 결과를 보이기도 했다. 이는 린포머의 저차원 근사가 핵심적인 의미 정보를 보존하면서도 계산 비용을 크게 절감할 수 있음을 실증적으로 보여주는 중요한 결과이다.7

장문 시퀀스 처리 능력을 객관적으로 평가하기 위해 구글 리서치에서 개발한 ‘Long-Range Arena (LRA)’ 벤치마크는 다양한 효율적 트랜스포머 모델들의 성능을 표준화된 환경에서 비교하는 기준을 제공한다.12

LRA에서 10개의 대표적인 효율적 트랜스포머 모델을 대상으로 한 비교 평가에서, 린포머는 특히 메모리 사용량 측면에서 가장 뛰어난 효율성을 기록했다. 표준 트랜스포머와 비교했을 때 무려 9.58배 적은 메모리를 사용하여, 자원이 제한된 환경에서의 압도적인 우위를 증명했다.12

다만, LRA의 모든 태스크에서 단일 모델이 압도적인 성능을 보이지는 않았다. 평균 정확도에서는 Big Bird 모델이 가장 높았고, 문자 수준 텍스트 분류 태스크에서는 Performer가 가장 빠른 속도를 보였다.12 이 결과는 린포머의 핵심적인 역할과 그 가치를 명확히 규정해준다. 린포머의 목표는 모든 정확도 지표에서 최고 성능을 달성하는 것이 아니라, 경쟁력 있는 정확도를 유지하면서 메모리 효율성을 극대화하는 것이다. 이는 린포머가 극도로 긴 시퀀스를 처리해야 하거나 GPU 메모리가 제한된 현실적인 시나리오에서 가장 강력하고 실용적인 선택지가 될 수 있음을 의미한다. 즉, 린포머는 특정 제약 조건 하에서 최적의 솔루션을 제공하는 ‘효율성의 강자’로서 독자적인 생태계적 지위를 확보하고 있다.

린포머의 성능과 효율성 사이의 균형을 결정하는 가장 중요한 하이퍼파라미터는 사영 차원 $k$이다. 흥미롭게도, 실험 결과 린포머의 성능은 시퀀스 길이 $n$과 $k$의 비율($n/k$)보다는 절대적인 $k$ 값 자체에 더 크게 의존하는 것으로 나타났다.19

이는 매우 중요한 발견으로, 시퀀스 길이가 512에서 수천, 수만으로 증가하더라도, 성능을 유지하기 위해 $k$ 값을 비례하여 증가시킬 필요가 없음을 의미한다. 상대적으로 작고 일정한 $k$ 값(예: 256)만으로도 긴 시퀀스에서 충분한 성능을 확보할 수 있다는 것이다.19 이 특성은 린포머의 뛰어난 확장성(scalability)을 뒷받침하며, $n$이 커질수록 선형 복잡도의 이점이 더욱 극대화될 수 있도록 한다.

린포머는 어텐션 병목 현상을 해결하기 위한 여러 접근법 중 하나이다. 각 효율적 트랜스포머 모델은 서로 다른 기본 가정, 즉 귀납적 편향(inductive bias)을 바탕으로 설계되었다. 다음 표는 주요 모델들을 비교 분석한다.

모델 (Model)	핵심 아이디어 (Core Idea)	시간 복잡도 (Time Complexity)	가정/편향 (Assumption/Bias)	주요 장점 (Pros)	주요 단점 (Cons)
Transformer	전체 상호작용 (Full Interaction)	$O(n^2)$	모든 토큰 간 상호작용이 중요함	표현력 극대화	높은 계산 및 메모리 비용
Linformer	저차원 근사 (Low-Rank Approx.)	$O(n)$	어텐션 행렬 정보가 저차원 공간에 압축 가능함	뛰어난 메모리 효율성, 이론적 기반	근사로 인한 정보 손실 가능성
Longformer	희소 어텐션 (Sparse Attention)	$O(n)$	정보는 주로 지역적(local)이며 일부 전역적(global) 허브가 존재함	직관적, 지역적 문맥 처리에 강함	고정된 윈도우 패턴, 유연성 부족
Reformer	지역성 민감 해싱 (LSH)	$O(n \log n)$	유사한 토큰 간의 상호작용이 가장 중요함	메모리 효율성 극대화(가역 레이어)	해싱 충돌 가능성, 근사적
Performer	커널 근사 (Kernel Approx.)	$O(n)$	소프트맥스 커널을 수학적으로 근사 가능함	구조적 가정 불필요, 일반성 높음	근사 정확도가 무작위 특징에 의존

리포머는 모든 쿼리가 모든 키와 상호작용할 필요는 없다는 가정에서 출발한다.26 대신, 각 쿼리는 자신과 가장 유사한(임베딩 공간에서 가까운) 키에만 집중하면 된다고 본다. 이를 구현하기 위해 지역성 민감 해싱(Locality-Sensitive Hashing, LSH)을 사용하여 유사한 쿼리와 키 벡터를 높은 확률로 동일한 해시 버킷에 할당하고, 어텐션 계산을 각 버킷 내에서만 수행한다.27 이를 통해 복잡도를 $O(n \log n)$으로 줄인다.29 또한, 가역 잔차 네트워크(Reversible Residual Layers)를 도입하여 역전파 시 중간 활성화 값을 다시 계산함으로써, 전체 모델에서 단 한 벌의 활성화 값만 저장하여 메모리 사용량을 획기적으로 줄인다.28

롱포머는 정보의 흐름이 주로 지역적(local)이라는 강한 귀납적 편향을 가진다.13 이는 CNN과 유사한 접근법으로, 슬라이딩 윈도우 어텐션(sliding window attention)을 사용하여 각 토큰이 자신의 주변에 있는 고정된 크기($w$)의 윈도우 내 토큰들과만 상호작용하도록 제한한다.13 이로써 복잡도는 $O(n \cdot w)$, 즉 실질적으로 $O(n)$이 된다.26 순수한 지역적 어텐션의 한계를 보완하기 위해, `` 토큰과 같은 일부 토큰에 전역 어텐션(global attention)을 부여하여 이들이 시퀀스 전체의 모든 토큰과 정보를 교환할 수 있는 ‘허브’ 역할을 하도록 설계했다.13

퍼포머는 가장 일반적인 접근법을 취한다. 어텐션 행렬의 구조(희소성, 저차원성 등)에 대한 어떠한 사전 가정도 하지 않는다.33 대신, 스케일드 닷-프로덕트 어텐션의 소프트맥스 함수를 일종의 커널 함수로 간주하고, 이를 무작위 특징 맵(random feature map)을 통해 근사한다. 특히 FAVOR+(Fast Attention Via positive Orthogonal Random features)라는 새로운 메커니즘을 통해 안정적이고 편향이 적은 근사를 달성하여, 행렬 곱셈의 순서를 변경함으로써 $O(n)$ 복잡도를 달성한다.33

이러한 비교는 각 모델이 단순히 다른 알고리즘이 아니라, 시퀀스 내 정보 흐름의 본질에 대한 서로 다른 철학을 대변함을 보여준다. 린포머는 ‘전체 문맥은 소수의 핵심 개념으로 압축될 수 있다’는 가정을, 롱포머는 ‘정보는 대부분 지역적으로 흐른다’는 가정을, 리포머는 ‘유사한 것들끼리 상호작용한다’는 가정을, 그리고 퍼포머는 ‘모든 상호작용은 수학적으로 근사 가능하다’는 가장 약한 가정을 채택한다. 따라서 실무자는 해결하고자 하는 문제의 특성에 가장 부합하는 귀납적 편향을 가진 모델을 선택해야 한다.

린포머의 선형 복잡도는 기존 트랜스포머가 접근하기 어려웠던 다양한 분야의 문을 열었다. 특히 긴 시퀀스 처리가 필수적인 도메인에서 그 가치가 두드러진다.

장문서 요약 및 QA (Long Document Summarization and QA): 린포머의 가장 자연스러운 적용 분야는 수천, 수만 개의 토큰으로 구성된 긴 문서를 처리하는 것이다. 학술 논문, 법률 문서, 정부 보고서 등을 요약하거나 이에 대한 질의응답을 수행하는 태스크에서, 린포머는 전체 문서를 잘라내거나 분할하지 않고 한 번에 처리할 수 있는 능력을 제공한다.36
이미지 캡셔닝 (Image Captioning): 린포머의 효율성은 단순히 계산 비용을 줄이는 것을 넘어, 새로운 아키텍처 혁신을 가능하게 하는 ‘촉매제’ 역할을 한다. DMFormer 모델은 린포머를 인코더-디코더 구조의 기반으로 채택했다.40 여기서 린포머 덕분에 확보된 계산 및 메모리 예산은 ‘관계형 메모리 증강 인코더(RMAE)’나 ‘밀집 메모리 증강 디코더(DMAD)’와 같이 더 정교하고 복잡한 모듈을 추가하는 데 재투자될 수 있었다. 이러한 모듈들은 이미지 내 객체 간의 공간적 관계를 명시적으로 모델링하거나, 시각 및 언어 특징 간의 상호작용을 강화하는 등 표준 트랜스포머에서는 비용 문제로 구현하기 어려웠던 기능들을 가능하게 한다. 이는 린포머의 효율성이 모델 설계의 새로운 지평을 열었음을 보여주는 대표적인 사례이다.
생물정보학 (Bioinformatics): 유전체나 단백질 서열은 매우 긴 시퀀스로 표현된다. 린포머는 항균 펩타이드(antimicrobial peptide)의 최소 저해 농도(MIC)를 예측하는 모델 구축에 성공적으로 적용되었다.41 이는 긴 아미노산 서열 내의 복잡한 상호작용을 효율적으로 모델링하는 데 린포머의 저차원 어텐션이 효과적임을 입증한다.
정보 손실 가능성: 린포머의 저차원 사영은 본질적으로 정보 압축 과정이다. 따라서 원본 $n \times n$ 어텐션 행렬에 존재하던 일부 미세하고 복잡한 정보가 손실될 수 있다. 만약 특정 태스크가 모든 토큰 쌍 간의 완전하고 고차원적인 상호작용 정보를 필수적으로 요구한다면, 린포머의 성능은 표준 트랜스포머에 비해 저하될 수 있다.
하이퍼파라미터 $k$의 중요성: 사영 차원 $k$는 성능과 효율성 간의 트레이드오프를 결정하는 핵심적인 하이퍼파라미터이다. $k$가 너무 작으면 정보 병목 현상이 발생하여 모델의 표현력이 제한되고, 반대로 너무 크면 선형 복잡도의 이점이 희석된다.19 따라서 각 태스크와 데이터셋에 맞는 최적의 $k$ 값을 신중하게 탐색하는 과정이 필수적이다.

린포머는 트랜스포머의 이차 복잡도 문제를 해결하기 위한 초기 연구들 중 가장 영향력 있는 모델 중 하나로 평가받는다. 그 핵심 기여는 다음과 같이 요약할 수 있다.

경험적 통찰 기반의 혁신: 셀프 어텐션 행렬이 경험적으로 저차원 특성을 가진다는 깊이 있는 관찰을 통해, $O(n^2)$ 복잡도를 $O(n)$으로 획기적으로 낮추는 실용적인 해법을 제시했다.
이론과 실제의 결합: 존슨-린덴스트라우스 보조정리라는 수학적 이론에서 영감을 얻고, 이를 실제 데이터(RoBERTa) 분석을 통해 검증한 후, 학습 가능한 사영 행렬이라는 공학적 해법으로 구현해냈다. 이는 이론, 경험, 구현을 성공적으로 결합한 모범적인 연구 사례이다.
새로운 연구 방향 제시: 린포머의 성공은 이후 등장한 수많은 효율적 트랜스포머 연구에 중요한 방향성을 제시했으며, 저차원 근사라는 아이디어를 어텐션 효율화의 주류 패러다임 중 하나로 확립시켰다.

최근 FlashAttention과 같은 I/O-aware 최적화 기법의 등장은 하드웨어의 메모리 접근 패턴을 최적화하여 정확한(exact) 어텐션 계산 자체의 속도를 크게 향상시켰다.26 이러한 발전으로 인해 중간 길이의 시퀀스(예: 2K-8K)에서는 근사 기반 어텐션의 속도 이점이 다소 줄어들 수 있다.

그러나 FlashAttention과 같은 기법들은 여전히 $O(n^2)$의 연산을 수행하며, 근본적인 계산 복잡도를 바꾸지는 못한다. 따라서 시퀀스 길이가 수만, 수십만을 넘어 이론적으로 무한대에 가까워지는 시나리오에서는 린포머와 같은 근사 기반의 선형 어텐션 모델이 여전히 유일한 해법으로 남을 것이다. 특히, 극도로 제한된 메모리 환경(예: 엣지 디바이스)이나 추론 비용이 매우 중요한 실제 상용 서비스 환경에서 린포머의 가치는 지속될 것이다.

향후 연구는 저차원 근사의 정확도를 더욱 높이는 새로운 사영 기법을 개발하거나, 주어진 태스크에 따라 최적의 $k$ 값을 동적으로 결정하는 적응형 메커니즘을 도입하는 방향으로 진행될 수 있다. 또한, 린포머의 핵심 아이디어를 비전 트랜스포머(ViT), 멀티모달 모델 등 다양한 아키텍처에 더욱 효과적으로 통합하여 그 적용 범위를 넓히는 연구 역시 활발히 이루어질 것으로 전망된다. 린포머는 트랜스포머의 확장성을 한 단계 끌어올린 중요한 이정표로서, 앞으로도 오랫동안 효율적인 AI 모델 설계에 영감을 제공할 것이다.

[PDF] Linformer: Self-Attention with Linear Complexity - Semantic Scholar, 8월 16, 2025에 액세스, https://www.semanticscholar.org/paper/Linformer%3A-Self-Attention-with-Linear-Complexity-Wang-Li/c0b79e6a5fd88ef13aa4780df5aae0aaa6b2be87
A Practical Survey on Faster and Lighter Transformers - arXiv, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2103.14636

The Detailed Explanation of Self-Attention in Simple Words

by Maninder Singh

Medium, 8월 16, 2025에 액세스, https://medium.com/@manindersingh120996/the-detailed-explanation-of-self-attention-in-simple-words-dec917f83ef3

Revisiting Linformer with a modified self-attention with linear complexity - arXiv, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2101.10277
A round-up of linear transformers - Desh Raj, 8월 16, 2025에 액세스, https://desh2608.github.io/2021-07-11-linear-transformers/

Attention Mechanism Complexity Analysis

by Mridul Rao

Medium, 8월 16, 2025에 액세스, https://medium.com/@mridulrao674385/attention-mechanism-complexity-analysis-7314063459b1

Linformer: Self-Attention with Linear Complexity - BibSonomy, 8월 16, 2025에 액세스, https://www.bibsonomy.org/bibtex/4413c1dbf74e4224b819965aca6a77b9
Linformer: Self-Attention with Linear Complexity, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2006.04768
On The Computational Complexity of Self-Attention - Proceedings of Machine Learning Research, 8월 16, 2025에 액세스, https://proceedings.mlr.press/v201/duman-keles23a/duman-keles23a.pdf
SELF-ATTENTION DOES NOT NEED O(n2) MEMORY - arXiv, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2112.05682
[2001.04451] Reformer: The Efficient Transformer - ar5iv, 8월 16, 2025에 액세스, https://ar5iv.labs.arxiv.org/html/2001.04451
A Benchmark for Comparing Different AI Transformers - DeepLearning.AI, 8월 16, 2025에 액세스, https://www.deeplearning.ai/the-batch/transformer-variants-head-to-head/
[2004.05150] Longformer: The Long-Document Transformer, 8월 16, 2025에 액세스, https://ar5iv.labs.arxiv.org/html/2004.05150

Self-Attention is Low Rank: Explained from Linformer

by Banashrii …, 8월 16, 2025에 액세스, https://medium.com/@sbanashri25/self-attention-is-low-rank-explained-from-linformer-6fa3e8629e94

Demystifying efficient self-attention

Towards Data Science, 8월 16, 2025에 액세스, https://towardsdatascience.com/demystifying-efficient-self-attention-b3de61b9b0fb/

Linformer: Self-Attention with Linear Complexity (Paper Explained) - YouTube, 8월 16, 2025에 액세스, https://www.youtube.com/watch?v=-_2AF9Lhweo

Brief Review - Linformer: Self-Attention with Linear Complexity

by Sik-Ho Tsang

Medium, 8월 16, 2025에 액세스, https://sh-tsang.medium.com/brief-review-linformer-self-attention-with-linear-complexity-d87fce25fe8f

Lighter and Better: Low-Rank Decomposed Self-Attention Networks for Next-Item Recommendation - Microsoft, 8월 16, 2025에 액세스, https://www.microsoft.com/en-us/research/wp-content/uploads/2021/05/LighterandBetter_Low-RankDecomposedSelf-AttentionNetworksforNext-ItemRecommendation.pdf
My take on a practical implementation of Linformer for Pytorch. - GitHub, 8월 16, 2025에 액세스, https://github.com/tatp22/linformer-pytorch
2 pages tagged with “Machine learning”, 8월 16, 2025에 액세스, https://ericfaber.dev/tags/machine-learning/

The Johnson-Lindenstrauss lemma & Linformer

Teven Le Scao, 8월 16, 2025에 액세스, https://tevenlescao.github.io/blog/fastpages/jupyter/2020/06/18/JL-Lemma-+-Linformer.html

Linformer: Self-Attention with Linear Complexity alphaXiv, 8월 16, 2025에 액세스, https://www.alphaxiv.org/overview/2006.04768v1
Johnson–Lindenstrauss lemma - Wikipedia, 8월 16, 2025에 액세스, https://en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma
The Johnson-Lindenstrauss Lemma Is Optimal for Linear Dimensionality Reduction - DROPS, 8월 16, 2025에 액세스, https://drops.dagstuhl.de/storage/00lipics/lipics-vol055-icalp2016/LIPIcs.ICALP.2016.82/LIPIcs.ICALP.2016.82.pdf
[2011.04006] Long Range Arena: A Benchmark for Efficient Transformers - ar5iv - arXiv, 8월 16, 2025에 액세스, https://ar5iv.labs.arxiv.org/html/2011.04006

Long Sequences Transformers: a review of the SOTA

by Achraff …, 8월 16, 2025에 액세스, https://medium.com/@adjileyeb/long-sequences-transformers-a-review-of-the-sota-734ef9e07446

Paper page - Reformer: The Efficient Transformer - Hugging Face, 8월 16, 2025에 액세스, https://huggingface.co/papers/2001.04451
Reformer: The Efficient Transformer, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2001.04451
Reformer: The Efficient Transformer - BibSonomy, 8월 16, 2025에 액세스, https://www.bibsonomy.org/bibtex/2afcb7d1d8971f1dc55e2816c8b3235e6/stdiff
Reformer: The Efficient Transformer OpenReview, 8월 16, 2025에 액세스, https://openreview.net/forum?id=rkgNKkHtvB
Longformer: The Long-Document Transformer - ResearchGate, 8월 16, 2025에 액세스, https://www.researchgate.net/publication/340598399_Longformer_The_Long-Document_Transformer
Paper page - Longformer: The Long-Document Transformer - Hugging Face, 8월 16, 2025에 액세스, https://huggingface.co/papers/2004.05150
Rethinking Attention with Performers - OpenReview, 8월 16, 2025에 액세스, https://openreview.net/forum?id=Ua6zuk0WRH
(PDF) Rethinking Attention with Performers - ResearchGate, 8월 16, 2025에 액세스, https://www.researchgate.net/publication/344436871_Rethinking_Attention_with_Performers

(PDF) Rethinking Attention with Performers (2021)

Krzysztof Choromanski

102 Citations, 8월 16, 2025에 액세스, https://scispace.com/papers/rethinking-attention-with-performers-1bxectc8vh

Poolingformer: Long Document Modeling with Pooling Attention - arXiv, 8월 16, 2025에 액세스, https://arxiv.org/pdf/2105.04371
Efficient Attentions for Long Document Summarization - ACL Anthology, 8월 16, 2025에 액세스, https://aclanthology.org/2021.naacl-main.112.pdf
Efficient Memory-Enhanced Transformer for Long-Document Summarization in Low-Resource Regimes - PubMed Central, 8월 16, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10098576/
Long Document Summarization with Top-down and Bottom-up Inference - ACL Anthology, 8월 16, 2025에 액세스, https://aclanthology.org/2023.findings-eacl.94.pdf
DMFormer: Dense Memory Linformer for Image Captioning - MDPI, 8월 16, 2025에 액세스, https://www.mdpi.com/2079-9292/14/9/1716

Linformer: Self-Attention with Linear Complexity

Request PDF, 8월 16, 2025에 액세스, https://www.researchgate.net/publication/342026866_Linformer_Self-Attention_with_Linear_Complexity