2.1 Attention Is All You Need 논문이 바꾼 모든 것
2025-12-18, G30DR
2017년 6월, 구글 브레인(Google Brain) 연구팀이 아카이브(arXiv)에 공개한 “Attention Is All You Need“라는 제목의 논문은 인공지능 연구의 역사적 흐름을 영구적으로 뒤바꾼 기점이 되었다.1 이 논문은 기존 인공지능이 시퀀스 데이터를 처리하던 방식인 순환 신경망(RNN)과 합성곱 신경망(CNN)의 기술적 한계를 정면으로 비판하며, 오직 ‘어텐션(Attention)’ 메커니즘만으로 구성된 ‘트랜스포머(Transformer)’ 아키텍처를 제안하였다.3 이 혁신은 단순히 기계 번역 성능의 향상을 넘어, 거대 언어 모델(LLM)의 탄생과 2025년 현재 목격하고 있는 멀티모달 에이전트 시대의 기술적 토대를 마련한 ’빅뱅’과 같은 사건으로 평가받는다.3 본 절에서는 이 논문이 제시한 구조적 파괴력과 패러다임의 변화, 그리고 그 이후 8년간 이어진 인공지능 생태계의 격변을 심층적으로 분석한다.
1. 순차적 처리의 종말과 병렬 연산의 승리
트랜스포머가 등장하기 이전, 자연어 처리(NLP)와 시퀀스 모델링 분야는 RNN과 그 변형인 LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)가 지배하고 있었다.6 RNN 계열의 모델은 문장을 왼쪽에서 오른쪽으로, 즉 시간적 순서에 따라 한 단어씩 읽어 들여 이전까지의 정보를 은닉 상태(Hidden State)라는 고정된 크기의 벡터에 압축하여 전달하는 방식을 취했다.6 그러나 이러한 순차적 처리 방식은 현대 컴퓨팅 환경에서 두 가지 치명적인 결함을 노출하였다.6
첫째, 연산의 순차적 의존성(Sequential Dependency) 문제이다.6 RNN은 t 시점의 연산을 수행하기 위해 반드시 t-1 시점의 결과가 필요했으므로, 문장이 길어질수록 계산 시간이 선형적으로 증가하였다.3 이는 수천 개의 코어를 가진 GPU의 병렬 연산 능력을 제대로 활용하지 못하는 구조적 병목을 초래하였다.3 둘째, 장거리 의존성(Long-range Dependency) 학습의 어려움이다.8 문장의 초기 정보가 수많은 시점을 거치며 희석되거나 소실되는 ‘경사 소실(Vanishing Gradient)’ 문제로 인해, 모델은 문장의 앞부분과 뒷부분 사이의 관계를 정확히 파악하는 데 한계를 보였다.10
트랜스포머는 ’재귀(Recurrence)’를 완전히 제거하고 시퀀스 내의 모든 토큰 간 관계를 한 번에 계산하는 ’셀프 어텐션(Self-Attention)’을 도입함으로써 이 문제를 근본적으로 해결하였다.6 이 아키텍처는 문장의 길이에 관계없이 모든 토큰 사이의 최단 경로를 1로 유지하며, 모든 연산을 동시에 수행할 수 있는 완전한 병렬화를 실현하였다.8 이는 곧 모델의 크기와 데이터의 양을 기하급수적으로 늘릴 수 있는 ’스케일링(Scaling)’의 시대를 여는 신호탄이 되었다.3
| 비교 항목 | RNN 계열 (LSTM/GRU) | Transformer |
|---|---|---|
| 핵심 메커니즘 | 순차적 재귀 (Recurrence) | 셀프 어텐션 (Self-Attention) |
| 병렬화 가능성 | 낮음 (시점별 의존성 존재) | 매우 높음 (전체 시퀀스 동시 처리) |
| 장거리 의존성 | 거리에 따라 정보 전달력 약화 | 모든 토큰 간 직접 연결 (O(1)) |
| 순차 연산 복잡도 | O(n) | O(1) |
| 주요 한계 | 정보 병목 및 계산 속도 저하 | O(n^2) 메모리 복잡도 |
3
graph TD
subgraph "RNN_Process"
direction LR
R1["입력 t=1"] --> H1["은닉 상태 t=1"]
H1 --> R2["입력 t=2"]
R2 --> H2["은닉 상태 t=2"]
H2 --> R3["입력 t=3"]
R3 --> H3["은닉 상태 t=3"]
H3 --> R_End["순차적 의존성: 계산 시간 선형 증가"]
end
subgraph "Transformer_Process"
T_In["입력 시퀀스 전체 (t=1, 2, 3...)"] --> T_Par["병렬 연산 (Parallel Computation)"]
T_Par --> T_Att["모든 토큰 간 동시 관계 파악 (Self-Attention)"]
T_Att --> T_Out["거리 관계 없이 경로 O(1)"]
end
R_End -.->|"극복"| Transformer_Process
2. 셀프 어텐션: 쿼리, 키, 값의 기하학적 상호작용
트랜스포머의 기술적 정수는 ’스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)’이라 명명된 셀프 어텐션 메커니즘에 있다.1 이 시스템은 입력된 각 토큰이 문장 내의 다른 모든 토큰과 얼마나 관련이 있는지를 스스로 학습하게 만든다.5 이를 구현하기 위해 연구진은 정보 검색 시스템에서 영감을 얻은 세 가지 벡터 표현인 쿼리(Query, Q), 키(Key, K), 값(Value, V)을 제안하였다.6
각 토큰의 임베딩은 서로 다른 가중치 행렬 W^Q, W^K, W^V와의 곱을 통해 Q, K, V 벡터로 변환된다.4 쿼리는 현재 토큰이 다른 토큰에게 묻는 ’질문’과 같고, 키는 그 질문에 답하기 위한 각 토큰의 ‘색인’ 혹은 ’속성’이며, 값은 최종적으로 전달할 ’정보의 본체’이다.3 쿼리와 키의 내적(Dot-product)을 통해 계산된 유사도 점수는 소프트맥스(Softmax) 함수를 통과하여 어텐션 가중치가 되며, 이 가중치를 값(Value) 벡터에 곱해 합산함으로써 해당 토큰의 새로운 맥락적 표현이 생성된다.1
Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
1
여기서 분모의 \sqrt{d_k}는 차원이 커짐에 따라 내적 값이 지나치게 커져 소프트맥스의 기울기가 소실되는 것을 방지하는 정교한 스케일링 장치이다.1 이러한 구조는 모델이 특정 단어를 처리할 때 문장 전체의 정보를 동적으로 수집하고 가중치를 부여할 수 있게 한다.5 예를 들어, “The cat sat on the mat“이라는 문장에서 ’cat’을 인코딩할 때 ’sat’이나 ’mat’과의 관계를 강하게 반영하여 문맥이 풍부한 벡터를 만들어내는 식이다.3
graph TD
Input["입력 토큰 임베딩 (Input Embedding)"] --> WQ["가중치 행렬 W^Q"]
Input --> WK["가중치 행렬 W^K"]
Input --> WV["가중치 행렬 W^V"]
WQ --> Q["쿼리 (Query): 질문"]
WK --> K["키 (Key): 색인"]
WV --> V["값 (Value): 정보 본체"]
Q --> Dot["내적 (Dot-Product: Q * K^T)"]
K --> Dot
Dot --> Scale["스케일링 (Divide by sqrt(d_k))"]
Scale --> Soft["소프트맥스 (Softmax)"]
Soft --> Score["어텐션 가중치 (Attention Weights)"]
Score --> Mul["가중합 (Weighted Sum)"]
V --> Mul
Mul --> Output["새로운 맥락적 표현 (Contextual Representation)"]
3. 멀티 헤드 어텐션: 다면적 문맥 학습의 병렬화
논문은 단일 어텐션 메커니즘을 넘어, 이를 여러 개 병렬로 배치한 ’멀티 헤드 어텐션(Multi-Head Attention)’을 핵심 혁신으로 제시하였다.5 이는 문맥을 파악할 때 하나의 관점에 매몰되지 않고, 다양한 측면(Head)에서 정보를 동시에 포착하기 위한 설계이다.3
각 ’헤드’는 서로 다른 학습 가능한 선형 투영(Linear Projection)을 통해 고유한 Q, K, V 공간을 갖는다.1 어떤 헤드는 문장의 문법적 구조에 집중하고, 다른 헤드는 대명사의 지칭 대상을 찾으며, 또 다른 헤드는 시제나 감정 상태를 파악하는 방식으로 역할을 분담한다.3 연구팀은 8개의 헤드를 사용하여 문장의 복잡한 상호작용을 다각도로 포착하였으며, 각 헤드의 출력을 결합(Concatenate)하고 최종 선형 변환을 거쳐 통합된 표현을 완성하였다.1 이러한 다중 시점 학습은 단일 헤드 모델보다 훨씬 더 정교하고 유연한 언어 이해를 가능케 하였다.5
graph TD
Embed["입력 임베딩 (Input)"] --> Split["헤드 분할 (Split into h Heads)"]
Split --> H1["헤드 1: 문법 구조 파악"]
Split --> H2["헤드 2: 대명사 지칭 파악"]
Split --> H3["헤드 3: 시제/감정 파악"]
Split --> H8["헤드 8: 기타 관계 파악"]
H1 --> Att1["Self-Attention"]
H2 --> Att2["Self-Attention"]
H3 --> Att3["Self-Attention"]
H8 --> Att8["Self-Attention"]
Att1 --> Concat["결합 (Concatenate)"]
Att2 --> Concat
Att3 --> Concat
Att8 --> Concat
Concat --> Linear["선형 변환 (Linear Projection)"]
Linear --> Final["통합된 다면적 표현"]
4. 위치 인코딩: 질서 없는 병렬성에 부여한 순서의 철학
트랜스포머는 RNN과 달리 데이터를 한 번에 처리하므로, 기본적으로 입력 시퀀스의 ‘순서’ 정보를 인지하지 못하는 ‘가방(Bag of words)’ 모델과 같은 특성을 갖는다.5 “사과가 나를 먹는다“와 “내가 사과를 먹는다“를 구분하기 위해서는 토큰의 절대적 혹은 상대적 위치 정보가 필수적이다.11 이를 해결하기 위해 논문은 위치 인코딩(Positional Encoding)을 도입하였다.3
연구진은 각 토큰의 임베딩 벡터에 사인(Sine)과 코사인(Cosine) 함수 기반의 고유한 주파수 패턴을 더해주는 방식을 선택하였다.1 이 수학적 패턴은 모델이 각 토큰의 위치를 고유하게 식별하게 할 뿐만 아니라, 훈련 데이터보다 긴 문장에 대해서도 위치 정보를 유추할 수 있는 외삽(Extrapolation) 능력을 부여하였다.1 이는 별도의 가중치 학습 없이도 시퀀스의 순서적 구조를 완벽하게 보존하면서 병렬 연산의 이점을 모두 누릴 수 있게 한 신의 한 수로 평가받는다.1
PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})
PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})
1
graph TD
Word["단어 임베딩 (Word Embedding)"] --> Sum(("(+)"))
Pos["위치 인코딩 (Positional Encoding)"] -->|"Sine / Cosine 패턴"| Sum
subgraph "위치 정보 주입 원리"
Formula1["PE(pos, 2i) = sin(...)"]
Formula2["PE(pos, 2i+1) = cos(...)"]
end
Formula1 -.-> Pos
Formula2 -.-> Pos
Sum --> Input["Transformer 입력 벡터 (순서 정보 포함)"]
5. 아키텍처의 견고함: 잔차 연결과 정규화의 조화
트랜스포머의 성능은 단순히 어텐션 메커니즘에만 의존하는 것이 아니라, 이를 뒷받침하는 견고한 아키텍처 구성 요소들의 시너지에서 기인한다.4 각 인코더와 디코더 층 내부에는 셀프 어텐션 이후에 이어지는 ’위치별 피드포워드 신경망(Position-wise Feed-Forward Network, FFN)’이 존재한다.6 FFN은 각 토큰 벡터를 독립적으로 비선형 변환하여 모델의 표현력을 높이는 역할을 수행한다.4
또한, 깊은 신경망 학습에서 발생하는 정보 소실 및 경사 소실 문제를 해결하기 위해 모든 하위 층(Sub-layer)에 잔차 연결(Residual Connection)과 층 정규화(Layer Normalization)를 적용하였다.5 특히 잔차 연결은 입력 정보를 출력에 직접 더해줌으로써 하위 층이 학습해야 할 양을 줄이고 신호가 심층부까지 원활하게 전달되도록 보조하였다.5 이러한 구조적 안정성 덕분에 트랜스포머는 6층을 넘어 수백, 수천 층까지 확장될 수 있는 기반을 갖추게 되었다.3
graph TD
Prev["이전 층 출력 (Input)"] --> Copy["복사 (Residual Path)"]
Prev --> Att["Multi-Head Attention"]
Att --> Add1(("(+)"))
Copy --> Add1
Add1 --> Norm1["층 정규화 (Layer Norm)"]
Norm1 --> Copy2["복사 (Residual Path)"]
Norm1 --> FFN["피드포워드 신경망 (FFN)"]
FFN --> Add2(("(+)"))
Copy2 --> Add2
Add2 --> Norm2["층 정규화 (Layer Norm)"]
Norm2 --> Next["다음 층으로 전달"]
6. 인코더-디코더와 마스킹: 인과적 생성의 원리
트랜스포머는 입력 문장을 이해하는 인코더(Encoder)와 출력 문장을 생성하는 디코더(Decoder)의 결합으로 구성된다.3 인코더는 입력 시퀀스를 풍부한 문맥 정보가 담긴 벡터 시퀀스로 변환하며, 디코더는 이 정보를 바탕으로 한 단어씩 결과물을 생성한다.3
이 과정에서 디코더는 두 가지 특별한 장치를 사용한다. 첫째는 ’인코더-디코더 어텐션’으로, 디코더가 단어를 생성할 때마다 인코더가 생성한 입력 문장의 핵심 정보를 동적으로 참조하게 한다.6 둘째는 ‘마스킹(Masking)’ 기법이다.3 훈련 시 디코더는 정답 문장을 한 번에 입력받지만, 실제 생성 상황에서는 미래의 단어를 미리 볼 수 없어야 한다.5 따라서 어텐션 계산 시 현재 시점 이후의 단어들에 매우 낮은 점수를 주어 참조하지 못하게 함으로써, 모델이 인과적(Causal)으로 학습되도록 강제한다.4 이러한 엄격한 메커니즘은 GPT와 같은 강력한 자기회귀적(Autoregressive) 생성 모델의 기원이 되었다.4
graph TD
subgraph "Encoder (이해)"
Src["소스 문장"] --> Enc_Proc["Self-Attention & FFN"]
Enc_Proc --> Context["문맥 벡터 (K, V)"]
end
subgraph "Decoder (생성)"
Tgt["타겟 문장 (Shifted Right)"] --> Mask_Att["Masked Self-Attention"]
Mask_Att -->|"미래 정보 차단"| Query["디코더 쿼리 (Q)"]
Context --> ED_Att["Encoder-Decoder Attention"]
Query --> ED_Att
ED_Att --> Gen["토큰 생성 (Softmax)"]
end
Context -.->|"Key, Value 제공"| ED_Att
7. 실험 결과와 성능: 2017년의 압도적 벤치마크
논문은 제안된 트랜스포머 모델의 우수성을 입증하기 위해 WMT 2014 영어-독일어 및 영어-프랑어 번역 태스크에서 성능을 측정하였다.3 결과는 당시 존재하던 모든 최첨단 모델을 압도하는 수준이었다.1
| 모델 | WMT 2014 EN-DE (BLEU) | WMT 2014 EN-FR (BLEU) | 훈련 비용 (GPU-days) |
|---|---|---|---|
| GNMT (RNN계열) | 24.61 | 39.92 | 고비용 |
| ConvS2S (CNN계열) | 25.16 | 40.46 | 중비용 |
| Transformer (Base) | 27.3 | 38.1 | 3.3 |
| Transformer (Big) | 28.4 | 41.8 | 3.5 |
3
트랜스포머 ‘Big’ 모델은 영어-독일어 번역에서 기존 최고 기록보다 2.0 BLEU 이상 높은 성능을 기록하였으며, 영어-프랑어 번역에서도 41.8 BLEU라는 새로운 국가 기록을 세웠다.3 더욱 놀라운 점은 이러한 성능 향상을 이루면서도 훈련 시간은 기존 모델들의 1/10 수준으로 단축되었다는 사실이다.1 이는 트랜스포머의 병렬화 능력이 실제 학습 효율성으로 직결됨을 증명한 결정적 데이터였다.3
quadrantChart
title "WMT 2014 번역 성능 vs 훈련 효율성"
x-axis "훈련 비용 (높음 <---> 낮음/효율적)"
y-axis "번역 성능 BLEU (낮음 <---> 높음)"
quadrant-1 "이상적인 영역 (고성능/저비용)"
quadrant-2 "고비용 고성능"
quadrant-3 "고비용 저성능"
quadrant-4 "저비용 저성능"
"GNMT (RNN)" : [0.2, 0.3]
"ConvS2S (CNN)" : [0.4, 0.35]
"Transformer (Base)" : [0.8, 0.6]
"Transformer (Big)" : [0.75, 0.9]
8. 혁신의 확산: BERT, GPT, 그리고 LLM의 폭발
“Attention Is All You Need“가 던진 파장은 NLP 영역에만 국한되지 않았다.1 트랜스포머 아키텍처는 데이터의 크기가 커질수록 성능이 비약적으로 향상되는 ’스케일링 법칙(Scaling Laws)’을 가능하게 하는 엔진이 되었다.3
2018년 구글은 트랜스포머 인코더를 활용한 BERT(Bidirectional Encoder Representations from Transformers)를 발표하며 ’이해’의 혁명을 일으켰고, 같은 시기 오픈AI는 디코더 구조를 극대화한 GPT(Generative Pre-trained Transformer) 시리즈를 통해 ’생성’의 시대를 열었다.2 이후 T5, RoBERTa, PaLM, LLaMA 등 현대 인공지능의 주역들이 모두 트랜스포머라는 단일 혈통에서 파생되었다.3 또한, 텍스트를 넘어 이미지를 패치(Patch) 단위로 쪼개 처리하는 ViT(Vision Transformer)의 등장은 컴퓨터 비전 분야에서도 CNN의 시대를 저물게 하고 트랜스포머의 지배력을 공고히 하였다.3
| 주요 마일스톤 | 연도 | 핵심 기여 및 특징 |
|---|---|---|
| Transformer 발표 | 2017 | 재귀를 제거한 어텐션 기반 병렬 처리 구조 제안 1 |
| BERT 출시 | 2018 | 양방향 문맥 학습을 통한 언어 이해력의 비약적 향상 3 |
| GPT-3 출시 | 2020 | 1,750억 파라미터 규모의 거대 생성 모델 및 Few-shot 학습 구현 3 |
| ViT 출시 | 2021 | 이미지 처리에 트랜스포머를 적용하여 비전 분야 패러다임 전환 3 |
| GPT-4 & Gemini | 2023-24 | 멀티모달 능력과 고도화된 추론 기능을 갖춘 차세대 시스템 3 |
2
timeline
title "Transformer 이후 AI 모델의 진화"
2017 : "Attention Is All You Need (Transformer)" : "병렬화와 어텐션의 시작"
2018 : "BERT (Google)" : "인코더 기반, 양방향 이해 혁명"
2020 : "GPT-3 (OpenAI)" : "디코더 기반, 거대 생성 모델(LLM)"
2021 : "ViT (Vision Transformer)" : "이미지 처리 패러다임 전환"
2023 : "GPT-4 & Gemini" : "멀티모달 및 추론 능력 고도화"
9. 2025년의 시각: “트랜스포머에 질렸다“는 저자들의 역설
발표 8년 차인 2025년 현재, 트랜스포머는 여전히 AI의 표준이지만 동시에 ’성공의 저주’에 빠져있다는 비판도 존재한다.14 논문의 공동 저자 중 한 명인 리온 존스(Llion Jones)는 최근 TED AI 컨퍼런스에서 “나는 트랜스포머에 절대적으로 질렸다(absolutely sick of)“는 파격적인 발언을 남겼다.15 이는 트랜스포머가 인공지능 분야의 독보적인 정답이 되면서, 연구 생태계가 다른 대안적인 아키텍처를 탐구하려는 창의성을 잃고 단일한 방향으로만 경직되었다는 우려를 반영한다.14
그의 비판은 현재 AI 업계가 ’탐색(Exploration)’보다는 이미 검증된 트랜스포머 구조를 ’착취(Exploitation)’하는 데에만 막대한 자원을 쏟아붓고 있다는 지점에서 출발한다.15 투자자들의 단기적인 수익 압박과 연구자들의 성과 위주 출판 문화가 결합하여, 리스크가 크지만 잠재적 파괴력이 있는 새로운 아키텍처(예: SSM, 하이브리드 모델 등)에 대한 도전이 위축되었다는 것이다.14 존스는 현재의 AI 업계를 “자원과 인재는 전례 없이 풍부해졌으나, 그로 인해 오히려 연구의 폭은 좁아진 역설적인 상황“이라고 묘사하였다.14
또한, 트랜스포머의 근본적인 한계인 O(n^2)의 연산 복잡도와 메모리 사용량 문제는 수백만 토큰의 문맥을 처리해야 하는 최신 멀티모달 에이전트 환경에서 여전히 큰 장벽이다.11 이를 극복하기 위해 FlashAttention-3와 같은 메모리 최적화 기법이나 Ring Attention 같은 분산 처리 기술이 동원되고 있으나, 아키텍처 자체의 효율성을 개선하려는 목소리는 갈수록 높아지고 있다.11
mindmap
root(("2025년 트랜스포머의 역설"))
["비판 (Critique)"]
["Llion Jones: 절대적으로 질렸다 (Sick of it)"]
["창의성 상실: 대안 아키텍처 연구 위축"]
["자원 쏠림: 탐색(Exploration) < 착취(Exploitation)"]
["기술적 한계 (Limitations)"]
["연산 복잡도 O(n^2)"]
["메모리 병목 현상"]
["긴 문맥 처리의 비용"]
["극복 시도 (Attempts)"]
["FlashAttention-3"]
["Ring Attention"]
["SSM / 하이브리드 모델 탐색"]
10. 결론: 영원한 유산과 새로운 돌파구를 향하여
“Attention Is All You Need“는 인공지능에게 ’무엇에 집중해야 하는가’를 가르쳐줌으로써 기계를 인간의 언어와 지식에 한 걸음 더 가깝게 다가서게 만들었다.2 이 논문이 바꾼 것은 단순한 알고리즘의 구조가 아니라, 데이터를 바라보는 관점과 하드웨어의 자원을 활용하는 방식, 그리고 인공지능의 확장 가능성에 대한 인류의 기대치 그 자체였다.1
논문의 공동 저자 8명은 모두 구글을 떠나 각자의 길에서 인공지능의 미래를 개척하고 있다.1 그들이 세운 기업들은 2025년 현재 트랜스포머를 넘어서는 새로운 패러다임을 찾기 위해 고군분투 중이다.13 트랜스포머가 영원한 정답은 아닐지라도, 그것이 열어젖힌 ’병렬화와 어텐션의 시대’는 인공지능이 일반 지능(AGI)을 향해 나아가는 여정에서 가장 중요한 연료이자 지도가 되었음을 누구도 부인할 수 없다.1 트랜스포머 싱귤래리티는 바로 이 작은 논문 한 장에서 시작되었으며, 그 폭발적 팽창은 2025년 현재까지도 멈추지 않고 계속되고 있다.2
11. 참고 자료
- Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
- The Transformer Revolution: How “Attention Is All You Need” Changed AI Forever - Medium, https://medium.com/@sebuzdugan/the-transformer-revolution-how-attention-is-all-you-need-changed-ai-forever-c43b620b5671
- Attention Is All You Need: The Paper That Changed AI Forever | by …, https://medium.com/@abhijairajawat/attention-is-all-you-need-the-paper-that-changed-ai-forever-e9443756d508
- Transformer (deep learning) - Wikipedia, https://en.wikipedia.org/wiki/Transformer_(deep_learning)
- Attention Is All You Need - A Deep Dive into the Revolutionary Transformer Architecture, https://towardsai.net/p/machine-learning/attention-is-all-you-need-a-deep-dive-into-the-revolutionary-transformer-architecture
- Attention Is All You Need — Understanding the Transformer Model …, https://levelup.gitconnected.com/attention-is-all-you-need-understanding-the-transformer-model-10519074916f
- Why Attention Is All You Need? - Kaggle, https://www.kaggle.com/general/493003
- Attention is all you need - Vishal Ramesh, https://bbloggsbott.github.io/read-a-paper/attention-is-all-you-need/
- The Transformer: Attention Is All You Need - Interactive - Michael Brenndoerfer, https://mbrenndoerfer.com/writing/transformer-attention-is-all-you-need
- (PDF) Revolutionizing Vision : A Deep Dive into “Attention Is All You Need” and Its Impact on AI and Machine Learning - ResearchGate, https://www.researchgate.net/publication/394854371_Revolutionizing_Vision_A_Deep_Dive_into_Attention_Is_All_You_Need_and_Its_Impact_on_AI_and_Machine_Learning
- LLM Interview Series(3): Transformers Explained — Attention Is All You Need - Medium, https://medium.com/@huanzidage/llm-interview-series-3-transformers-explained-attention-is-all-you-need-000a17af5b75
- Transformer: A Novel Neural Network Architecture for Language Understanding, https://research.google/blog/transformer-a-novel-neural-network-architecture-for-language-understanding/
- ‘You Transformed the World,’ NVIDIA CEO Tells Researchers Behind Landmark AI Paper, https://blogs.nvidia.com/blog/gtc-2024-transformer-ai-research-panel-jensen/
- “The transformer’s success may be blocking AI’s next breakthrough” : r/singularity - Reddit, https://www.reddit.com/r/singularity/comments/1ofu10z/the_transformers_success_may_be_blocking_ais_next/
- 「我受够了Transformer」:其作者Llion Jones称AI领域已僵化,正错失下一个突破 - 新浪财经, https://finance.sina.com.cn/roll/2025-10-25/doc-infvapwp5119840.shtml
- Co-author of “Attention Is All You Need” paper is ‘absolutely sick’ of transformers, the tech that powers every major AI model : r/ArtificialInteligence - Reddit, https://www.reddit.com/r/ArtificialInteligence/comments/1oerf8t/coauthor_of_attention_is_all_you_need_paper_is/