Booil Jung

트랜스포머 아키텍처 2

자연어 처리(NLP)를 비롯한 순차 데이터 모델링 분야는 오랫동안 순환 신경망(Recurrent Neural Network, RNN)과 그 변형인 Long Short-Term Memory(LSTM)에 의해 지배되어 왔다. 이 모델들은 이전 시간 단계(time step)의 정보를 은닉 상태(hidden state)라는 벡터에 압축하여 현재 시간 단계의 입력과 함께 처리하는 순환적 구조를 통해 시퀀스의 동적 특성을 포착하도록 설계되었다.1 그러나 이러한 구조는 본질적인 한계를 내포하고 있었다.

RNN 계열 모델의 가장 근본적인 한계는 순차적(sequential) 데이터 처리 방식에 있다. 각 시간 단계의 계산은 이전 단계의 은닉 상태에 의존하기 때문에, 전체 시퀀스에 대한 연산을 병렬화하는 것이 원천적으로 불가능하다.1 이는 대규모 병렬 연산에 최적화된 그래픽 처리 장치(GPU)와 같은 현대 컴퓨팅 하드웨어의 잠재력을 충분히 활용하지 못하게 만들어, 모델의 훈련 속도를 저하시키는 심각한 병목 현상을 야기했다.4 모델의 크기가 커지고 데이터셋이 방대해짐에 따라 이러한 계산 비효율성은 더욱 두드러진 문제로 부상했다.

순차 처리 방식은 또 다른 고질적인 문제인 ‘장기 의존성 문제’를 야기했다.2 시퀀스의 길이가 길어질수록, 초반부에 위치한 중요한 정보가 여러 시간 단계를 거치면서 희석되거나 소실되어 시퀀스 후반부까지 제대로 전달되지 못하는 현상이다.3 예를 들어, “철수가 교실에서 공부하고 있었다…. 영희가 그에게 인사를 했다.”라는 문장에서 ‘그’가 ‘철수’를 지칭한다는 것을 파악하려면, 모델은 ‘철수’라는 정보를 먼 거리까지 기억하고 있어야 한다. 하지만 RNN은 이 과정에서 정보가 희미해지는 경향이 있다.3

이 문제의 수학적 근원은 역전파(backpropagation) 과정에서 발생하는 기울기 소실(vanishing gradient) 또는 기울기 폭발(exploding gradient) 현상에 있다. 시퀀스를 따라 역전파되는 기울기는 동일한 가중치 행렬을 반복적으로 곱하게 되는데, 이 가중치의 특이값(singular value)이 1보다 작으면 기울기는 지수적으로 0에 수렴하고, 1보다 크면 무한대로 발산한다.3 LSTM은 망각 게이트(forget gate), 입력 게이트(input gate), 출력 게이트(output gate)와 같은 정교한 게이트 메커니즘을 도입하여 정보의 흐름을 제어함으로써 이 문제를 상당 부분 완화했다.2 그러나 게이트 구조가 복잡해지면서 파라미터 수가 크게 증가했고, 순차 처리라는 근본적인 틀은 벗어나지 못했다.6

2017년, Vaswani et al.은 “Attention Is All You Need”라는 논문을 통해 이러한 문제들에 대한 혁신적인 해결책을 제시하며 NLP 분야의 새로운 패러다임을 열었다.7 이들이 제안한 트랜스포머(Transformer) 아키텍처는 순환 구조를 완전히 배제하고 ‘어텐션(Attention)’이라는 메커니즘에만 전적으로 의존한다.1 어텐션 메커니즘은 시퀀스 내의 모든 토큰 쌍 간의 관계를 직접적으로, 그리고 동시에 계산할 수 있게 해준다.

이러한 설계는 두 가지 혁신적인 결과를 낳았다.

첫째, 모든 토큰에 대한 계산이 병렬적으로 수행될 수 있어 GPU의 연산 능력을 극대화하고 훈련 시간을 획기적으로 단축시켰다.1

둘째, 시퀀스 내 임의의 두 토큰 사이의 경로 길이가 O(1)로 고정되어, 거리에 상관없이 정보가 직접 전달될 수 있게 되었다. 이는 RNN의 O(n) 경로 길이와 대조적으로, 장기 의존성 문제를 구조적으로 해결하는 결정적인 계기가 되었다.4

트랜스포머의 등장은 단순히 성능 개선을 넘어, 순차 데이터 모델링에 대한 근본적인 접근 방식을 바꾸어 놓은 사건이었다. 이는 알고리즘 설계가 하드웨어의 특성과 어떻게 시너지를 이룰 수 있는지를 보여주는 대표적인 사례로 평가된다.

트랜스포머 아키텍처는 기계 번역과 같은 시퀀스-투-시퀀스(sequence-to-sequence) 작업을 효과적으로 수행하기 위해 설계된 인코더-디코더(Encoder-Decoder) 구조를 기반으로 한다.8 이 구조는 입력 시퀀스를 이해하는 부분과 출력 시퀀스를 생성하는 부분을 명확히 분리하여 각자의 역할에 집중하도록 한다.

표준 트랜스포머 모델은 동일한 구조를 가진 N개의 인코더 레이어를 쌓아 올린 인코더 스택과, 역시 동일한 구조의 N개의 디코더 레이어로 구성된 디코더 스택으로 이루어진다.8

트랜스포머 내부에서 데이터는 다음과 같은 정교한 과정을 거쳐 처리된다.

  1. 입력 처리: 입력 문장은 먼저 토크나이저(Tokenizer)에 의해 개별적인 토큰(단어 또는 하위 단어)의 시퀀스로 분할된다.11
  2. 임베딩 및 위치 인코딩: 각 토큰은 임베딩 레이어(Embedding Layer)를 통해 고차원의 벡터로 변환된다. 이 임베딩 벡터는 토큰의 의미론적 정보를 담고 있다. 여기에, 시퀀스 내 토큰의 순서 정보를 주입하기 위해 위치 인코딩(Positional Encoding) 벡터가 더해진다.8
  3. 인코더 스택: 위치 정보가 추가된 임베딩 벡터 시퀀스는 인코더 스택의 첫 번째 레이어로 입력된다. 각 레이어에서 데이터는 셀프 어텐션을 통해 시퀀스 전체의 문맥 정보를 통합하고, 피드포워드 신경망을 통해 비선형적으로 변환된다. 한 레이어의 출력은 다음 레이어의 입력으로 전달된다.
  4. 인코더-디코더 연결: 최종 인코더 레이어의 출력은 키(Key)와 값(Value) 벡터의 형태로 디코더 스택의 모든 레이어에 전달된다. 이 벡터들은 디코더의 인코더-디코더 어텐션 하위 레이어에서 사용되어, 출력 토큰을 생성할 때 입력 시퀀스의 어떤 부분에 집중해야 할지를 결정하는 데 중요한 역할을 한다.13
  5. 디코더 스택 및 출력 생성: 디코더는 자기회귀적(auto-regressive) 방식으로 작동한다. 즉, 각 시간 단계에서 이전에 생성된 모든 토큰들을 입력으로 받아 다음 토큰을 예측한다.14 이 과정은 디코더 내부의 마스크드 셀프 어텐션(Masked Self-Attention)과 인코더-디코더 어텐션을 거쳐 수행된다.
  6. 최종 출력: 최종 디코더 레이어의 출력 벡터는 선형 변환(Linear Transformation)을 거쳐 어휘(vocabulary) 크기의 로짓(logit) 벡터로 변환된다. 이 로짓 벡터에 소프트맥스(Softmax) 함수를 적용하면 각 단어에 대한 확률 분포가 계산되고, 가장 확률이 높은 단어가 다음 토큰으로 선택된다.15

이 모든 과정에서 가장 중요한 철학은 순환(recurrence) 구조를 완전히 배제했다는 점이다.1 어텐션과 피드포워드 네트워크는 모두 행렬 곱셈과 같은 병렬 처리가 용이한 연산으로 구성되어 있다. 이는 트랜스포머가 이전 시퀀스 모델들의 고질적인 문제였던 계산 효율성을 극복하고 대규모 데이터와 모델에 대한 학습을 가능하게 한 핵심적인 설계 원리다.16

트랜스포머 아키텍처의 심장부에는 셀프 어텐션(Self-Attention) 메커니즘이 자리 잡고 있다. 이는 시퀀스 내의 각 요소가 다른 모든 요소와의 상호작용을 통해 자신의 표현을 정제하고 문맥화하는 과정이다. 이 메커니즘은 스케일드 닷-프로덕트 어텐션이라는 구체적인 형태로 구현되며, 멀티-헤드 구조를 통해 그 표현력을 극대화한다.

셀프 어텐션은 “쿼리(Query)가 키(Key)와의 유사도를 바탕으로 값(Value)의 가중합을 구하는 과정”으로 개념화할 수 있다.8 이는 정보 검색 시스템에서 검색어(쿼리)를 입력하면, 각 문서의 색인(키)과 비교하여 관련성이 높은 문서의 내용(값)을 찾아 보여주는 원리와 유사하다. 셀프 어텐션에서는 시퀀스 내의 모든 토큰이 동시에 쿼리, 키, 값의 역할을 수행한다.18

스케일드 닷-프로덕트 어텐션의 계산 과정은 다음과 같은 수식으로 요약된다.11 \(Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\) 이 과정은 몇 가지 단계로 나눌 수 있다.

  1. Q, K, V 행렬 생성: 입력 임베딩 시퀀스 행렬 X에 대해, 학습 가능한 세 개의 가중치 행렬 $W^Q$, $W^K$, $W^V$를 각각 곱하여 쿼리, 키, 값 행렬 $Q = XW^Q$, $K = XW^K$, $V = XW^V$를 생성한다.11
  2. 어텐션 스코어 계산: 쿼리 행렬 Q와 키 행렬의 전치 K^T를 곱하여 어텐션 스코어 행렬을 계산한다. 이 행렬의 (i, j) 원소는 i번째 토큰의 쿼리 벡터와 j번째 토큰의 키 벡터 간의 내적(dot product) 값으로, 두 토큰 간의 유사도 또는 연관성을 나타낸다.19
  3. 스케일링: 계산된 어텐션 스코어를 키 벡터의 차원 $d_k$의 제곱근($\sqrt{d_k}$)으로 나누어준다.
  4. 소프트맥스 정규화: 스케일링된 스코어 행렬의 각 행에 소프트맥스 함수를 적용한다. 이를 통해 각 행의 합이 1이 되는 확률 분포, 즉 어텐션 가중치(attention weights)를 얻는다. 이는 각 쿼리 토큰이 다른 모든 키 토큰에 얼마나 ‘주의’를 기울여야 하는지를 나타내는 가중치 분포다.8
  5. 가중합 계산: 마지막으로, 이 어텐션 가중치 행렬을 값 행렬 V와 곱한다. 이 결과로 생성된 행렬의 각 행은 해당 토큰에 대한 문맥화된 새로운 표현 벡터가 된다. 이는 시퀀스 내 모든 토큰의 값(Value) 벡터들을 어텐션 가중치에 따라 가중 평균한 결과다.11

어텐션 스코어를 $\sqrt{d_k}$로 나누는 스케일링 단계는 사소해 보이지만 모델의 학습 안정성에 결정적인 역할을 한다.9 키 벡터의 차원 $d_k$가 커질수록, 내적 값의 분산도 커지는 경향이 있다. 만약 스케일링 없이 큰 값의 스코어가 소프트맥스 함수에 입력되면, 함수는 기울기가 거의 0에 가까운 포화(saturation) 영역으로 들어갈 수 있다.21 이 경우 역전파 시 기울기가 소실되어 학습이 제대로 이루어지지 않는다. 스케일링은 내적 값의 분산을 일정하게 유지시켜 이러한 문제를 방지하고 안정적인 학습을 가능하게 한다.8

단일 어텐션 메커니즘은 한 가지 측면에서만 토큰 간의 관계를 학습한다. 그러나 문장 속 단어들은 다양한 관계를 맺는다. 예를 들어 “그가 만든 로봇은 매우 빨랐다”라는 문장에서 ‘로봇’은 ‘만든’과 주체-행위 관계를, ‘빨랐다’와는 주체-상태 관계를 맺는다. 멀티-헤드 어텐션은 이러한 다양한 관계를 동시에 포착하기 위해 도입되었다.15

이 아이디어는 단일 어텐션을 여러 개의 ‘헤드(head)’로 나누어 병렬적으로 수행하는 것이다.15 각 헤드는 입력 벡터를 서로 다른 저차원 부분 공간(subspace)으로 투영하여 독립적으로 어텐션을 계산한다. 이를 통해 어떤 헤드는 구문적 관계에, 다른 헤드는 의미론적 관계에, 또 다른 헤드는 장거리 의존성에 집중하는 등 각기 다른 측면의 정보를 학습하도록 전문화될 수 있다.15

멀티-헤드 어텐션은 다음과 같은 과정으로 작동한다.15

  1. 선형 투영: $d_{\text{model}}$ 차원의 쿼리, 키, 값 벡터를 $h$개의 헤드로 나눈다. 각 헤드 $i$에 대해, 서로 다른 학습 가능한 가중치 행렬 $W_i^Q \in \mathbb{R}^{d_{\text{model}} \times d_k}$, $W_i^K \in \mathbb{R}^{d_{\text{model}} \times d_k}$, $W_i^V \in \mathbb{R}^{d_{\text{model}} \times d_v}$를 사용하여 입력 $Q, K, V$를 저차원 공간으로 투영한다. 여기서 일반적으로 $d_k = d_v = d_{\text{model}} / h$로 설정된다.

  2. 병렬 어텐션: 각 헤드는 투영된 $Q_i, K_i, V_i$를 사용하여 스케일드 닷-프로덕트 어텐션을 독립적으로, 그리고 병렬적으로 계산한다. \(\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)\) 결과 연결: $h$개의 모든 헤드에서 나온 출력 벡터 $\text{head}_1, \dots, \text{head}_h$를 다시 하나로 연결(concatenate)한다.

  3. 최종 투영: 연결된 벡터에 또 다른 학습 가능한 가중치 행렬 $W^O \in \mathbb{R}^{hd_v \times d_{\text{model}}}$를 곱하여 최종적으로 $d_{\text{model}}$ 차원의 출력 벡터를 생성한다.

이 전체 과정은 다음 수식으로 표현된다. \(\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O\)

멀티-헤드 어텐션은 모델이 다양한 표현 부분 공간에서 정보를 종합적으로 고려할 수 있게 함으로써 표현력을 크게 향상시킨다. 이는 마치 여러 전문가가 각자의 관점에서 의견을 제시하고 이를 종합하여 최종 결정을 내리는 것과 같은 앙상블 효과를 낳는다.15 이 구조는 트랜스포머가 복잡하고 미묘한 언어적 관계를 학습하는 데 핵심적인 역할을 수행한다.

셀프 어텐션 메커니즘의 수학적 특성을 깊이 살펴보면, 이는 본질적으로 순열 등변성(permutation equivariance)을 가진다.25 즉, 입력 시퀀스에서 토큰들의 순서를 뒤섞어도 출력되는 벡터들의 집합은 동일하며, 단지 순서만 입력과 동일하게 바뀔 뿐이다.

softmax(QK^T) 계산의 핵심인 내적 연산은 순서에 무관하기 때문이다. 예를 들어, “개는 사람을 문다”와 “사람은 개를 문다”라는 두 문장은 완전히 다른 의미를 가지지만, 셀프 어텐션은 이 두 문장에 대해 동일한 벡터 집합을 출력하게 된다. 이는 모델이 단어의 순서 정보를 내재적으로 이해할 수 없음을 의미하며, 언어 이해에 치명적인 약점이다. 따라서, 순서 정보를 외부에서 명시적으로 주입해주는 메커니즘이 구조적으로 반드시 필요하게 되는데, 이것이 바로 다음 장에서 다룰 위치 인코딩의 존재 이유다.

앞서 분석한 바와 같이, 트랜스포머의 셀프 어텐션 메커니즘은 입력 시퀀스를 순서가 없는 집합(set)으로 처리하는 순열 등변성(permutation equivariance) 특성을 가진다. 이로 인해 모델은 “어떤 단어가 먼저 나왔는가” 또는 “두 단어가 얼마나 떨어져 있는가”와 같은 순서 정보를 자체적으로 파악할 수 없다.8 이 문제를 해결하기 위해, 트랜스포머는 위치 인코딩(Positional Encoding)이라는 명시적인 장치를 통해 각 토큰의 위치 정보를 주입한다.28

위치 인코딩의 목표는 각 토큰의 임베딩 벡터에 해당 토큰의 절대적 또는 상대적 위치에 대한 정보를 추가하는 것이다.27 이렇게 위치 정보가 추가된 벡터를 모델의 입력으로 사용함으로써, 트랜스포머는 순서가 중요한 언어의 구조적 특성을 학습할 수 있게 된다. 이상적인 위치 인코딩은 다음과 같은 조건을 만족해야 한다.30

  1. 고유성: 각 위치(time step)마다 고유한 인코딩 값을 출력해야 한다.
  2. 일관성: 문장의 길이에 상관없이 두 위치 사이의 거리가 일관되게 표현되어야 한다.
  3. 일반화: 훈련 시 보지 못했던 더 긴 시퀀스에 대해서도 일반화(외삽, extrapolation)할 수 있어야 한다.
  4. 결정성 및 유계성: 값은 결정적(deterministic)으로 생성되어야 하며, 특정 범위 내에 있어야 한다(bounded).

“Attention Is All You Need” 논문에서는 이러한 조건들을 만족시키는 우아한 해결책으로 주기 함수인 사인(sine)과 코사인(cosine) 함수를 활용한 위치 인코딩 방식을 제안했다.7 이 방식은 별도의 파라미터를 학습하지 않는 고정된(fixed) 방법이다.

시퀀스 내의 위치를 나타내는 인덱스 $pos$와, $d_{\text{model}}$ 차원의 임베딩 벡터 내의 차원 인덱스 $i$에 대해, 위치 인코딩 벡터 PE의 각 요소는 다음과 같이 정의된다.30 \(PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)\)

\[PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)\]

여기서 $2i$는 짝수 차원 인덱스를, $2i+1$은 홀수 차원 인덱스를 의미한다. 즉, 각 위치 $pos$에 대한 $d_{\text{model}}$ 차원의 위치 인코딩 벡터는 서로 다른 주기를 가진 사인 및 코사인 함수의 값들로 구성된다. 분모의 $10000^{2i/d_{\text{model}}}$ 항은 파장(wavelength)을 결정하며, 차원 $i$가 증가함에 따라 파장은 $2\pi$에서 $10000 \cdot 2\pi$까지 기하급수적으로 길어진다.28

이러한 삼각함수 기반 인코딩은 여러 중요한 장점을 가진다.

  1. 고유한 위치 표현: 서로 다른 주파수의 사인과 코사인 함수를 조합함으로써, 각 위치 $pos$는 고유한 벡터 표현을 갖게 된다.30

  2. 긴 시퀀스로의 외삽: 사인과 코사인 함수의 값은 항상 [-1, 1] 범위 내에 있으므로, 훈련 시 경험한 길이보다 더 긴 시퀀스가 입력되더라도 안정적인 인코딩 값을 생성할 수 있다.30

  3. 상대 위치 학습 용이성: 이 방식의 가장 강력한 특징은 상대적 위치 정보를 효과적으로 인코딩한다는 점이다. 임의의 고정된 오프셋 $k$에 대해, $PE_{pos+k}$는 $PE_{pos}$의 선형 변환으로 표현될 수 있다. 이는 삼각함수의 덧셈 정리 $\sin(A+B) = \sin(A)\cos(B) + \cos(A)\sin(B)$와 $\cos(A+B) = \cos(A)\cos(B) - \sin(A)\sin(B)$에 의해 수학적으로 증명된다.30 \(\begin{bmatrix} \sin(\omega_i \cdot (t+\phi)) \\ \cos(\omega_i \cdot (t+\phi)) \end{bmatrix} = \begin{bmatrix} \cos(\omega_i \cdot \phi) & \sin(\omega_i \cdot \phi) \\ -\sin(\omega_i \cdot \phi) & \cos(\omega_i \cdot \phi) \end{bmatrix} \begin{bmatrix} \sin(\omega_i \cdot t) \\ \cos(\omega_i \cdot t) \end{bmatrix}\) 위 식에서 $t=pos$, $\phi=k$로 볼 수 있다. 즉, 위치가 $k$만큼 이동하는 것은 각 주파수 쌍에 해당하는 2차원 부분 공간에서 특정 각도만큼 회전하는 선형 변환과 동일하다. 모델은 이 간단한 선형 관계를 쉽게 학습할 수 있으므로, “3칸 앞에 있는 단어”와 같은 상대적 위치 관계를 파악하는 데 매우 효율적이다.

이러한 기하학적 해석은 사인/코사인 위치 인코딩이 단순한 인덱싱을 넘어, 시퀀스의 구조적 관계를 내재적으로 표현하는 정교한 방법임을 보여준다. 각 위치 $pos$는 $d_{\text{model}}/2$개의 서로 다른 속도로 회전하는 2차원 벡터들의 집합으로 표현되며, 이들의 조합을 통해 모델은 복잡한 순서 정보를 학습하게 된다. 이 위치 인코딩 벡터는 단어 임베딩 벡터에 더해져, 최종적으로 의미 정보와 위치 정보를 모두 담은 입력 표현을 완성한다.28

트랜스포머 아키텍처는 셀프 어텐션과 위치 인코딩이라는 핵심 메커니즘 외에도, 모델의 표현력을 증대시키고 깊은 네트워크의 학습을 안정시키는 몇 가지 중요한 보조 구성 요소들을 포함한다. 이들은 바로 위치별 피드포워드 신경망, 그리고 잔차 연결과 계층 정규화다.

인코더와 디코더의 각 레이어는 멀티-헤드 어텐션 하위 레이어를 통과한 후, 동일한 구조의 위치별 피드포워드 신경망(FFN)을 거친다.13 FFN은 두 개의 선형 변환(fully connected layer)과 그 사이에 위치한 비선형 활성화 함수로 구성된다.11

이 네트워크의 중요한 특징은 ‘위치별(position-wise)’이라는 이름에서 알 수 있듯이, 시퀀스 내의 각 토큰 위치에 독립적으로, 그리고 동일한 파라미터(가중치 행렬)를 사용하여 적용된다는 점이다.36 즉, 시퀀스의 모든 토큰들은 같은 FFN을 통과하지만, 서로의 계산에 영향을 주지 않는다.

어텐션 하위 레이어가 시퀀스 전체에 걸쳐 토큰 간의 정보를 혼합하고 재분배하는 역할을 담당한다면, FFN은 각 위치에서 어텐션을 통해 얻어진 문맥적 표현을 비선형 공간으로 변환하여 모델의 표현력을 한층 더 높이는 역할을 수행한다. 어텐션 연산 자체는 값(Value) 벡터에 대한 선형 결합이므로, FFN의 비선형 변환은 각 트랜스포머 블록이 더 복잡한 함수를 학습할 수 있도록 하는 필수적인 요소다.

어텐션 하위 레이어의 출력 벡터 $x$에 대한 FFN의 연산은 다음과 같이 표현된다.20 \(\text{FFN}(x) = \text{Linear}_2(\text{Activation}(\text{Linear}_1(x)))\) 이를 가중치 행렬 $W$와 편향 벡터 $b$를 사용하여 더 구체적으로 나타내면 다음과 같다. \(\text{FFN}(x) = (xW_1 + b_1)W_2 + b_2\) 원본 “Attention Is All You Need” 논문에서는 활성화 함수로 ReLU(Rectified Linear Unit)를 사용했다.11 \(\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2\) 일반적으로 첫 번째 선형 변환($W_1, b_1$)은 입력 차원 $d_{\text{model}}$을 더 큰 중간 차원 $d_{ff}$으로 확장하고 (보통 $d_{ff} = 4 \times d_{\text{model}}$), 두 번째 선형 변환($W_2, b_2$)은 다시 원래의 $d_{\text{model}}$ 차원으로 축소하는 역할을 한다.20

초기 트랜스포머는 ReLU를 사용했지만, 이후 연구를 통해 더 정교한 활성화 함수들이 제안되었다. BERT와 GPT-1에서는 GELU(Gaussian Error Linear Unit)가 사용되었고 16, 최근의 Llama와 같은 대규모 언어 모델(LLM)에서는 SwiGLU(Swish Gated Linear Unit)와 같은 게이트(gating) 메커니즘을 포함한 활성화 함수가 더 나은 성능을 보이는 것으로 알려져 널리 채택되고 있다.40 이러한 게이트 기반 활성화 함수는 입력에 따라 동적으로 정보 흐름을 조절하여 모델의 학습 능력을 향상시킨다.

트랜스포머는 수십, 때로는 수백 개의 레이어를 깊게 쌓아 매우 강력한 표현력을 확보한다. 그러나 신경망이 깊어질수록 학습이 어려워지는 문제가 발생하는데, 이를 해결하기 위해 잔차 연결(Residual Connection)과 계층 정규화(Layer Normalization)라는 두 가지 핵심적인 기법이 모든 하위 레이어에 적용된다.10

잔차 연결은 ResNet에서 처음 제안된 기법으로, 각 하위 레이어(어텐션 또는 FFN)의 입력 $x$를 해당 하위 레이어의 출력 $Sublayer(x)$에 그대로 더해주는 방식이다.20 \(\text{Output} = x + \text{Sublayer}(x)\) 이 구조는 네트워크 내에 정보가 흐를 수 있는 ‘지름길(shortcut)’을 만들어준다. 이를 통해 역전파 과정에서 기울기가 하위 레이어를 건너뛰고 직접 상위 레이어로 전달될 수 있어, 깊은 네트워크에서 흔히 발생하는 기울기 소실 문제를 효과적으로 완화한다.10 결과적으로 모델은 전체 변환을 처음부터 학습하는 대신, 입력과의 차이, 즉 ‘잔차(residual)’만을 학습하면 되므로 훈련이 훨씬 쉬워지고 안정화된다.

계층 정규화는 각 훈련 샘플에 대해 독립적으로, 해당 샘플의 모든 특성(feature)에 걸쳐 평균을 0, 분산을 1로 정규화하는 기법이다.45 이는 미니배치 내의 샘플들 간에 정규화를 수행하는 배치 정규화(Batch Normalization)와 대조된다. 배치 정규화는 배치 크기에 민감하고 순환적인 모델에 적용하기 어렵기 때문에, 가변 길이 시퀀스를 다루는 NLP 태스크에서는 계층 정규화가 더 선호된다.45

계층 정규화는 각 레이어의 입력 분포를 안정시켜 학습 과정을 원활하게 하고, 모델의 수렴 속도를 높이는 역할을 한다.10

잔차 연결과 계층 정규화를 결합하는 순서에 따라 두 가지 방식이 존재한다.

원본 트랜스포머 아키텍처는 인코더와 디코더를 모두 사용하는 시퀀스-투-시퀀스(sequence-to-sequence) 작업, 특히 기계 번역에 최적화되어 있었다. 그러나 이후 연구자들은 특정 과제의 요구에 맞춰 아키텍처의 일부만을 활용하거나 변형하는 것이 더 효과적이라는 사실을 발견했다. 이 과정에서 인코더-온리, 디코더-온리, 그리고 기존의 인코더-디코더라는 세 가지 주요 패러다임이 확립되었다.

BERT는 “Bidirectional Encoder Representations from Transformers”의 약자로, 이름에서 알 수 있듯이 트랜스포머의 인코더 스택만을 활용하는 모델이다.47

GPT는 “Generative Pre-trained Transformer”의 약자로, 트랜스포머의 디코더 스택만을 기반으로 하는 모델 계열이다.8

T5는 원본 트랜스포머의 인코더-디코더 구조를 계승하면서, 모든 NLP 과제를 단일한 프레임워크로 해결하려는 혁신적인 접근법을 제시했다.58

이 세 가지 패러다임의 등장은 트랜스포머 아키텍처의 유연성과 확장성을 보여준다. BERT의 성공으로 NLU 분야에서 사전학습-미세조정 패러다임이 확고히 자리 잡았으나, LLM 시대의 개막은 GPT와 같은 디코더-온리 모델의 생성 능력에 의해 주도되었다. 이는 학계와 산업계의 관심이 언어의 ‘이해’에서 ‘생성’으로 이동했음을 시사한다. 디코더-온리 아키텍처는 다음 토큰 예측이라는 학습 목표가 실제 추론(생성) 작업과 완벽하게 일치하여 학습 신호가 매우 직접적이고 효율적이다.63 또한, 인코더-디코더 구조에 비해 구조가 단순하고, 이전 토큰들의 키-값(KV) 쌍을 캐싱하여 재사용할 수 있어 자기회귀적 생성 과정에서 계산 효율성이 높다는 장점이 있다.65 이러한 확장성과 효율성이 결합되어, 디코더-온리 모델은 수천억 개 이상의 파라미터를 가진 초거대 모델로 스케일업하는 데 가장 적합한 아키텍처로 부상하며 현재 LLM 시장을 지배하게 되었다.

특성 (Feature) 인코더-온리 (BERT) 디코더-온리 (GPT) 인코더-디코더 (T5)
주요 구성요소 Transformer Encoder Transformer Decoder Transformer Encoder & Decoder
어텐션 마스킹 양방향 (마스킹 없음) 인과적 (Causal Masking) 인코더: 양방향, 디코더: 인과적
정보 흐름 $P(x_i \rvert x_{<i}, x_{>i})$ $P(x_i \rvert x_{<i})$ $P(y_i \rvert x, y_{<i})$
주요 사전학습 목표 Masked LM (MLM), Next Sentence Prediction (NSP) Autoregressive LM Denoising Objective (Text-to-Text)
강점 문맥 이해 (NLU) 텍스트 생성 (NLG) 유연한 시퀀스 변환
대표 모델 BERT, RoBERTa GPT series, Llama, PaLM T5, BART

트랜스포머는 혁신적인 성능으로 AI 분야를 재편했지만, 그 아키텍처에는 몇 가지 근본적인 한계와 비판점이 존재한다. 이러한 한계를 이해하는 것은 현재 모델의 제약을 파악하고 차세대 아키텍처의 발전 방향을 모색하는 데 매우 중요하다.

계층 유형 (Layer Type) 계층 당 복잡도 (Complexity per Layer) 순차 연산 수 (Sequential Operations) 최대 경로 길이 (Maximum Path Length)
Self-Attention $O(n^2 \cdot d)$ $O(1)$ $O(1)$
Recurrent (RNN) $O(n \cdot d^2)$ $O(n)$ $O(n)$
Convolutional (CNN) $O(k \cdot n \cdot d^2)$ $O(1)$ $O(n/k)$

n: 시퀀스 길이, d: 표현 차원, k: 커널 크기

트랜스포머의 가장 잘 알려진, 그리고 가장 심각한 약점은 셀프 어텐션 메커니즘의 계산 복잡도다. 위 표에서 볼 수 있듯이, 셀프 어텐션은 시퀀스 길이 $n$에 대해 계산량과 메모리 요구량이 제곱에 비례하여($O(n^2)$) 증가한다.4 이는 시퀀스 내 모든 토큰 쌍 간의 상호작용을 계산해야 하기 때문이다. 시퀀스 길이가 두 배로 늘어나면 필요한 계산량과 메모리는 네 배로 증가한다.

이러한 제곱 복잡도는 트랜스포머의 적용 범위를 심각하게 제한한다. 수천 토큰을 넘는 긴 문서의 요약, 고해상도 이미지 처리(픽셀 수가 많아져 시퀀스 길이가 급증), 유전체 서열 분석과 같이 장거리 시퀀스를 다루어야 하는 태스크에서는 계산 비용이 기하급수적으로 증가하여 현실적으로 적용하기 어렵게 만든다.66 이 문제는 트랜스포머의 컨텍스트 창(context window) 길이를 늘리는 데 가장 큰 걸림돌로 작용하며, 이를 해결하기 위한 수많은 ‘효율적인 어텐션’ 연구를 촉발시켰다.

귀납적 편향은 모델이 보지 못한 데이터에 대해 합리적인 가정을 하도록 유도하는 내재된 구조적 특성이다. 예를 들어, CNN은 이미지의 일부 패턴이 다른 위치에서도 동일하게 나타날 것이라는 ‘지역성(locality)’과 ‘평행이동 불변성(translation invariance)’이라는 강력한 귀납적 편향을 가지고 있다. RNN은 데이터가 순차적으로 처리되어야 한다는 ‘순차성(sequentiality)’ 편향을 가진다.

반면, 트랜스포머의 셀프 어텐션은 입력을 순서가 없는 토큰들의 집합으로 간주하므로 이러한 구조적 편향이 매우 약하다.69 모든 정보는 데이터로부터 학습되어야 한다. 이는 모델의 유연성을 높여 다양한 데이터에 적용될 수 있다는 장점이 있지만, 동시에 몇 가지 단점을 야기한다. 첫째, 강력한 편향이 없기 때문에 데이터에서 패턴을 학습하기 위해 훨씬 더 많은 양의 데이터가 필요하다.68 둘째, 특정 종류의 구조적 규칙을 학습하는 데 비효율적일 수 있다. 예를 들어, 입력 시퀀스에서 특정 토큰의 개수가 짝수인지 홀수인지 판단하는 간단한 PARITY 문제와 같은 형식 언어를 학습하는 데 어려움을 겪는 것으로 알려져 있다.69

트랜스포머가 처음 등장했을 때, 어텐션 가중치 맵은 모델이 예측을 내릴 때 입력의 어떤 부분에 ‘집중’하는지를 보여주는 직관적인 해석 도구로 기대를 모았다.55 예를 들어, 번역 모델에서 특정 단어에 대한 높은 어텐션 가중치는 해당 단어가 번역의 중요한 근거가 되었음을 시사하는 것으로 보였다.

그러나 후속 연구들은 이러한 해석에 대해 신중해야 함을 경고했다. 여러 연구에서 어텐션 가중치와 모델의 최종 예측 사이에는 강한 인과 관계가 없을 수 있음이 밝혀졌다.72 즉, 높은 어텐션 가중치를 받은 토큰이 반드시 예측에 결정적인 영향을 미치는 것은 아니라는 것이다. 또한, 멀티-헤드 어텐션 구조에서는 수십, 수백 개의 어텐션 맵이 생성되는데, 이를 종합적으로 해석하는 것은 거의 불가능에 가깝다.72 따라서 어텐션 맵을 모델의 ‘추론 과정’에 대한 직접적인 설명으로 간주하는 것은 오해의 소지가 있으며, 보조적인 해석 도구로 제한적으로 사용해야 한다는 것이 현재의 중론이다.

트랜스포머 아키텍처의 근본적인 한계, 특히 제곱 복잡도 문제는 이를 극복하기 위한 수많은 후속 연구를 촉발시켰다. 이러한 노력은 기존 어텐션 메커니즘을 더 효율적으로 만드는 방향, 아예 새로운 아키텍처를 모색하는 방향, 그리고 모델을 더 효과적으로 확장하는 방법론을 연구하는 방향으로 전개되었다.

제곱 복잡도 문제를 해결하기 위한 연구는 크게 네 가지 흐름으로 분류할 수 있다.

이러한 진화의 과정은 ‘만능’ 아키텍처는 없다는 것을 보여준다. 효율적인 어텐션, Mamba, 하이브리드 모델 등은 성능, 계산 효율, 메모리 사용량, 특정 과제에 대한 적합성 등 다양한 축으로 구성된 복잡한 트레이드오프 공간을 탐색하는 과정이다. 미래의 아키텍처는 단일한 형태가 아니라, 특정 목적과 하드웨어 환경에 최적화된 다양한 형태의 모델들이 공존하는 생태계가 될 가능성이 높다.

트랜스포머 아키텍처는 2017년 등장 이후 지난 몇 년간 인공지능 분야에 지대한 영향을 미쳤으며, 그 유산은 기술적 성취를 넘어 연구와 산업의 패러다임 자체를 바꾸어 놓았다.

트랜스포머는 자연어 처리를 넘어 인공지능 전반의 사실상 표준(de facto) 아키텍처로 자리매김했다. 그 영향력은 다양한 분야로 빠르게 확산되었다.

트랜스포머의 능력은 공학적 응용을 넘어 기초 과학 연구의 도구로서도 그 가치를 증명하고 있다. 복잡한 데이터 내에서 장거리 패턴과 고차원적 관계를 포착하는 능력은 과학적 발견의 속도를 가속화하고 있다.

트랜스포머는 여전히 진화하고 있으며, 그 한계를 극복하려는 노력은 AI 아키텍처 연구의 최전선을 형성하고 있다.

결론적으로, 트랜스포머는 단순히 하나의 성공적인 모델을 넘어, 병렬 처리, 어텐션 메커니즘, 대규모 사전학습이라는 핵심 원칙을 AI 커뮤니티에 각인시켰다. 그 한계를 극복하려는 과정에서 파생된 수많은 아이디어들은 앞으로도 오랫동안 인공지능 아키텍처의 발전을 이끌어갈 원동력이 될 것이다. 트랜스포머의 진정한 유산은 그 자체의 성능이 아니라, 그것이 촉발한 끝없는 혁신과 탐구의 과정에 있다.

  1. Attention is All You Need 리뷰, 8월 15, 2025에 액세스, https://rauleun.github.io/attention-is-all-you-need
  2. 장단기 메모리(Long Short-Term Memory, LSTM) - tgwon - 티스토리, 8월 15, 2025에 액세스, https://tgwon.tistory.com/49
  3. RNN의 한계를 해결한 순환구조 네트워크, LSTM과 GRU, 8월 15, 2025에 액세스, https://aiheroes.ai/community/77
  4. Attention Is All You Need - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/1706.03762v7
  5. LSTM (Long-Short Term Memory)이란? - 데이터 분석 공부하는 블로그 - 티스토리, 8월 15, 2025에 액세스, https://hul980.tistory.com/37
  6. LSTM(Long short term memory) - 곰곰의 일지 - 티스토리, 8월 15, 2025에 액세스, https://secundo.tistory.com/46
  7. [1706.03762] Attention Is All You Need - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/abs/1706.03762
  8. 트랜스포머 모델이란? 용어 해설 HPE 대한민국, 8월 15, 2025에 액세스, https://www.hpe.com/kr/ko/what-is/transformer-model.html
  9. [NLP 스터디] Scaled Dot-Product Attention - 아는 것의 미학 - 티스토리, 8월 15, 2025에 액세스, https://applepy.tistory.com/123
  10. Normalization and Residual Connections in Generative AI, 8월 15, 2025에 액세스, https://www.tutorialspoint.com/gen-ai/normalization-and-residual-connections.htm
  11. 트랜스포머 (기계 학습) - 위키백과, 우리 모두의 백과사전, 8월 15, 2025에 액세스, https://ko.wikipedia.org/wiki/%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8(%EA%B8%B0%EA%B3%84%ED%95%99%EC%8A%B5)
  12. 트랜스포머 모델이란 무엇인가요? - IBM, 8월 15, 2025에 액세스, https://www.ibm.com/kr-ko/think/topics/transformer-model
  13. 트랜스포머(인공신경망) - 나무위키:대문, 8월 15, 2025에 액세스, https://namu.wiki/w/%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8(%EC%9D%B8%EA%B3%B5%EC%8B%A0%EA%B2%BD%EB%A7%9D)
  14. 인공 지능에서 트랜스포머란 무엇인가요? - AWS, 8월 15, 2025에 액세스, https://aws.amazon.com/ko/what-is/transformers-in-artificial-intelligence/
  15. Transformer의 Multi-Head Attention과 Transformer에서 쓰인 다양한 …, 8월 15, 2025에 액세스, https://glanceyes.com/entry/Transformer%EC%9D%98-Multi-Head-Attention%EA%B3%BC-Transformer%EC%97%90%EC%84%9C-%EC%93%B0%EC%9D%B8-%EB%8B%A4%EC%96%91%ED%95%9C-%EA%B8%B0%EB%B2%95
  16. Transformer (deep learning architecture) - Wikipedia, 8월 15, 2025에 액세스, https://en.wikipedia.org/wiki/Transformer_(deep_learning_architecture)
  17. Attention 개념 Inhwan’s Digital Blog, 8월 15, 2025에 액세스, https://nextjs-blog-v2-amber.vercel.app/blog/NLP/2023-01-05-attention
  18. Transformer(1) - Scaled Dot-Product Attention - simpling - 티스토리, 8월 15, 2025에 액세스, https://simpling.tistory.com/3
  19. 스케일드 닷-프로덕트 어텐션(Scaled dot-product Attention) - velog, 8월 15, 2025에 액세스, https://velog.io/@cha-suyeon/%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%93%9C-%EB%8B%B7-%ED%94%84%EB%A1%9C%EB%8D%95%ED%8A%B8-%EC%96%B4%ED%85%90%EC%85%98Scaled-dot-product-Attention
  20. 트랜스포머(Transformer) 모델 / 인코더, 포지션-와이즈 피드 포워드 신경망, 잔차 연결, 정규화, 8월 15, 2025에 액세스, https://zorba-blog.tistory.com/27
  21. The Detailed Explanation of Self-Attention in Simple Words by Maninder Singh Medium, 8월 15, 2025에 액세스, https://medium.com/@manindersingh120996/the-detailed-explanation-of-self-attention-in-simple-words-dec917f83ef3
  22. [NLP] Transformer Multi-Head Attention 파이썬으로 정리 - Tiabet 공부일지 - 티스토리, 8월 15, 2025에 액세스, https://tiabet0929.tistory.com/83
  23. 4-2. Transformer(Multi-head Attention) [초등학생도 이해하는 자연어처리] - 코딩 오페라, 8월 15, 2025에 액세스, https://codingopera.tistory.com/44
  24. Mastering LLama - Multihead Attention - (1/3) : SHA 에서 MHA로 확장 - Medium, 8월 15, 2025에 액세스, https://medium.com/@hugmanskj/mastering-llama-multihead-attention-1-3-c6227082b36f
  25. A Mathematical View of Attention Models in Deep Learning - Texas A&M University, 8월 15, 2025에 액세스, https://people.tamu.edu/~sji/classes/attn-slides.pdf
  26. A Mathematical View of Attention Models in Deep Learning - Texas A&M University, 8월 15, 2025에 액세스, https://people.tamu.edu/~sji/classes/attn.pdf
  27. 포지셔널 인코딩(Positional Encoding) - 아는 것의 미학 🌼 - 티스토리, 8월 15, 2025에 액세스, https://applepy.tistory.com/145
  28. A Gentle Introduction to Positional Encoding in Transformer Models, Part 1 - MachineLearningMastery.com, 8월 15, 2025에 액세스, https://machinelearningmastery.com/a-gentle-introduction-to-positional-encoding-in-transformer-models-part-1/
  29. A Gentle Introduction to Positional Encoding in Transformer Models, Part 1, 8월 15, 2025에 액세스, https://www.cs.bu.edu/fac/snyder/cs505/PositionalEncodings.pdf
  30. Positional Encoding은 무엇일까? Standing-O, 8월 15, 2025에 액세스, https://standing-o.github.io/posts/positional-encoding/
  31. 차근차근 이해하는 Transformer(5): Positional Encoding - Data Science - 티스토리, 8월 15, 2025에 액세스, https://tigris-data-science.tistory.com/entry/%EC%B0%A8%EA%B7%BC%EC%B0%A8%EA%B7%BC-%EC%9D%B4%ED%95%B4%ED%95%98%EB%8A%94-Transformer5-Positional-Encoding
  32. Attention is all you need paper 뽀개기 - 포자랩스의 기술 블로그, 8월 15, 2025에 액세스, https://pozalabs.github.io/transformer/
  33. [Transformer] Positional Encoding 이해하기 - Growth Scientist - 티스토리, 8월 15, 2025에 액세스, https://zzz0101.tistory.com/36
  34. Positional Encodings in Transformer Models - MachineLearningMastery.com, 8월 15, 2025에 액세스, https://machinelearningmastery.com/positional-encodings-in-transformer-models/
  35. Transformer Architecture: The Positional Encoding - Amirhossein Kazemnejad’s Blog, 8월 15, 2025에 액세스, https://kazemnejad.com/blog/transformer_architecture_positional_encoding/
  36. Transformer 설명 - taeeyeong - 티스토리, 8월 15, 2025에 액세스, https://taeeyeong.tistory.com/5
  37. Transformer(3) - Positional Encoding, Position-Wise Feedforward, Residual connection, 8월 15, 2025에 액세스, https://simpling.tistory.com/5
  38. Transformer (2) - YJJo - 티스토리, 8월 15, 2025에 액세스, https://yjjo.tistory.com/49
  39. Position-Wise Feed-Forward Network (FFN) by Hunter Phillips Medium, 8월 15, 2025에 액세스, https://medium.com/@hunter-j-phillips/position-wise-feed-forward-network-ffn-d4cc9e997b4c
  40. Unlocking Deeper Understanding: Gated Linear Units (GLU) and, 8월 15, 2025에 액세스, https://www.metriccoders.com/post/unlocking-deeper-understanding-gated-linear-units-glu-and-their-variants-in-llms
  41. Linear Layers and Activation Functions in Transformer Models - Machine Learning Mastery, 8월 15, 2025에 액세스, https://machinelearningmastery.com/linear-layers-and-activation-functions-in-transformer-models/
  42. Transformer Activation Functions and their Details - JoeLogs, 8월 15, 2025에 액세스, https://sathvikjoel.github.io/posts/tech/05032024_activationfunctions/
  43. residual connection - learnius, 8월 15, 2025에 액세스, https://learnius.com/llms/2+LLMs+and+Transformers/residual+connection
  44. On Layer Normalization in the Transformer Architecture - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/pdf/2002.04745
  45. Transformers: Attention is all you need - Layer Normalization by Shravan Kumar - Medium, 8월 15, 2025에 액세스, https://medium.com/@shravankoninti/transformers-attention-is-all-you-need-layer-normalization-1435248866d6
  46. 트랜스포머 (Transformer) - 3. Feed Forward Neural Network - Attention - 티스토리, 8월 15, 2025에 액세스, https://deeeepdive.tistory.com/entry/%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8-Transformer-3-Feed-Forward-Neural-Network
  47. BERT (language model) - Wikipedia, 8월 15, 2025에 액세스, https://en.wikipedia.org/wiki/BERT_(language_model)
  48. Paper summary - BERT: Bidirectional Transformers for Language Understanding by Sanna Persson Analytics Vidhya Medium, 8월 15, 2025에 액세스, https://medium.com/analytics-vidhya/paper-summary-bert-pre-training-of-deep-bidirectional-transformers-for-language-understanding-861456fed1f9
  49. arXiv:1810.04805v2 [cs.CL] 24 May 2019, 8월 15, 2025에 액세스, https://arxiv.org/pdf/1810.04805
  50. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processin, 8월 15, 2025에 액세스, https://research.google/blog/open-sourcing-bert-state-of-the-art-pre-training-for-natural-language-processing/
  51. arXiv:1810.04805v2 [cs.CL] 24 May 2019, 8월 15, 2025에 액세스, https://arxiv.org/abs/1810.04805
  52. [CS224n] T5 and Large Language Models - velog, 8월 15, 2025에 액세스, https://velog.io/@tobigs1617text/CS224n-T5-and-Large-Language-Models
  53. GPT-1 - Wikipedia, 8월 15, 2025에 액세스, https://en.wikipedia.org/wiki/GPT-1
  54. Paper summary: GPT 1 - Improving Language Understanding by Generative Pre-Training, 8월 15, 2025에 액세스, https://sannaperzon.medium.com/paper-summary-gpt-1-improving-language-understanding-by-generative-pre-training-c43bd7ff242a
  55. Self - Attention in NLP - GeeksforGeeks, 8월 15, 2025에 액세스, https://www.geeksforgeeks.org/nlp/self-attention-in-nlp/
  56. The GPT-3 Architecture, on a Napkin, 8월 15, 2025에 액세스, https://dugas.ch/artificial_curiosity/GPT_architecture.html
  57. What is GPT (generative pre-trained transformer)? - IBM, 8월 15, 2025에 액세스, https://www.ibm.com/think/topics/gpt
  58. T5 (language model) - Wikipedia, 8월 15, 2025에 액세스, https://en.wikipedia.org/wiki/T5_(language_model)
  59. Exploring the Limits of Transfer Learning with a Unified Text-to-Text …, 8월 15, 2025에 액세스, https://arxiv.org/pdf/1910.10683
  60. Understand T5 - Text-to-Text Transfer Transformer by Yu Yang Analytics Vidhya, 8월 15, 2025에 액세스, https://medium.com/analytics-vidhya/understand-t5-text-to-text-transfer-transformer-9bc1757989ab
  61. T5 - Hugging Face, 8월 15, 2025에 액세스, https://huggingface.co/docs/transformers/model_doc/t5
  62. Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer, 8월 15, 2025에 액세스, https://research.google/blog/exploring-transfer-learning-with-t5-the-text-to-text-transfer-transformer/
  63. why all the large language models are decoder-only based model? : r/LanguageTechnology, 8월 15, 2025에 액세스, https://www.reddit.com/r/LanguageTechnology/comments/11ajhat/why_all_the_large_language_models_are_decoderonly/
  64. [D] ELI5: Why is the GPT family of models based on the decoder-only architecture? - Reddit, 8월 15, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/14onn56/d_eli5_why_is_the_gpt_family_of_models_based_on/
  65. Why are most LLMs decoder-only?. Dive into the rabbit hole of recent… by Yumo Bai, 8월 15, 2025에 액세스, https://medium.com/@yumo-bai/why-are-most-llms-decoder-only-590c903e4789
  66. [Transformer Survey] #2 Sparse Attention - YouTube, 8월 15, 2025에 액세스, https://www.youtube.com/watch?v=m8rWN2-VkcU
  67. The Problem with Quadratic Attention in Transformer Architectures tips - Wandb, 8월 15, 2025에 액세스, https://wandb.ai/wandb_fc/tips/reports/The-Problem-with-Quadratic-Attention-in-Transformer-Architectures–Vmlldzo3MDE0Mzcz
  68. Limitations of Transformer Architecture by Thirupathi Thangavel - Medium, 8월 15, 2025에 액세스, https://medium.com/@thirupathi.thangavel/limitations-of-transformer-architecture-4e6118cbf5a4
  69. [2402.09963] Why are Sensitive Functions Hard for Transformers? - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/abs/2402.09963
  70. [Discussion] In this age of LLMs, What are the limitations of Transformer architecture and downside to it? : r/MachineLearning - Reddit, 8월 15, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/18qh1hp/discussion_in_this_age_of_llms_what_are_the/
  71. Transformers Learn Low Sensitivity Functions: Investigations and Implications - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2403.06925v2
  72. Rethinking Self-Attention: Towards Interpretability in Neural Parsing - ACL Anthology, 8월 15, 2025에 액세스, https://aclanthology.org/2020.findings-emnlp.65.pdf
  73. On Limitations of the Transformer Architecture - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2402.08164v1
  74. On Limitations of the Transformer Architecture - OpenReview, 8월 15, 2025에 액세스, https://openreview.net/forum?id=KidynPuLNW
  75. Day 31: Longformer - Efficient Attention Mechanism for Long Documents - DEV Community, 8월 15, 2025에 액세스, https://dev.to/nareshnishad/day-31-longformer-efficient-attention-mechanism-for-long-documents-475j
  76. Exploring Longformer - Scaler Topics, 8월 15, 2025에 액세스, https://www.scaler.com/topics/nlp/longformer/
  77. kyegomez/SparseAttention: Pytorch Implementation of the sparse attention from the paper: “Generating Long Sequences with Sparse Transformers” - GitHub, 8월 15, 2025에 액세스, https://github.com/kyegomez/SparseAttention
  78. Lighter and Better: Low-Rank Decomposed Self-Attention Networks for Next-Item Recommendation - Microsoft, 8월 15, 2025에 액세스, https://www.microsoft.com/en-us/research/wp-content/uploads/2021/05/LighterandBetter_Low-RankDecomposedSelf-AttentionNetworksforNext-ItemRecommendation.pdf
  79. Self-Attention is Low Rank: Explained from Linformer by Banashrii Jul, 2025 Medium, 8월 15, 2025에 액세스, https://medium.com/@sbanashri25/self-attention-is-low-rank-explained-from-linformer-6fa3e8629e94
  80. Linformer: Self-Attention with Linear Complexity (Paper Explained) - YouTube, 8월 15, 2025에 액세스, https://www.youtube.com/watch?v=-_2AF9Lhweo
  81. Efficient Attention Mechanisms for Large Language Models: A Survey - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2507.19595v1
  82. Gated Linear Attention Transformers with Hardware-Efficient Training - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/pdf/2312.06635
  83. Breaking the attention bottleneck - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2406.10906v1
  84. Basic idea behind flash attention (V1) Damek Davis’ Website, 8월 15, 2025에 액세스, https://damek.github.io/random/basic-idea-behind-flash-attention/
  85. Paper Explained 2: FlashAttention by Shirley Li - Medium, 8월 15, 2025에 액세스, https://medium.com/@lixue421/paper-explained-2-flashattention-172bc2e90440
  86. Understanding Flash Attention: Writing the Algorithm from Scratch in Triton - Alex Dremov, 8월 15, 2025에 액세스, https://alexdremov.me/understanding-flash-attention-writing-the-algorithm-from-scratch-in-triton/
  87. Flash Attention massively accelerate gpt-oss-120b inference speed on Apple silicon - Reddit, 8월 15, 2025에 액세스, https://www.reddit.com/r/LocalLLaMA/comments/1mp92nc/flash_attention_massively_accelerate_gptoss120b/
  88. MambaByte: Token-free Selective State Space Model - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2401.13660v1
  89. A Survey of Mamba - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2408.01129v1
  90. Mamba-ST: State Space Model for Efficient Style Transfer - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/384075792_Mamba-ST_State_Space_Model_for_Efficient_Style_Transfer
  91. Repeat After Me: Transformers are Better than State Space Models at Copying, 8월 15, 2025에 액세스, https://kempnerinstitute.harvard.edu/research/deeper-learning/repeat-after-me-transformers-are-better-than-state-space-models-at-copying/
  92. [D] What Are the Fundamental Drawbacks of Mamba Compared to Transformers? - Reddit, 8월 15, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/1ayog60/d_what_are_the_fundamental_drawbacks_of_mamba/
  93. Jamba - Hugging Face, 8월 15, 2025에 액세스, https://huggingface.co/docs/transformers/v4.47.1/model_doc/jamba
  94. Jamba: A Hybrid Transformer-Mamba Language Model - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2403.19887v1
  95. Jamba: Hybrid Transformer-Mamba Language Models - OpenReview, 8월 15, 2025에 액세스, https://openreview.net/forum?id=JFPaD7lpBD
  96. Open-source LLM Jamba focuses on performance and efficiency with unique hybrid architecture - The Decoder, 8월 15, 2025에 액세스, https://the-decoder.com/open-source-llm-jamba-focuses-on-performance-and-efficiency-with-a-new-architecture/
  97. Jamba Transformer - Kaggle, 8월 15, 2025에 액세스, https://www.kaggle.com/code/mpwolke/jamba-transformer
  98. Transformer vs. Mixture of Experts in LLMs - Daily Dose of Data Science, 8월 15, 2025에 액세스, https://www.dailydoseofds.com/p/transformer-vs-mixture-of-experts-in-llms/
  99. Applying Mixture of Experts in LLM Architectures NVIDIA Technical Blog, 8월 15, 2025에 액세스, https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
  100. A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2503.07137v1
  101. What is mixture of experts? IBM, 8월 15, 2025에 액세스, https://www.ibm.com/think/topics/mixture-of-experts
  102. Toward Inference-optimal Mixture-of-Expert Large Language Models - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2404.02852v1
  103. Unraveling the Complexity of Mixture of Experts (MoE) in Machine Learning - Medium, 8월 15, 2025에 액세스, https://medium.com/@juanc.olamendy/unraveling-the-complexity-of-mixture-of-experts-moe-in-machine-learning-7db682d76b00
  104. Scaling Laws for Neural Language Models - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/338789955_Scaling_Laws_for_Neural_Language_Models
  105. [2001.08361] Scaling Laws for Neural Language Models - ar5iv - arXiv, 8월 15, 2025에 액세스, https://ar5iv.labs.arxiv.org/html/2001.08361
  106. Scaling Laws for Neural Language Models - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/pdf/2001.08361
  107. [2001.08361] Scaling Laws for Neural Language Models - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/abs/2001.08361
  108. Chinchilla: Training Compute-Optimal Large Language Models by Isaac Kargar - Medium, 8월 15, 2025에 액세스, https://medium.com/aiguys/chinchilla-training-compute-optimal-large-language-models-a922a0d9eebb
  109. Training Compute-Optimal Large Language Models, 8월 15, 2025에 액세스, https://proceedings.neurips.cc/paper_files/paper/2022/file/c1e2faff6f588870935f114ebe04a3e5-Paper-Conference.pdf
  110. Paper page - Training Compute-Optimal Large Language Models - Hugging Face, 8월 15, 2025에 액세스, https://huggingface.co/papers/2203.15556
  111. Chinchilla : A Guide To Training Compute Optimal Large Language Models - Medium, 8월 15, 2025에 액세스, https://medium.com/@pranjalkhadka/chinchilla-a-guide-to-training-compute-optimal-large-language-models-3d3ad3787f1d
  112. [Link] Training Compute-Optimal Large Language Models - LessWrong, 8월 15, 2025에 액세스, https://www.lesswrong.com/posts/4dbK5dPiqHCgNdKnq/link-training-compute-optimal-large-language-models
  113. Training Compute-Optimal Large Language Models - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/pdf/2203.15556
  114. The Hardware Lottery: the cost of straying off the beaten path - LightOn.ai, 8월 15, 2025에 액세스, https://www.lighton.ai/fr-blog-posts/the-hardware-lottery-the-cost-of-straying-off-the-beaten-path
  115. The Hardware Lottery (Paper Explained) - YouTube, 8월 15, 2025에 액세스, https://www.youtube.com/watch?v=MQ89be_685o
  116. The hardware lottery Request PDF - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/356687388_The_hardware_lottery
  117. Transformers are Graph Neural Networks - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2506.22084v1
  118. [2506.22084] Transformers are Graph Neural Networks - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/abs/2506.22084
  119. ViT 살펴보기 Vision Transformer - Standing-O, 8월 15, 2025에 액세스, https://standing-o.github.io/posts/vision-transformer/
  120. [스노피 AI] Vision Transformer 쉽게 이해하기 - 1. Introduction, 8월 15, 2025에 액세스, https://wafour.tistory.com/entry/%EC%8A%A4%EB%85%B8%ED%94%BC-AI-Vision-Transformer-%EC%89%BD%EA%B2%8C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-1-Introduction
  121. [Hands-On] ViT를 활용한 헤드 기반 이미지 분류 - Medium, 8월 15, 2025에 액세스, https://medium.com/@hugmanskj/hands-on-vit%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%ED%97%A4%EB%93%9C-%EA%B8%B0%EB%B0%98-%EC%9D%B4%EB%AF%B8%EC%A7%80-%EB%B6%84%EB%A5%98-d845b2665676
  122. Vision Transformer에 대한 시각적 설명 (A Visual Guide to Vision Transformers) - 파이토치 한국 사용자 모임, 8월 15, 2025에 액세스, https://discuss.pytorch.kr/t/vision-transformer-a-visual-guide-to-vision-transformers/4158
  123. (PDF) Vision Transformers in Medical Imaging: a Comprehensive Review of Advancements and Applications Across Multiple Diseases - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/390372350_Vision_Transformers_in_Medical_Imaging_a_Comprehensive_Review_of_Advancements_and_Applications_Across_Multiple_Diseases
  124. Comparative Analysis of Vision Transformers and Convolutional Neural Networks for Medical Image Classification - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2507.21156v1
  125. Vision Transformers in Medical Imaging: A Review - ResearchGate, 8월 15, 2025에 액세스, https://www.researchgate.net/publication/365614966_Vision_Transformers_in_Medical_Imaging_A_Review
  126. A review of transformer models in drug discovery and beyond - PMC - PubMed Central, 8월 15, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC12240084/
  127. Application of artificial intelligence large language models in drug target discovery - PMC, 8월 15, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC12279696/
  128. Full article: Natural language processing in drug discovery: bridging the gap between text and therapeutics with artificial intelligence - Taylor & Francis Online, 8월 15, 2025에 액세스, https://www.tandfonline.com/doi/full/10.1080/17460441.2025.2490835
  129. Integrating artificial intelligence in drug discovery and early drug development: a transformative approach - PMC, 8월 15, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11909971/
  130. Assessing Fairness of AlphaFold2 Prediction of Protein 3D Structures - PMC, 8월 15, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10245900/
  131. How is AlphaFold 2 used by scientists?, 8월 15, 2025에 액세스, https://www.ebi.ac.uk/training/online/courses/alphafold/validation-and-impact/how-is-alphafold-used-by-scientists/
  132. Progress and trends on machine learning in proteomics during 1997-2024: a bibliometric analysis - Frontiers, 8월 15, 2025에 액세스, https://www.frontiersin.org/journals/medicine/articles/10.3389/fmed.2025.1594442/pdf
  133. Insilico Medicine: Main, 8월 15, 2025에 액세스, https://insilico.com/
  134. Transformer-Based Generative Model Accelerating the Development of Novel BRAF Inhibitors ACS Omega - ACS Publications, 8월 15, 2025에 액세스, https://pubs.acs.org/doi/10.1021/acsomega.1c05145
  135. Molecular Quantum Transformer - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2503.21686v2
  136. GraphXForm: Graph transformer for computer-aided molecular design - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2411.01667v2
  137. A generative material transformer using Wyckoff representation - arXiv, 8월 15, 2025에 액세스, https://arxiv.org/html/2501.16051v2
  138. A Transformer Model for Predicting Generic Chemical Reaction Products from Templates, 8월 15, 2025에 액세스, https://arxiv.org/html/2503.05810v1