MQA (대규모 언어 모델의 추론 효율성을 위한 어텐션, Multi-Query Attention, 2019-11-06)
2025-12-13, G30DR
1. 서론: 트랜스포머 아키텍처의 진화와 추론 병목 현상의 대두
1.1 자연어 처리 패러다임의 전환과 계산 비용의 증가
2017년 Vaswani 등이 제안한 트랜스포머(Transformer) 아키텍처는 인공지능, 특히 자연어 처리(NLP) 분야에 혁명적인 변화를 가져왔다.1 순환 신경망(RNN)이나 장단기 메모리(LSTM)가 가지고 있던 순차적 처리의 제약을 극복하고, 어텐션(Attention) 메커니즘을 통해 입력 시퀀스 전체를 병렬로 처리할 수 있게 됨으로써 모델의 학습 속도와 성능이 비약적으로 향상되었다. 이는 BERT, GPT, T5와 같은 대규모 언어 모델(LLM)의 등장을 가능케 했으며, 모델의 파라미터 수는 수억 개를 넘어 수천억, 수조 단위로 급증하는 추세를 보이고 있다.2 그러나 이러한 모델의 거대화는 필연적으로 막대한 계산 비용과 메모리 요구량을 수반하게 되었으며, 특히 실시간 서비스가 요구되는 ‘추론(Inference)’ 단계에서 심각한 효율성 문제를 야기했다.
트랜스포머 기반의 생성 모델, 즉 디코더(Decoder) 구조를 사용하는 모델들의 추론 과정은 크게 두 단계로 구분된다. 첫 번째는 사용자가 입력한 프롬프트 전체를 한 번에 처리하여 초기 상태를 생성하는 ‘프리필(Prefill)’ 단계이다. 이 단계는 병렬 처리가 가능하여 GPU의 연산 능력(Compute capability)을 최대한 활용할 수 있다. 반면, 두 번째 단계인 ‘디코딩(Decoding)’ 단계는 토큰을 하나씩 순차적으로 생성하는 자기회귀(Autoregressive) 방식을 따른다.4 이 과정에서 모델은 이전에 생성된 모든 토큰의 정보를 참조해야 하며, 시퀀스의 길이가 길어질수록 참조해야 할 데이터의 양은 선형적으로 증가한다.
1.2 메모리 대역폭 장벽(Memory Wall)과 MQA의 필요성
디코딩 단계의 가장 큰 병목은 연산량(FLOPs) 자체가 아니라, 데이터를 메모리에서 연산 장치로 이동시키는 과정에서 발생한다. 이를 ‘메모리 대역폭 제한(Memory-Bandwidth Bound)’ 상태라고 한다. 현대의 GPU는 연산 속도가 매우 빠르지만, 고대역폭 메모리(HBM)에서 데이터를 가져오는 속도는 그에 미치지 못한다.6 특히 각 디코딩 단계마다 거대한 양의 Key(K)와 Value(V) 벡터를 매번 메모리에서 불러와야 하는 Multi-Head Attention (MHA)의 구조는 이러한 병목 현상을 심화시킨다.
이러한 배경에서 2019년 Noam Shazeer는 “Fast Transformer Decoding: One Write-Head is All You Need“라는 논문을 통해 Multi-Query Attention (MQA)을 제안했다.4 MQA는 MHA의 핵심적인 성능은 유지하면서도 메모리 접근 비용을 획기적으로 줄이기 위해 고안된 아키텍처다. 초기에는 그 중요성이 크게 부각되지 않았으나, PaLM, Falcon, Llama 2와 같은 초거대 모델들이 등장하고 긴 문맥(Long Context) 처리 능력이 핵심 경쟁력이 되면서 MQA는 현대 LLM 설계의 필수적인 요소로 재조명받고 있다.2 본 보고서는 MQA의 작동 원리, 수학적 배경, 하드웨어적 이점, 그리고 GQA, MLA 등 파생 기술과의 비교를 통해 MQA가 어떻게 대규모 모델의 추론 효율성 문제를 해결하는지 심층적으로 분석한다.
2. Multi-Head Attention (MHA)의 구조적 한계와 KV 캐시 오버헤드
MQA의 혁신성을 이해하기 위해서는 먼저 기존 표준인 MHA가 왜 추론 단계에서 비효율적인지, 그리고 KV 캐시(KV Cache)가 시스템에 어떤 부하를 주는지를 명확히 분석해야 한다.
2.1 MHA의 메커니즘과 독립적인 헤드 구조
MHA는 입력 시퀀스에 대해 서로 다른 H개의 ’어텐션 헤드(Attention Head)’가 독립적으로 연산을 수행하는 구조를 가진다. 각 헤드는 입력 벡터를 고유의 부분 공간(Subspace)으로 투영하여 서로 다른 문맥적 정보를 포착한다.8 수식적으로, 입력 벡터 x에 대해 각 헤드 i는 고유한 가중치 행렬 W_{Q_i}, W_{K_i}, W_{V_i}를 사용하여 쿼리(Q_i), 키(K_i), 값(V_i)을 계산한다.
Q_i = x W_{Q_i}, \quad K_i = x W_{K_i}, \quad V_i = x W_{V_i}
이후 스케일드 닷-프로덕트 어텐션(Scaled Dot-Product Attention)을 수행한다:
\text{Head}_i = \text{Attention}(Q_i, K_i, V_i) = \text{Softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i
마지막으로 모든 헤드의 출력을 연결(Concat)하고 최종 선형 변환을 거친다. 이러한 독립적인 헤드 구조는 모델의 표현력(Expressiveness)을 극대화하지만, 각 헤드마다 별도의 K와 V 벡터를 유지해야 한다는 비용을 발생시킨다.
2.2 KV 캐시(KV Cache)의 기하급수적 증가
자기회귀 디코딩 시, 매 단계마다 이전 토큰들의 K와 V를 다시 계산하는 것은 엄청난 연산 낭비다. 따라서 이미 계산된 K와 V 벡터들을 GPU 메모리(HBM)에 저장해두고 재사용하는데, 이를 KV 캐시라고 한다.3
문제는 이 KV 캐시의 크기가 모델의 크기와 시퀀스 길이에 비례하여 막대하게 커진다는 점이다. 배치 크기를 B, 시퀀스 길이를 L, 헤드 수를 H, 헤드 차원을 D라고 할 때, MHA에서 KV 캐시가 차지하는 메모리 용량은 다음과 같이 계산된다:
\text{Size}_{MHA} = 2 \times B \times L \times H \times D \times \text{Precision (bytes)}
예를 들어, 1750억 개의 파라미터를 가진 GPT-3 모델의 경우 H=96, D=128이다. 시퀀스 길이가 2048이고 배치 크기가 1일 때, 단일 사용자에 대한 KV 캐시만으로도 수 GB의 메모리가 소요된다. 만약 수천 명의 사용자를 동시에 처리(Batching)하려 한다면, 수백 GB에서 수 TB의 메모리가 필요하게 되어 단일 GPU로는 처리가 불가능해진다.3 이는 서버 비용 증가와 직결되며, 긴 문맥을 처리하는 애플리케이션(예: 문서 요약, RAG)의 성능을 제약하는 주된 원인이 된다.
2.3 산술 강도(Arithmetic Intensity)와 성능 저하
컴퓨터 아키텍처 관점에서, 프로그램의 성능은 산술 강도, 즉 ’메모리에서 가져온 데이터 1바이트당 수행하는 연산 횟수’에 의해 결정된다.11
MHA 기반의 디코딩 과정은 산술 강도가 매우 낮다. 각 토큰 생성 시 수행되는 행렬 벡터 곱셈 연산(Matrix-Vector Multiplication)은 O(1)의 연산을 수행하기 위해 O(N) 크기의 거대한 KV 캐시를 메모리에서 읽어와야 한다. Shazeer(2019)의 분석에 따르면, n \approx d 이거나 배치 크기가 작을 때 메모리 접근 대 연산 비율이 1에 가까워져, 고성능 연산 장치(TPU/GPU)가 데이터를 기다리며 유휴 상태(Idle)에 머무는 시간이 길어진다.5 이는 비싼 하드웨어 자원을 낭비하는 것이며, 사용자에게는 느린 응답 속도(Latency)로 나타난다.
3. Multi-Query Attention (MQA)의 아키텍처와 작동 원리
MHA의 비효율성을 해결하기 위해 등장한 MQA는 “단일 쓰기 헤드(One Write-Head)“라는 급진적인 아이디어를 도입했다. 이는 모델의 구조를 단순화하여 메모리 사용량을 줄이고 추론 속도를 높이는 것을 목표로 한다.
3.1 MQA의 핵심 개념: 1 대 N 매핑
MQA의 핵심은 **“모든 쿼리(Query) 헤드가 하나의 키(Key)와 값(Value) 헤드를 공유한다”**는 것이다.2 MHA에서는 H개의 쿼리 헤드에 대응하여 H개의 키 헤드와 H개의 값 헤드가 존재했다. 그러나 MQA에서는 쿼리 헤드는 여전히 H개를 유지하여 문맥의 다양한 측면을 질문(Query)할 수 있게 하되, 이에 대한 대답의 근거가 되는 키와 값은 단 하나(H_{kv}=1)의 공통된 표현만을 사용한다.
이는 정보 검색 시스템에 비유할 수 있다. MHA가 여러 명의 질문자가 각자 다른 도서관(Key/Value Set)에서 정보를 찾는 것이라면, MQA는 여러 명의 질문자가 하나의 거대한 중앙 도서관을 공유하여 정보를 찾는 것과 같다. 도서관을 유지하는 비용(메모리)은 획기적으로 줄어들지만, 질문자들은 여전히 각자의 관점에서 질문을 던질 수 있다.
3.2 텐서 연산 및 브로드캐스팅(Broadcasting) 메커니즘
MQA의 실제 연산 과정에서 가장 중요한 기술적 요소는 ’브로드캐스팅’이다. 쿼리는 H개의 채널을 가지고 있지만 키와 값은 1개의 채널만 가지므로, 차원을 맞추기 위해 키와 값을 가상의 H개로 복제하여 연산한다.8
수식으로 표현하면 다음과 같다. 먼저 단일 키 K와 값 V를 계산한다:
K = x W_K, \quad V = x W_V \quad (K, V \in \mathbb{R}^{B \times L \times 1 \times D})각 쿼리 헤드 Q_i (i \in \{1, \dots, H\})에 대해 어텐션 스코어를 계산할 때, K와 V는 모든 i에 대해 동일하게 사용된다:\text{Attention}(Q_i, K, V) = \text{Softmax}\left(\frac{Q_i K^T}{\sqrt{d_k}}\right) V
이 과정에서 물리적으로 메모리에 데이터를 복제하지 않고, 연산 시에만 논리적으로 확장하여 처리함으로써 메모리 대역폭을 절약한다. PyTorch나 TensorFlow와 같은 프레임워크에서는 torch.broadcast_to 함수나 einsum 연산의 브로드캐스팅 규칙을 통해 이를 효율적으로 구현한다.6
2.3 메모리 및 속도 개선의 정량적 분석
MQA 도입 시 KV 캐시의 크기는 H분의 1로 줄어든다. 예를 들어 헤드 수 H=96인 모델이라면, 메모리 사용량은 약 1% 수준으로 감소한다.
Shazeer의 실험 결과에 따르면, 이러한 메모리 절감은 다음과 같은 이점을 제공한다4:
- 추론 속도 향상: KV 캐시를 로드하는 시간이 대폭 감소하여, 디코더 추론 속도가 최대 11~12배까지 빨라질 수 있다.12
- 배치 크기 증대: 절약된 메모리 공간만큼 더 많은 요청을 동시에 처리(Batching)할 수 있다. 예를 들어 MHA에서 배치 크기가 16으로 제한되었다면, MQA에서는 512 이상의 배치 크기도 가능해진다.13 이는 서버당 처리량(Throughput)을 극대화하여 서비스 비용을 낮추는 핵심 요인이 된다.
- 긴 문맥 처리: 동일한 메모리 제약 하에서 처리 가능한 시퀀스 길이(Max Sequence Length)가 비약적으로 늘어난다. 이는 RAG(Retrieval-Augmented Generation)나 긴 문서 요약과 같은 작업에서 결정적인 장점이 된다.7
2.4 텐서플로우 구현 예시 분석
Shazeer의 논문에 제시된 코드를 통해 차이점을 명확히 알 수 있다.6
-
MHA:
k = tf.einsum("md, hdk->hmk", M, P_k)- 여기서h차원이 유지된다. -
MQA: k = tf.einsum(“md, dk->mk”, M, P_k) - 여기서 h 차원이 사라지고 단일 채널로 투영된다.
이 간단한 코드의 변화가 수조 원 규모의 AI 인프라 효율성에 막대한 영향을 미치게 된다.
3. MQA와 변형 아키텍처의 비교 분석: MHA, GQA, MLA
MQA는 효율성 측면에서 완벽에 가깝지만, 정보의 압축으로 인한 성능 저하(Quality Degradation)라는 단점을 안고 있다. 이를 보완하기 위해 다양한 변형 아키텍처가 등장했다.
3.1 Grouped-Query Attention (GQA): 균형의 미학
GQA는 MHA와 MQA의 장점만을 취하기 위해 고안된 중간 형태의 아키텍처다.8 쿼리 헤드들을 G개의 그룹으로 나누고, 각 그룹 내의 쿼리 헤드들이 하나의 KV 헤드를 공유하도록 한다.
- G=1: 모든 쿼리가 하나의 KV를 공유하므로 MQA가 된다.
- G=H: 각 쿼리가 각자의 KV를 가지므로 MHA가 된다.
- 1 < G < H: GQA이다.
일반적으로 G=8 정도를 사용하는데, 이는 MQA 수준의 속도와 메모리 효율을 제공하면서도 MHA에 버금가는 모델 성능을 유지하는 것으로 알려져 있다.13 Llama 2 (70B)와 Llama 3 전 모델(8B, 70B, 405B)이 GQA를 채택한 것은, GQA가 현재 시점에서 품질과 효율성의 최적 타협점(Sweet Spot)임을 증명한다.16
3.2 Multi-Head Latent Attention (MLA): 압축을 통한 혁신
최근 DeepSeek-V2/V3 모델에서 도입된 MLA는 KV 캐시를 줄이는 새로운 패러다임을 제시했다.3 MLA는 단순히 KV 헤드의 개수를 줄이는 것이 아니라, 저랭크(Low-Rank) 압축 기술을 활용한다.
기존 MQA/GQA가 헤드를 제거(Pruning)하는 방식이라면, MLA는 고차원의 Key/Value 벡터를 저차원의 잠재 벡터(Latent Vector)로 압축하여 캐시에 저장한다. 추론 시에는 이 잠재 벡터를 다시 고차원으로 복원하여 연산에 사용한다. 이를 통해 MQA보다 더 적은 메모리를 사용하면서도 MHA보다 더 뛰어난 성능을 발휘한다는 놀라운 결과를 보여주었다.18 MLA는 헤드 간의 상관관계를 학습하여 정보를 효율적으로 압축함으로써, 물리적인 메모리 사용량은 줄이되 정보의 손실은 최소화하는 전략을 취한다.
3.3 비교 요약 테이블
| 특징 | MHA (Multi-Head) | MQA (Multi-Query) | GQA (Grouped-Query) | MLA (Multi-Head Latent) |
|---|---|---|---|---|
| KV 헤드 구조 | H개 (1:1 매핑) | 1개 (N:1 매핑) | G개 (N:M 매핑) | 압축된 잠재 벡터 |
| KV 캐시 크기 | 매우 큼 (100%) | 매우 작음 (~1/H) | 중간 (~G/H) | 매우 작음 (압축률 의존) |
| 추론 속도 | 느림 (메모리 병목 심화) | 매우 빠름 | 빠름 | 매우 빠름 |
| 모델 성능(Quality) | 최상 (기준점) | 다소 저하 가능성 있음 | MHA와 거의 유사 | MHA 이상 가능 |
| 대표 모델 | GPT-3, Llama 1 | PaLM, Falcon | Llama 2/3, Mistral | DeepSeek-V2/V3 |
4. MQA의 학습 불안정성 및 품질 저하 극복 전략
4.1 성능 저하(Quality Degradation)의 원인 분석
MQA가 MHA에 비해 성능이 떨어지는 주된 이유는 ’표현 용량(Capacity)의 감소’이다.3 MHA에서는 각 헤드가 서로 다른 문맥 정보(예: 문법적 관계, 의미적 유사성 등)를 독립적으로 저장할 수 있지만, MQA에서는 모든 쿼리가 동일한 Key/Value 공간을 참조해야 하므로 미묘한 정보의 차이를 구분해내기 어렵다. 이는 특히 번역이나 복잡한 추론과 같이 입력 데이터 간의 세밀한 관계 파악이 중요한 작업에서 성능 저하로 이어진다.
4.2 학습 불안정성(Training Instability)과 해결 방안
MQA 모델을 처음부터 학습(From Scratch)할 때, MHA보다 학습이 불안정하다는 보고가 있다.22 이는 하나의 KV 헤드에 모든 쿼리 헤드의 그래디언트(Gradient)가 집중되면서 발생하는 현상으로 추정된다. 최적화 과정에서 가중치 업데이트가 급격하게 일어나거나 진동할 수 있다.
이를 해결하기 위해 연구자들은 다음과 같은 방법을 사용한다:
- 학습률 조정: MHA 대비 더 낮은 학습률을 사용하거나, 워밍업(Warm-up) 기간을 길게 설정한다.
- 배치 크기 조정: 그래디언트의 분산을 줄이기 위해 더 큰 배치 크기를 사용한다.
4.3 업트레이닝(Uptraining): MHA에서 MQA로의 전환
이미 막대한 비용을 들여 학습된 MHA 모델을 버리고 처음부터 MQA 모델을 다시 학습하는 것은 비효율적이다. 따라서 기존 MHA 체크포인트를 MQA나 GQA로 변환하는 업트레이닝 기법이 널리 사용된다.12
Google의 연구에 따르면, MHA의 H개 KV 헤드를 평균(Mean Pooling)내어 하나의 헤드로 합친 후, 원본 데이터의 약 5% 정도만 사용하여 추가 학습(Fine-tuning)을 수행하면 MHA의 성능을 거의 회복하면서도 MQA의 속도를 얻을 수 있다. 이 방식은 처음부터 학습하는 것보다 훨씬 안정적이며 비용 효율적이다. GQA 논문에서는 이 과정을 통해 MHA 모델을 GQA 모델로 변환하여 성능 저하 없이 추론 속도를 높일 수 있음을 입증했다.15
5. 하드웨어 및 시스템 레벨 최적화와 구현 이슈
MQA의 이론적 이점을 실제 성능 향상으로 연결하기 위해서는 하드웨어 특성에 맞는 시스템 레벨의 최적화가 필수적이다.
5.1 GPU 메모리 계층과 SRAM 적중률(Hit Rate)
GPU는 용량이 크지만 느린 HBM(High Bandwidth Memory)과 용량은 작지만 매우 빠른 SRAM(L1/L2 캐시)으로 구성된다. MQA의 작은 KV 캐시는 데이터가 SRAM에 상주할 가능성(Cache Hit Rate)을 높인다.2
MHA의 경우 KV 캐시가 너무 커서 연산 도중 지속적으로 HBM과 데이터를 주고받아야(Swapping) 하므로 지연 시간이 길어진다. 반면 MQA는 필요한 데이터가 SRAM에 한 번 로드되면 반복적으로 재사용될 수 있어, 메모리 접근 비용을 최소화하고 텐서 코어(Tensor Core)의 연산 효율을 극대화할 수 있다.
5.2 FlashAttention 및 PagedAttention과의 시너지
MQA는 최신 어텐션 최적화 기술들과 결합될 때 더욱 강력한 성능을 발휘한다.
- FlashAttention: IO-Aware 알고리즘을 통해 HBM 접근을 줄이는 기술이다. MQA 구조에서는 로드해야 할 블록의 수가 줄어들기 때문에 FlashAttention의 효과가 배가된다.7
- PagedAttention (vLLM): 운영체제의 페이징 기법을 차용하여 KV 캐시를 불연속적인 메모리 공간에 효율적으로 할당하는 기술이다. MQA의 작은 캐시 크기와 결합되면 메모리 단편화(Fragmentation)를 거의 완벽하게 제거하고, 동일한 GPU에서 처리 가능한 동시 접속자 수를 극대화할 수 있다.7
5.3 Falcon 모델의 구현 버그 사례 분석
TII의 Falcon 모델이 처음 공개되었을 때, Hugging Face 라이브러리 내의 구현상 문제로 인해 MQA의 성능이 제대로 나오지 않는 이슈가 있었다.11
원인은 use_cache=True 설정 시에도 내부적으로 KV 캐시의 브로드캐스팅 로직이 비효율적으로 구현되어, 매 토큰 생성 시마다 전체 시퀀스에 대한 연산을 반복하거나 불필요한 메모리 복사가 발생했기 때문이다. 이로 인해 이론상 빨라야 할 추론 속도가 오히려 5배 이상 느려지는 현상이 발생했다. Fireworks AI 등은 커스텀 최적화 커널을 통해 이 문제를 수정하고 30~40%의 지연 시간 개선을 이루어냈다. 이는 MQA가 아키텍처적으로 우수하더라도, 소프트웨어 스택(Software Stack)에서의 정교한 구현이 뒷받침되지 않으면 무용지물임을 보여주는 중요한 사례이다.
6. 주요 대규모 언어 모델의 MQA 도입 사례 연구
6.1 Google PaLM: 스케일링의 증명
구글의 PaLM(Pathways Language Model, 540B)은 MQA를 대규모 모델에 선도적으로 적용한 사례이다.2 5400억 개의 파라미터를 가진 이 거대 모델이 실용적인 수준의 추론 속도를 낼 수 있었던 핵심 요인이 바로 MQA였다. PaLM의 성공은 MQA가 작은 모델뿐만 아니라 초거대 모델의 효율성 문제도 해결할 수 있음을 입증했다.
6.2 TII Falcon: 오픈 소스 생태계로의 확산
Falcon-40B와 180B는 오픈 소스 모델 중 최초로 MQA를 전면적으로 채택하여 주목받았다.25 당시 Llama 1 등 경쟁 모델들이 MHA를 사용할 때, Falcon은 MQA를 통해 더 적은 자원으로 더 긴 컨텍스트와 높은 처리량을 제공하며 차별화에 성공했다. 이는 이후 등장하는 오픈 소스 모델들이 MQA/GQA를 채택하는 기폭제가 되었다.
6.3 Meta Llama 2 & 3: GQA의 표준화
Meta는 Llama 1에서는 MHA를 사용했으나, Llama 2의 34B, 70B 모델부터 GQA를 도입하기 시작했다.27 그리고 최신작인 Llama 3(8B, 70B, 405B)에서는 모든 모델 사이즈에 GQA를 적용했다.16 특히 405B와 같은 초대형 모델에서도 GQA를 사용한다는 것은, 이제 업계 표준이 “순수 MHA는 추론 비용상 감당하기 어렵다“는 쪽으로 완전히 기울었음을 시사한다. Llama 3는 8개의 KV 헤드(GQA-8)를 사용하여 품질 손실 없이 극강의 효율성을 달성했다.
6.4 DeepSeek: MLA를 통한 새로운 도약
중국의 DeepSeek-V2/V3는 GQA를 넘어 MLA를 도입하며 효율성 경쟁을 한 단계 더 끌어올렸다.18 DeepSeek는 MLA를 통해 Llama 3 대비 현저히 적은 KV 캐시 메모리만으로도 벤치마크 성능에서 우위를 점하는 결과를 보여주었다. 이는 하드웨어 제약이 심한 환경(예: 중국의 GPU 수급 문제 등)이 오히려 아키텍처의 혁신을 가속화했음을 보여주는 흥미로운 사례이다.
7. 결론 및 향후 전망
Multi-Query Attention (MQA)는 단순한 알고리즘의 변형이 아니라, “메모리가 병목이다“라는 현대 컴퓨팅의 근본적인 제약을 극복하기 위한 아키텍처적 해답이다. “One Write-Head“라는 Shazeer의 직관은 거대 모델 시대를 여는 열쇠가 되었으며, 이는 GQA와 MLA로 이어지는 효율성 중심의 아키텍처 진화를 촉발했다.
7.1 요약
- 효율성 혁명: MQA는 KV 캐시 크기를 1/H로 줄여 추론 속도와 처리량(Throughput)을 비약적으로 향상시킨다. 이는 LLM의 상용화 비용을 낮추는 결정적인 기술이다.
- 품질과 속도의 균형: 초기 MQA의 품질 저하 우려는 GQA라는 타협점과 업트레이닝(Uptraining) 기법을 통해 해결되었으며, 현재는 GQA가 사실상의 표준(De facto standard)으로 자리 잡았다.
- 구현의 중요성: Falcon 모델의 사례에서 보듯, MQA의 성능을 온전히 끌어내기 위해서는 메모리 계층 구조를 고려한 정교한 시스템 구현이 필수적이다.
7.2 미래 전망
향후 LLM 아키텍처는 하드웨어 효율성을 고려한 방향으로 더욱 진화할 것이다. MLA와 같이 정보를 압축하여 저장하는 기술, 혹은 시퀀스 내의 중요도에 따라 KV 캐시를 동적으로 관리하는 기술들이 MQA의 유산을 이어받을 것이다. 또한, 신경망 처리 장치(NPU) 등 AI 전용 하드웨어들이 MQA와 같은 비대칭적 메모리 접근 패턴에 최적화된 형태로 발전할 것으로 예상된다. 결론적으로 MQA는 “더 크고 더 강력한” 모델을 “더 빠르고 더 싸게” 서비스하기 위한 필수 불가결한 기술로 남을 것이다.
8. 참고 자료
- Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
- Multi-Query Attention Explained - Towards AI, https://pub.towardsai.net/multi-query-attention-explained-844dfc4935bf
- MHA vs MQA vs GQA vs MLA - Queryloop, https://www.queryloop.ai/blog/mha-vs-mqa-vs-gqa-vs-mla
- Fast Transformer Decoding: One Write-Head is All You Need, https://www.semanticscholar.org/paper/Fast-Transformer-Decoding%3A-One-Write-Head-is-All-Shazeer/dc52b09089704ebd6f471177474bc29741c50023
- Fast Transformer Decoding: One Write-Head is All You Need - arXiv, https://arxiv.org/pdf/1911.02150
- Multi-Query Attention Explained - Towards AI, https://towardsai.net/p/l/multi-query-attention-explained
- MQA, GQA, Flash, Linear, Sliding-Window · Artificial Intelligence AI, https://www.skool.com/artificial-intelligence-8395/long-context-attention-in-practice-mqa-gqa-flash-linear-sliding-window
- Attention Mechanisms in Transformers: Comparing MHA, MQA, and …, https://syhya.github.io/posts/2025-01-16-group-query-attention/
- A Gentle Introduction to Multi-Head Attention and Grouped-Query …, https://machinelearningmastery.com/a-gentle-introduction-to-multi-head-attention-and-grouped-query-attention/
- Multi-Query Attention (MQA) | ML & CV Consultant - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/multi-query-attention
- Multi-Query Attention is All You Need - Fireworks AI, https://fireworks.ai/blog/multi-query-attention-is-all-you-need
- What is grouped query attention (GQA)? - IBM, https://www.ibm.com/think/topics/grouped-query-attention
- MHA vs GQA vs MQA: Choosing the Right Attention - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/attention-comparison
- Shazeer (2019) Fast Transformer Decoding. One Write-Head is All …, https://www.adrian.idv.hk/2025-01-31-s19-mqa/
- GQA: Training Generalized Multi-Query Transformer Models from …, https://aclanthology.org/anthology-files/pdf/emnlp/2023.emnlp-main.298.pdf
- Decoding Group Query Attention: Implemented in Popular LLMs, https://medium.com/@marketing_novita.ai/decoding-group-query-attention-implemented-in-popular-llms-d91798fcddea
- Understanding Grouped-Query Attention: A Practical Guide with …, https://medium.com/@saeed.mehrang/understanding-grouped-query-attention-a-practical-guide-with-pytorch-implementation-9e3f9f26bb79
- DeepSeek-V3 Explained 1: Multi-head Latent Attention, https://towardsdatascience.com/deepseek-v3-explained-1-multi-head-latent-attention-ed6bee2a67c4/
- MHA vs MQA vs GQA vs MLA - Medium, https://medium.com/@zaiinn440/mha-vs-mqa-vs-gqa-vs-mla-c6cf8285bbec
- DeepSeek + SGLang: Multi-Head Latent Attention - DataCrunch, https://verda.com/blog/deepseek-sglang-multi-head-latent-attention
- E16 : Grouped Query Attention - by Praveen Thenraj - Medium, https://medium.com/papers-i-found/e16-grouped-query-attention-818d201fe78f
- Demystifying GQA — Grouped Query Attention for Efficient LLM Pre …, https://medium.com/data-science/demystifying-gqa-grouped-query-attention-3fb97b678e4a
- arXiv:2305.13245v3 [cs.CL] 23 Dec 2023, https://arxiv.org/pdf/2305.13245
- Falcon Ascendant: An In-Depth Analysis of TII’s Open-Source …, https://www.brainillustrate.com/2025/09/falcon-ascendant-in-depth-analysis-of.html
- Introducing the Technology Innovation Institute’s Falcon 3 Making …, https://falconllm.tii.ae/
- Introducing Falcon 180b: A Comprehensive Guide with a Hands-On …, https://blog.paperspace.com/introducing-falcon/
- Llama 2: Open Foundation and Fine-Tuned Chat Models - arXiv, https://arxiv.org/pdf/2307.09288
- meta-llama/Llama-3.1-405B - Hugging Face, https://huggingface.co/meta-llama/Llama-3.1-405B