GQA (대규모 언어 모델의 추론 효율성을 위한 어텐션, Grouped Query Attention, 2023-05-22)

GQA (대규모 언어 모델의 추론 효율성을 위한 어텐션, Grouped Query Attention, 2023-05-22)

2025-12-13, G30DR

1. 서론: 대규모 언어 모델과 메모리 장벽(Memory Wall)의 딜레마

트랜스포머(Transformer) 아키텍처의 도입 이래, 자연어 처리(NLP) 분야는 모델의 규모(Scaling)를 키움으로써 성능을 비약적으로 향상시키는 ’거대 모델의 시대’로 진입하였다.1 수천억 개 이상의 파라미터를 가진 대규모 언어 모델(LLM)은 문맥 이해, 논리적 추론, 코드 생성 등 다양한 작업에서 인간 수준의 성능을 입증하고 있다. 그러나 이러한 모델의 크기 증가는 필연적으로 계산 복잡도와 메모리 요구량의 폭발적인 증가를 동반하며, 특히 실제 서비스 단계인 ‘추론(Inference)’ 과정에서 심각한 병목 현상을 초래한다.2

가장 결정적인 병목은 연산 속도(Compute-bound)보다는 메모리 대역폭(Memory Bandwidth-bound)에서 발생한다. LLM의 텍스트 생성 방식인 자기 회귀(Auto-regressive) 디코딩은 이전에 생성된 모든 토큰의 키(Key)와 값(Value) 상태를 저장해두는 ’KV 캐시(KV Cache)’를 필요로 한다. 문맥의 길이(Context Length)가 길어질수록, 그리고 모델의 배치 크기(Batch Size)가 커질수록 이 KV 캐시가 차지하는 메모리 용량은 선형적으로, 때로는 기하급수적으로 증가한다.3 이는 고성능 GPU의 메모리(VRAM)를 빠르게 소진시키고, 메모리에서 연산 유닛으로 데이터를 이동시키는 대역폭을 포화 상태로 만들어 전체적인 추론 속도를 저하시키는 주된 원인이 된다.2

이러한 배경 속에서 2023년 구글 리서치(Google Research)의 Ainslie 등이 제안한 **Grouped Query Attention (GQA)**은 모델의 성능(Quality)과 추론 속도(Speed)라는 상충되는 두 가지 목표 사이에서 최적의 균형점을 제시하는 혁신적인 아키텍처로 부상하였다.2 GQA는 기존의 멀티 헤드 어텐션(MHA)이 가진 높은 메모리 비용과 멀티 쿼리 어텐션(MQA)이 가진 성능 저하 문제를 동시에 해결하며, Llama 3, Mistral 7B 등 최신 고성능 LLM의 표준 기술로 자리 잡았다.6

본 보고서는 GQA의 이론적 토대와 수학적 메커니즘을 심층적으로 분석하고, 이를 MHA 및 MQA와 비교하여 그 우수성을 입증한다. 또한, 최신 연구인 비용 최적화(Cost-Optimal) GQA 설정, 긴 문맥 처리 능력, 그리고 하드웨어 수준에서의 최적화 전략을 포괄적으로 다룸으로써, GQA가 현대 AI 인프라스트럭처에서 갖는 기술적 함의를 규명한다.

2. 어텐션 메커니즘의 진화와 구조적 한계

GQA의 기술적 가치를 온전히 이해하기 위해서는 그 전신이 되는 멀티 헤드 어텐션(Multi-Head Attention, MHA)과 멀티 쿼리 어텐션(Multi-Query Attention, MQA)의 구조적 특성과 한계를 면밀히 분석해야 한다.

2.1 Multi-Head Attention (MHA): 표현력의 정점과 메모리 비용

트랜스포머 아키텍처의 근간을 이루는 MHA는 입력 시퀀스에 대해 H개의 서로 다른 ’어텐션 헤드(Head)’를 병렬로 운영한다. 각 헤드는 독립적인 쿼리(Q), 키(K), 값(V) 투영 행렬(Projection Matrix)을 보유하며, 서로 다른 부분공간(Subspace)에서 입력 데이터의 다양한 특징을 학습한다.4

수학적으로, MHA에서 i번째 헤드의 출력(\text{Head}_i)은 다음과 같이 계산된다:
\text{Head}_i = \text{Attention}(Q_i, K_i, V_i) = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i
여기서 Q_i = X W_i^Q, K_i = X W_i^K, V_i = X W_i^V이며, W는 학습 가능한 가중치 행렬이다.4 MHA의 가장 큰 강점은 각 헤드가 독립적인 K, V 쌍을 가짐으로써 정보의 손실 없이 풍부한 문맥 정보를 포착할 수 있다는 점이다. 이는 모델의 ’표현력(Expressiveness)’을 극대화하여 복잡한 언어 이해 과제에서 최고의 성능(Quality)을 보장한다.8

그러나 추론 시점, 특히 긴 문맥을 처리할 때 MHA는 심각한 비효율성을 드러낸다. 디코딩 단계에서는 매 스텝마다 새로운 토큰에 대한 K, V를 계산하고 이를 기존의 KV 캐시에 추가해야 한다. MHA 구조에서는 저장해야 할 K, V의 양이 헤드 수(H)에 비례하여 증가한다. 예를 들어, 128K 토큰 길이를 처리하는 Llama 2 70B 모델(MHA 사용 시)의 경우, 단일 요청에 대해서도 수십 기가바이트(GB) 이상의 KV 캐시 메모리가 필요하게 된다.3 이는 GPU의 HBM 대역폭을 과도하게 점유하여 ‘Memory-Bound’ 상태를 유발하고, 결과적으로 텍스트 생성 속도를 늦추며 동시 처리 가능한 배치 크기를 제한한다.

2.2 Multi-Query Attention (MQA): 극단적 효율성과 성능의 타협

메모리 대역폭 병목을 해결하기 위해 Shazeer(2019)는 Multi-Query Attention(MQA)을 제안하였다. MQA의 핵심 아이디어는 모든 쿼리 헤드가 단 하나의 키(K)와 값(V) 헤드를 공유하는 것이다.2
\text{Head}_i = \text{Attention}(Q_i, K_{\text{shared}}, V_{\text{shared}})
이 구조를 채택할 경우, KV 캐시의 크기는 헤드 수(H)만큼 줄어든다 (예: 32개 헤드 사용 시 1/32로 감소). 이는 메모리 대역폭 요구량을 획기적으로 낮추어 디코더의 추론 속도를 비약적으로 향상시킨다. PaLM, Falcon 등의 모델이 초기에는 이 방식을 채택하여 효율성을 입증하였다.3

하지만 MQA는 성능 측면에서 명확한 한계를 가진다. 모든 쿼리 헤드가 동일한 키-값 공간을 참조해야 하므로, 모델이 문맥의 세밀한 뉘앙스를 포착하는 능력이 저하된다. 연구 결과에 따르면 MQA는 MHA 대비 상당한 품질 저하(Quality Degradation)를 보이며, 학습 과정에서의 불안정성(Instability) 또한 보고되었다.2 특히 모델의 규모가 커질수록 단일 KV 헤드로 방대한 정보를 압축하는 것은 성능에 치명적인 영향을 미칠 수 있음이 확인되었다.4

3. Grouped Query Attention (GQA): 최적의 균형점

3.1 GQA의 핵심 개념 및 아키텍처

Ainslie 등(2023)에 의해 제안된 GQA는 MHA의 고성능과 MQA의 고효율성 사이를 수학적으로 “보간(Interpolate)“하는 방법론이다. GQA는 전체 쿼리 헤드(H_q)를 G개의 **그룹(Group)**으로 분할하고, 각 그룹 내의 쿼리 헤드들이 하나의 키(K) 및 값(V) 헤드 쌍을 공유하도록 설계되었다.2

이 구조에서 KV 헤드의 수(H_{kv})는 그룹의 수(G)와 동일하다. 따라서 GQA는 1 < G < H_q인 중간 지점의 설정을 갖는다.

  • G = 1 (1개 그룹): MQA와 동일 (KV 캐시 최소화, 속도 최대, 성능 최저).
  • G = H_q (헤드 수만큼 그룹): MHA와 동일 (KV 캐시 최대, 속도 최저, 성능 최고).
  • G = 8 (일반적인 설정): MHA 대비 KV 캐시를 1/4 ~ 1/8 수준으로 줄이면서도 성능은 MHA에 근접하게 유지.8

GQA는 모델의 크기가 커질수록 메모리 대역폭과 용량 감소의 이점이 비례하여 증가하는 특성을 가진다. 이는 대형 모델일수록 MQA의 과도한 압축으로 인한 성능 손실이 큰 반면, GQA는 적절한 그룹 수를 통해 이를 방어할 수 있기 때문이다.2

3.2 GQA의 수학적 정식화

GQA에서 g번째 그룹에 속한 i번째 쿼리 헤드의 어텐션 연산은 다음과 같이 정의된다. 여기서 함수 group(i)는 쿼리 헤드 인덱스 i를 해당 그룹 인덱스로 매핑하는 함수이다.
\text{Head}_i = \text{Attention}(Q_i, K_{group(i)}, V_{group(i)})

\text{where } group(i) = \left\lfloor \frac{i \cdot G}{H_q} \right\rfloor

이때, 전체 KV 캐시의 크기는 O(L \cdot G \cdot D)가 되며, 여기서 L은 레이어 수, D는 헤드 차원이다. 이는 MHA의 O(L \cdot H_q \cdot D)와 비교할 때 정확히 G/H_q 비율만큼 메모리 사용량을 절감한다.7

3.3 MHA 체크포인트의 GQA 변환: 업트레이닝(Uptraining) 방법론

GQA의 강력한 실용성은 기존에 MHA로 학습된 모델을 처음부터 다시 학습(Pre-training from scratch)하지 않고도 GQA 구조로 변환할 수 있다는 점에 있다. 이를 **업트레이닝(Uptraining)**이라 하며, 원본 논문에서는 전체 사전 학습 연산량의 약 5%만을 추가로 사용하여 MHA 수준의 성능을 회복할 수 있음을 입증하였다.2

체크포인트 변환(Checkpoint Conversion) 알고리즘:

기존 H_q개의 키/값 헤드를 G개로 줄일 때, 단순히 특정 헤드를 선택(Selection)하거나 무작위로 초기화하는 것보다 **평균 풀링(Mean Pooling)**을 사용하는 것이 가장 효과적이다. 이는 같은 그룹에 속하게 될 기존 헤드들의 투영 행렬을 평균 내어 새로운 그룹 헤드의 가중치로 사용하는 방식이다.14
W_{g}^K = \frac{1}{|S_g|} \sum_{j \in S_g} W_j^K, \quad W_{g}^V = \frac{1}{|S_g|} \sum_{j \in S_g} W_j^V
여기서 S_gg번째 그룹에 할당된 원래 MHA 헤드들의 집합이다.

더 나아가, 최근 연구들은 Procrustes Analysis와 같은 고급 정렬 기법을 제안하기도 한다. 이는 단순 평균을 넘어, 원래 헤드들의 기하학적 정보를 최대한 보존하는 방향으로 투영 행렬을 정렬(Align)한 후 압축하는 방식으로, 변환 직후의 성능 손실을 최소화한다.16

4. 추론 성능 및 시스템 효율성 심층 분석

4.1 메모리 대역폭 활용(MBU) 및 처리량 최적화

LLM 추론의 효율성은 단순히 연산 횟수(FLOPs)가 아니라, 데이터 이동 효율성에 의해 결정된다. 특히 ‘디코딩’ 단계는 전형적인 메모리 바운드(Memory-Bound) 작업이다. GQA는 KV 캐시의 물리적 크기를 줄임으로써 메모리 대역폭 활용률(Memory Bandwidth Utilization, MBU)을 최적화한다.

Databricks의 벤치마크 결과에 따르면, NVIDIA H100 GPU에서 GQA를 적용할 경우 배치 크기(Batch Size)를 1에서 32~64까지 증가시키더라도 메모리 부족(OOM) 현상 없이 높은 MBU를 유지할 수 있음이 확인되었다.5

배치 크기 (Batch Size)MHA KV 캐시 (FP16)GQA KV 캐시 (FP16)메모리 절감 효과
1~1.25 GiB~0.312 GiB~75% 절감
16~20 GiB~5 GiB~75% 절감
32~40 GiB (OOM 위험)~10 GiB안정적 구동
64~80 GiB (구동 불가)~20 GiB고성능 처리 가능

위 표는 Llama 2 70B 모델 기준(G=8)의 추정치이다.5

4.2 대기 시간(Latency) 대 처리량(Throughput) 트레이드오프

GQA 도입의 주된 이점은 단일 사용자 응답 속도(Latency)의 개선보다는 **시스템 전체 처리량(Throughput)**의 극대화에 있다.

  • Latency: 단일 요청에 대해 로드해야 할 데이터 양이 줄어들어 첫 토큰 생성 시간(TTFT) 및 토큰 당 생성 속도가 빨라진다 (MHA 대비 약 1.5~1.8배 가속).8
  • Throughput: 줄어든 메모리 사용량 덕분에 동시에 더 많은 사용자 요청(Batch)을 처리할 수 있게 되어, 서버 단위의 경제성을 크게 향상시킨다. 이는 상용 API 서비스 제공자들에게 비용 절감의 핵심 요인이 된다.18

4.3 하드웨어 가속 및 양자화 시너지

GQA는 양자화(Quantization) 기술과 결합될 때 그 효과가 배가된다. 인텔(Intel) 및 NVIDIA의 최신 하드웨어 가이드에 따르면, GQA 구조는 INT8 또는 INT4 양자화된 KV 캐시와 결합하여 메모리 대역폭 요구를 극한까지 낮출 수 있다.5

CPU 기반 추론(예: Llama.cpp, Ollama)에서도 GQA는 필수적이다. 메모리 대역폭이 GPU보다 훨씬 낮은 CPU 환경에서 GQA는 모델이 실시간 대화가 가능한 수준(초당 10~30 토큰)으로 작동하게 하는 핵심 원동력이다.20 oneDNN과 같은 라이브러리는 GQA 패턴을 위한 전용 최적화 커널을 제공하여 이러한 이점을 뒷받침한다.21

5. 긴 문맥(Long Context) 처리와 비용 최적화(Cost-Optimal) 전략

Llama 3.1 등 최신 모델들이 128K 이상의 문맥 길이를 지원하게 된 배경에는 GQA가 있다. 그러나 단순히 GQA를 적용하는 것을 넘어, 문맥 길이에 따른 ’최적의 설정’을 찾는 것이 중요해졌다.

5.1 128K 토큰의 도전과 GQA의 역할

128K 토큰 길이의 문맥을 MHA로 처리하려면, 파라미터 70B 모델 기준으로 1명의 사용자 요청만으로도 수백 GB의 메모리가 필요할 수 있다. 이는 수천만 원에 달하는 H100 GPU 여러 대를 단 한 명의 사용자를 위해 할당해야 함을 의미한다. GQA를 통해 KV 헤드를 8개로 줄이면(Llama 3 설정), 이 요구량을 1/8 수준으로 낮추어 단일 노드 또는 소수의 GPU에서 긴 문맥 처리가 가능해진다.22

5.2 비용 최적화(Cost-Optimal) GQA 구성

최근 Chen 등(2025)의 연구인 “Cost-Optimal Grouped-Query Attention for Long-Context Modeling” 24은 문맥 길이가 길어질수록 기존의 GQA 설정조차 최적이 아닐 수 있음을 지적하였다.

  • 시간 가변 비용(Time-variant costs): 문맥 길이에 비례하여 증가하는 연산 및 메모리 비용 (어텐션 메커니즘).
  • 시간 불변 비용(Time-invariant costs): 문맥 길이와 무관한 모델 파라미터 로딩 비용 (FFN 등).

연구에 따르면, 긴 문맥(Long Context) 시나리오에서는 KV 헤드의 수를 더욱 공격적으로 줄이거나, 헤드 차원을 조절하여 어텐션 연산의 비중을 낮추는 것이 전체 비용 대비 성능 효율(Loss-Cost Tradeoff) 면에서 유리하다. 최적화된 GQA 설정을 적용할 경우, Llama 3의 기본 설정 대비 50% 이상의 추론 FLOPs 및 메모리 사용량을 절감하면서도 동일한 성능(Loss)을 달성할 수 있음이 확인되었다.24

5.3 검색 정확도(Retrieval Accuracy) 논쟁

“GQA가 정보를 압축하면서 긴 문맥 내의 세밀한 정보(Passkey Retrieval 등)를 놓치지 않는가?“에 대한 우려가 존재한다.

  • 분석: 일부 연구에서는 MHA 대비 미세한 정보 손실 가능성을 제기하지만, Llama 3 등의 실증적 벤치마크 결과, 128K 문맥에서의 “Needle In A Haystack” 테스트를 완벽에 가깝게 통과함이 확인되었다.25
  • 원인: 긴 문맥에서의 성능 저하는 압축 방식(GQA)보다는 문맥 길이 자체에서 오는 ’주의력 분산(Distraction)’이 더 큰 원인이라는 연구 결과가 지배적이다.26 GQA는 오히려 더 긴 문맥을 메모리에 올릴 수 있게 함으로써 RAG(Retrieval-Augmented Generation) 시스템의 성능 상한선을 높여주는 역할을 한다.27

6. 주요 LLM 도입 사례 및 아키텍처 비교

현대 LLM 생태계에서 GQA는 사실상의 표준(De facto Standard)으로 자리 잡았다. 주요 모델별 GQA 적용 현황과 그 전략적 의도를 분석한다.

6.1 Llama 2에서 Llama 3로의 전환: 전면적 GQA 채택

Meta의 Llama 시리즈는 GQA 도입의 트렌드를 가장 잘 보여주는 사례이다.

  • Llama 2: 70B 모델에만 GQA를 적용하고, 7B/13B 모델은 MHA를 유지했다. 당시에는 소형 모델의 메모리 부하가 크지 않다고 판단했기 때문이다.3
  • Llama 3: 8B, 70B 등 모든 모델 라인업에 GQA를 전면 적용했다. Llama 3 8B 모델은 32개의 쿼리 헤드와 8개의 KV 헤드(그룹 크기 4)를 사용한다.
  • 이유: 8B 모델이라도 엣지 디바이스(노트북, 모바일)에서 구동되거나 128K의 긴 문맥을 처리하려면 GQA가 필수적이기 때문이다. 또한, 15조 토큰(15T)이라는 방대한 데이터로 학습시킴으로써 GQA로 인한 미세한 표현력 감소를 완전히 상쇄하고도 남는 성능을 확보했다.19

6.2 Mistral 7B: 소형 모델 효율성의 혁명

Mistral 7B는 70억 파라미터급 모델에서 GQA(32 Query, 8 KV)를 선도적으로 도입하여 시장의 판도를 바꿨다. Mistral은 GQA와 더불어 **Sliding Window Attention (SWA)**을 결합하여, 이론적으로 무한한 길이의 스트림 데이터를 처리하면서도 메모리 사용량을 고정된 크기로 유지하는 극도의 효율성을 달성했다.28 이는 Mistral 7B가 동급의 Llama 2 7B(MHA)보다 훨씬 빠른 속도와 높은 MMLU 점수를 기록한 핵심 원동력이 되었다.

6.3 GQA 대안 기술과의 비교: MLA (Multi-Head Latent Attention)

최근 DeepSeek-V2/V3 모델은 GQA의 경쟁 기술로 **Multi-Head Latent Attention (MLA)**을 제안했다.9

  • GQA vs MLA: GQA는 KV 헤드의 **개수(Count)**를 줄여 메모리를 절약하는 반면, MLA는 KV를 저랭크(Low-Rank) 잠재 벡터로 차원(Dimension)을 압축하여 저장한다.
  • 비교: MLA는 GQA보다 더 높은 압축률과 성능 보존력을 주장하지만, 구현 복잡도가 높고 기존 생태계(RoPE 처리 등)와의 호환성 문제가 있다.32 현재로서는 하드웨어 지원(FlashAttention 등)과 범용성 면에서 GQA가 압도적인 우위를 점하고 있다.31

7. 구현 가이드 및 하드웨어 최적화

7.1 PyTorch 구현의 핵심 로직

GQA를 구현할 때 가장 중요한 부분은 쿼리 헤드 수(H_q)와 KV 헤드 수(H_{kv})의 불일치를 해결하여 행렬 연산을 수행하는 것이다. 이를 위해 KV 헤드를 쿼리 그룹 크기만큼 복제(Repeat) 또는 브로드캐스팅(Broadcast)해야 한다.

# GQA 논리적 구현 예시 (PyTorch 스타일) [3, 33]
# num_heads: 32, num_kv_heads: 8 -> group_size: 4

def forward(self, x):
q = self.q_proj(x) #
k = self.k_proj(x) #
v = self.v_proj(x) #

# K, V를 쿼리 헤드 수에 맞춰 확장 (Repeat Interleave)
# 메모리 효율을 위해 실제 복사가 아닌 View/Broadcasting 사용 권장
k_expanded = k.repeat_interleave(4, dim=2)
v_expanded = v.repeat_interleave(4, dim=2)

# 이후 표준 Scaled Dot-Product Attention 수행
output = F.scaled_dot_product_attention(q, k_expanded, v_expanded)
return output

최신 추론 엔진(vLLM, TGI)에서는 repeat_interleave로 데이터를 실제로 복사하지 않고, 메모리 포인터 조작이나 커널 레벨에서의 브로드캐스팅을 통해 메모리 오버헤드를 0으로 만든다.21

7.2 하드웨어별 최적화 고려사항

  • NVIDIA GPU: TensorRT-LLM이나 vLLM과 같은 라이브러리는 GQA에 최적화된 PagedAttention 커널을 제공하여, 불연속적인 메모리 공간에서도 효율적으로 KV 캐시를 관리한다.34
  • Intel CPU/GPU: oneDNN 및 OpenVINO는 GQA 패턴을 자동으로 인식하여 최적화된 AVX-512/AMX 명령어를 사용한다. 특히 CPU에서는 메모리 대역폭이 매우 제한적이므로 GQA의 효과가 GPU보다 더욱 극적으로 나타난다.19

8. 결론

Grouped Query Attention (GQA)은 대규모 언어 모델의 발전 과정에서 마주한 ’메모리 장벽’을 극복하기 위해 탄생한 필연적인 아키텍처이다. GQA는 다음과 같은 이유로 현대 LLM의 필수 요소로 자리 잡았다.

  1. 성능과 효율의 완벽한 조화: MHA의 뛰어난 표현력과 MQA의 압도적인 추론 효율성 사이에서 최적의 타협점을 찾아냈다. 이는 특히 모델이 거대해지고 문맥이 길어질수록 더욱 중요해진다.
  2. 확장성(Scalability): 128K 이상의 초장문 문맥 처리와 엣지 디바이스 구동을 가능하게 함으로써 LLM의 응용 범위를 획기적으로 넓혔다.
  3. 산업 표준화: Llama 3, Mistral, Gemma 등 주요 파운데이션 모델들의 채택으로 인해 소프트웨어 및 하드웨어 생태계가 GQA를 중심으로 최적화되고 있다.

향후 GQA는 문맥 길이에 따라 그룹 수를 동적으로 조절하거나(Dynamic GQA), 학습 단계에서부터 비용을 고려하여 구조를 최적화하는 방향(Cost-Optimal GQA)으로 진화할 것으로 전망된다. GQA는 단순한 최적화 기법을 넘어, AI 모델이 연구실을 벗어나 실제 산업 현장에서 널리 쓰이게 만든 가장 중요한 기술적 교두보 중 하나로 평가된다.

9. 참고 자료

  1. Beyond Uniform Query Distribution: Key-Driven Grouped … - arXiv, https://arxiv.org/abs/2408.08454
  2. GQA - arXiv:2305.13245v2 [cs.CL] 24 Oct 2023 - SciSpace, https://scispace.com/pdf/gqa-training-generalized-multi-query-transformer-models-from-smk3dp7z.pdf
  3. Understanding Grouped-Query Attention: A Practical Guide with …, https://medium.com/@saeed.mehrang/understanding-grouped-query-attention-a-practical-guide-with-pytorch-implementation-9e3f9f26bb79
  4. Demystifying GQA — Grouped Query Attention for Efficient LLM Pre …, https://medium.com/data-science/demystifying-gqa-grouped-query-attention-3fb97b678e4a
  5. LLM Inference Performance Engineering: Best Practices - Databricks, https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices
  6. What is grouped query attention (GQA)? - IBM, https://www.ibm.com/think/topics/grouped-query-attention
  7. Demystifying GQA - Grouped Query Attention for Efficient LLM Pre …, https://towardsdatascience.com/demystifying-gqa-grouped-query-attention-3fb97b678e4a/
  8. MHA vs GQA vs MQA: Choosing the Right Attention - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/attention-comparison
  9. MHA vs MQA vs GQA vs MLA - Queryloop, https://www.queryloop.ai/blog/mha-vs-mqa-vs-gqa-vs-mla
  10. [PDF] GQA: Training Generalized Multi-Query Transformer Models …, https://www.semanticscholar.org/paper/GQA%3A-Training-Generalized-Multi-Query-Transformer-Ainslie-Lee-Thorp/5ae6fb6b5a3c7df515ff4a82ac9673bae6a8e200
  11. GQA: Training Generalized Multi-Query Transformer Models from…, https://openreview.net/forum?id=hmOwOZWzYE
  12. Grouped-Query Attention (GQA) | ML & CV Consultant - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/grouped-query-attention
  13. (PDF) GQA: Training Generalized Multi-Query Transformer Models …, https://www.researchgate.net/publication/370949026_GQA_Training_Generalized_Multi-Query_Transformer_Models_from_Multi-Head_Checkpoints
  14. GQA: Training Generalized Multi-Query Transformer Models … - arXiv, https://arxiv.org/html/2305.13245v3
  15. GQA: Training Generalized Multi-Query Transformer Models from …, https://aclanthology.org/2023.emnlp-main.298.pdf
  16. An Effective Way for Converting MHA to GQA - ACL Anthology, https://aclanthology.org/2025.findings-emnlp.467.pdf
  17. An Effective Way for Converting MHA to GQA - arXiv, https://arxiv.org/html/2412.20677v2
  18. Grouped Query Attention (GQA) vs. Multi Head Attention (MHA), https://friendli.ai/blog/gqa-vs-mha
  19. Meta Llama 3 Optimized CPU Inference with Hugging Face and …, https://medium.com/data-science/meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch-9dde2926be5c
  20. Phi-4-Mini-Instruct-GGUF Free Chat Online - skywork.ai, Click to Use!, https://skywork.ai/blog/models/phi-4-mini-instruct-gguf-free-chat-online-skywork-ai/
  21. Grouped Query Attention (GQA) — oneDNN v3.8.2 documentation, https://uxlfoundation.github.io/oneDNN/v3.8/dev_guide_graph_gqa.html
  22. converting-llama2-to-llama3.ipynb - GitHub, https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/07_gpt_to_llama/converting-llama2-to-llama3.ipynb
  23. Efficient LLM Inference: Bandwidth, Compute, Synchronization, and …, https://arxiv.org/html/2507.14397v1
  24. Cost-Optimal Grouped-Query Attention for Long-Context Modeling, https://arxiv.org/html/2503.09579v3
  25. Everything You Need to Know About Llama 3 - Hyperstack, https://www.hyperstack.cloud/blog/thought-leadership/all-you-need-to-know-about-llama-3
  26. Context Length Alone Hurts LLM Performance Despite Perfect …, https://aclanthology.org/2025.findings-emnlp.1264.pdf
  27. Long Context RAG Performance of LLMs | Databricks Blog, https://www.databricks.com/blog/long-context-rag-performance-llms
  28. Mistral 7B Explained: Towards More Efficient Language Models, https://medium.com/data-science/mistral-7b-explained-towards-more-efficient-language-models-7f9c6e6b7251
  29. Mistral - Hugging Face, https://huggingface.co/docs/transformers/en/model_doc/mistral
  30. Mistral 7B Explained: Towards More Efficient Language Models, https://towardsdatascience.com/mistral-7b-explained-towards-more-efficient-language-models-7f9c6e6b7251/
  31. MHA vs MQA vs GQA vs MLA - Medium, https://medium.com/@zaiinn440/mha-vs-mqa-vs-gqa-vs-mla-c6cf8285bbec
  32. TransMLA: Migrating GQA Models to MLA with Full DeepSeek…, https://openreview.net/forum?id=TcVCu2PKb9&referrer=%5Bthe%20profile%20of%20Muhan%20Zhang%5D(%2Fprofile%3Fid%3D~Muhan_Zhang1)
  33. Attention Mechanisms in Transformers: Comparing MHA, MQA, and …, https://syhya.github.io/posts/2025-01-16-group-query-attention/
  34. Mastering LLM Techniques: Inference Optimization, https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/