Gemma 3 인공지능 기술 - 아키텍처, 학습, 그리고 구현의 원리

1. 서론: Gemma 3와 차세대 경량 개방형 모델의 등장

1.1 본 안내서의 목표와 접근 방식

본 문서는 Google의 최신 경량 개방형 모델인 Gemma 3를 심층적으로 분석하는 기술 안내서다. 이 안내서는 단순한 모델의 기능적 소개를 넘어, 대규모 언어 모델(Large Language Model, LLM)을 ‘밑바닥부터(from scratch)’ 이해하고 구현하고자 하는 고급 AI 실무자, 연구자, 그리고 개발자를 대상으로 한다.1 이를 위해, LLM의 근간을 이루는 트랜스포머(Transformer) 아키텍처의 핵심 원리부터 시작하여, 이전 세대 모델인 Gemma 2를 거쳐 Gemma 3에 이르기까지의 기술적 진화 과정을 단계별로 추적한다. 최종적으로는 Gemma 3를 구성하는 핵심 기술 요소, 즉 멀티모달리티, 확장된 컨텍스트 처리, 다국어 지원 능력의 구현 방식과 전체 개발 파이프라인을 정밀하게 해부하여, 독자들이 Gemma 3의 작동 원리를 근본적으로 이해하고 응용할 수 있는 지식을 제공하는 것을 목표로 한다.3

1.2 Gemma 3의 핵심 가치와 시장 포지셔닝

Gemma 3는 Google의 최첨단 파운데이션 모델인 Gemini 2.0과 동일한 연구 및 기술 기반 위에서 공동 설계된 경량(lightweight) 개방형(open) 모델 제품군이다.4 이 모델의 핵심 가치는 최첨단 성능을 유지하면서도, 휴대폰, 노트북, 고사양 워크스테이션과 같은 일반 소비자 등급의 하드웨어에서 직접 빠르고 효율적으로 실행될 수 있도록 최적화되었다는 점에 있다.4 Gemma 3는 1B, 4B, 12B, 27B 등 다양한 파라미터 크기로 제공되어, 개발자가 특정 하드웨어 제약과 성능 요구사항에 맞춰 최적의 모델을 선택할 수 있는 유연성을 제공한다.5

Gemma 3는 이전 버전에 비해 세 가지 핵심 역량을 획기적으로 강화하며 시장에서의 입지를 정의한다. 첫째, 텍스트뿐만 아니라 이미지까지 이해하는 멀티모달리티(multimodality). 둘째, 최대 128K 토큰에 달하는 방대한 정보를 한 번에 처리하는 확장된 컨텍스트(long context). 셋째, 140개 이상의 언어를 사전 학습하여 전 세계 사용자를 대상으로 하는 애플리케이션 구축을 지원하는 **다국어 능력(multilinguality)**이다.4 이러한 역량은 개발자에게 전례 없는 수준의 유연성과 기술적 접근성을 제공하며, 개방형 AI 생태계의 혁신을 가속화하는 것을 목표로 한다.

2. 대규모 언어 모델의 근간 - 트랜스포머 아키텍처

2.1 디코더-온리(Decoder-Only) 구조의 작동 원리

Gemma 3는 이전 세대 모델들과 마찬가지로 ‘디코더-온리(Decoder-Only)’ 트랜스포머 아키텍처를 기반으로 한다.4 이 구조는 2017년 “Attention Is All You Need” 논문에서 처음 제안된 인코더-디코더 구조와는 달리, 텍스트 생성 작업에 특화되어 설계되었다.8 인코더가 입력 시퀀스 전체를 하나의 문맥 벡터로 압축하는 과정을 생략하고, 디코더만이 입력 시퀀스를 직접 받아 다음 토큰을 예측하는 방식으로 작동한다.

이 구조의 핵심 작동 원리는 자기회귀(autoregressive) 방식이다.11 즉, 모델은 특정 시점

$t$ 에서 토큰을 생성하기 위해, 시작부터 시점 $t-1$ 까지의 모든 토큰 시퀀스를 입력(컨텍스트)으로 사용한다. 모델은 이 컨텍스트를 바탕으로 어휘집(vocabulary)에 있는 모든 토큰에 대한 다음 토큰으로서의 확률 분포를 계산한다. 이 분포로부터 하나의 토큰을 샘플링하여 시퀀스에 추가하고, 이 새로운 시퀀스를 다시 다음 시점 $t+1$ 의 입력으로 사용하여 과정을 반복한다. 이 순차적 생성 과정은 문장의 끝을 나타내는 특수 토큰(EOS, End-of-Sequence)이 생성될 때까지 계속된다. 이러한 자기회귀적 특성 덕분에 디코더-온리 모델은 챗봇, 요약, 코드 생성 등 문맥의 일관성이 중요한 다양한 텍스트 생성 작업에서 매우 효과적인 성능을 보인다.6

2.2 셀프 어텐션 메커니즘 심층 분석: Q, K, V 벡터의 상호작용

트랜스포머 아키텍처의 심장부에는 셀프 어텐션(Self-Attention) 메커니즘이 자리 잡고 있다. 이 메커니즘은 시퀀스 내의 모든 토큰이 다른 모든 토큰과의 관계를 병렬적으로, 그리고 직접적으로 계산할 수 있게 함으로써, 순환 신경망(RNN)이나 장단기 메모리(LSTM)가 겪었던 장거리 의존성(long-range dependency) 문제를 근본적으로 해결한다.9

셀프 어텐션의 과정은 각 입력 토큰의 임베딩 벡터를 세 개의 서로 다른 벡터, 즉 쿼리(Query, $Q$ ), 키(Key, $K$ ), 밸류(Value, $V$ )로 선형 투영(linear projection)하는 것에서 시작한다.11 이 세 벡터는 각각 다음과 같은 역할을 수행한다.

$Q$ (쿼리) 벡터: 현재 처리 중인 토큰이 시퀀스 내 다른 토큰들로부터 어떤 정보를 필요로 하는지를 나타내는 ’질문’이다.
$K$ (키) 벡터: 각 토큰이 자신을 설명하는 ‘라벨’ 또는 ’색인’과 같은 역할을 한다. 다른 토큰의 $Q$ 벡터와 비교되어, 해당 토큰이 현재 토큰의 질문에 얼마나 관련성이 있는지를 결정하는 데 사용된다.
$V$ (밸류) 벡터: 해당 토큰이 실질적으로 담고 있는 의미론적 정보 값이다. 어텐션 가중치에 따라 이 정보가 최종 출력에 얼마나 반영될지 결정된다.

어텐션 스코어는 특정 토큰의 $Q$ 벡터와 시퀀스 내 모든 토큰(자기 자신 포함)의 $K$ 벡터 간의 내적(dot product)을 통해 계산된다. 이 스코어는 두 토큰 간의 연관성 강도를 나타낸다. 계산된 스코어는 키 벡터 차원의 제곱근( $\sqrt{d_k}$ )으로 나누어져 스케일링되는데, 이는 그래디언트의 안정성을 확보하기 위함이다. 스케일링된 스코어는 소프트맥스(softmax) 함수를 통과하여 합이 1이 되는 확률 분포, 즉 어텐션 가중치(attention weights)로 변환된다. 마지막으로, 이 가중치를 각 토큰의 $V$ 벡터에 곱한 후 모두 합산하여 해당 토큰에 대한 최종 문맥 벡터(context vector)를 생성한다. 이 과정은 행렬 연산을 통해 시퀀스 전체에 대해 동시에 수행되며, 수식은 다음과 같다.9

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

이러한 메커니즘을 통해 모든 토큰은 시퀀스 전체의 문맥 정보를 풍부하게 반영한 새로운 표현으로 변환되며, 모델은 문장 내 복잡한 구문적, 의미적 관계를 효과적으로 학습할 수 있다.

1.3. 핵심 구성 요소 해부

디코더-온리 구조와 셀프 어텐션 메커니즘을 뒷받침하는 몇 가지 핵심 구성 요소는 현대 LLM의 성능과 효율성을 결정하는 중요한 역할을 한다. 이들의 선택은 임의적인 것이 아니라, 생성형 AI에 최적화된 시너지 시스템을 구축하기 위한 전략적 결정의 결과물이다.

RoPE (Rotary Position Embedding): 트랜스포머는 본질적으로 순서에 무관한(permutation-invariant) 구조이므로, 토큰의 순서 정보를 명시적으로 주입해야 한다.17 RoPE는 절대 위치 정보를 상대 위치 정보로 변환하여 인코딩하는 혁신적인 기법이다.18 이는 토큰의 임베딩 벡터를 위치 인덱스에 따라 결정되는 특정 각도만큼 회전시키는 방식으로 구현된다. 두 토큰의
$Q$ 와 $K$ 벡터가 각각 회전된 후 내적을 계산하면, 그 결과값은 두 토큰의 절대 위치가 아닌 상대적 거리에만 의존하게 된다. 이 방식은 모델이 훈련 중에 보지 못했던 더 긴 시퀀스에 대해서도 일반화 성능을 유지하는 ‘길이 외삽(length extrapolation)’ 능력에 큰 강점을 보인다.20 Gemma 3는 이 RoPE를 채택하였으며, 특히 128K라는 방대한 컨텍스트를 처리하기 위해 전역 어텐션 레이어의 RoPE 기본 주파수(base frequency)를 기존의 10k에서 1M으로 대폭 증가시켜 장거리 위치 정보를 더욱 정밀하게 인코딩한다.4
SwiGLU (Gated Linear Unit with Swish): LLM 지식의 상당 부분은 피드포워드 네트워크(FFN)에 저장된다.23 Gemma 2는 근사화된 GeGLU 비선형 함수를 사용했으나 18, Gemma 3는 이를 개선한 SwiGLU 활성화 함수를 채택했을 가능성이 높다. SwiGLU는 기존 FFN의 ReLU나 GELU와 같은 정적 활성화 함수를 동적 게이팅 메커니즘으로 대체하여 성능을 향상시킨다.23 SwiGLU는 FFN의 입력을 두 개의 독립적인 선형 변환을 통해 두 갈래로 나눈다. 하나는 데이터 경로를 형성하고, 다른 하나는 Swish 활성화 함수(
$x \cdot \sigma(x)$ )를 통과하여 ‘게이트’ 역할을 한다. 이 두 결과를 요소별 곱셈(element-wise multiplication)으로 결합함으로써, 모델은 입력 데이터의 내용에 따라 정보의 흐름을 동적으로 제어할 수 있게 된다.23 이는 ReLU가 음수 입력을 모두 0으로 만드는 것과 달리, 더 부드러운 그래디언트 흐름을 가능하게 하여 훈련 안정성을 높이고, 모델의 표현력을 증대시켜 최종 성능 향상에 기여한다.23
RMSNorm (Root Mean Square Layer Normalization): 모델의 깊이가 깊어질수록(Gemma 27B는 46개 레이어) 훈련 과정이 불안정해지기 쉽다.19 RMSNorm은 이러한 심층 신경망의 안정적인 학습을 지원하는 핵심적인 정규화 기법이다.18 기존의 Layer Normalization에서 평균(mean) 계산을 제거하고, 제곱 평균의 제곱근(root mean square)으로만 입력을 스케일링한다. 이로 인해 계산 복잡도가 감소하면서도, 각 레이어를 통과하는 신호의 크기를 일정하게 유지하여 그래디언트 폭발(exploding gradients)이나 소실(vanishing gradients) 문제를 효과적으로 완화한다. Gemma 2와 3 모두 이 RMSNorm을 채택하여 깊은 아키텍처의 안정적인 수렴을 가능하게 했다.4

이처럼 디코더-온리 구조는 생성형 작업의 기반을 제공하고, RoPE는 장거리 문맥 인식을 위한 확장성을, SwiGLU는 지식 표현의 깊이를, RMSNorm은 전체 시스템의 안정성을 보장한다. 각 구성 요소는 다른 요소의 한계를 보완하며, Gemma 3와 같은 최신 모델이 고도화된 기능을 안정적으로 구현할 수 있는 견고한 아키텍처적 토대를 형성한다.

제2부: Gemma 계열의 진화: Gemma 2에서 Gemma 3까지

2.1. Gemma 2의 아키텍처적 특징

Gemma 3의 혁신을 이해하기 위해서는 그 전신인 Gemma 2의 아키텍처적 특징을 먼저 파악해야 한다. Gemma 2는 효율성과 성능 사이의 균형을 맞추기 위한 여러 중요한 기술적 시도를 도입했다.

Local-Global 어텐션의 교대 사용: Gemma 2는 계산 효율성과 장거리 의존성 포착 능력을 동시에 확보하기 위해 두 가지 종류의 어텐션을 결합했다. 모델의 레이어들은 **로컬 슬라이딩 윈도우 어텐션(local sliding window attention)**과 **전역 어텐션(global attention)**을 격층(every other layer)으로 번갈아 가며 사용했다.18 로컬 어텐션은 4096 토큰이라는 제한된 창(window) 내에서만 연산을 수행하여 계산량을 줄이고, 전역 어텐션은 8192 토큰의 전체 컨텍스트에 접근하여 핵심적인 장거리 문맥 정보를 포착하는 역할을 했다.
GQA (Grouped-Query Attention): 9B 및 27B와 같은 대형 모델에서는 추론 시 메모리 대역폭이 병목 현상을 일으키는 주된 원인이다. 이를 해결하기 위해 Gemma 2는 GQA를 채택했다.18 GQA는 모든 어텐션 헤드가 단일 키(K)와 밸류(V) 벡터를 공유하는 MQA(Multi-Query Attention)와 각 헤드가 독립적인 K, V를 갖는 전통적인 MHA(Multi-Head Attention) 사이의 절충안이다. 쿼리 헤드들을 여러 그룹으로 나누고, 각 그룹 내의 헤드들이 K와 V 벡터를 공유하게 함으로써, 추론 시 KV 캐시의 크기를 크게 줄여 메모리 사용량과 응답 속도를 개선했다. 그러면서도 MHA에 근접한 모델 품질을 유지하는 데 성공했다.19 Gemma 2에서는 2개의 그룹(
num_groups = 2)을 사용했다.18
Logit Soft-capping: 훈련 안정성을 높이기 위해 Gemma 2는 Gemini 1.5에서 영감을 받은 로짓 소프트-캡핑 기법을 적용했다.18 이 기법은 어텐션 레이어와 최종 출력 레이어에서 계산된 로짓 값에
soft_cap * tanh(logits/soft_cap) 함수를 적용하여 그 크기를 특정 범위 내로 제한한다. 이는 모델이 특정 예측에 대해 과도하게 확신(over-confidence)하는 것을 방지하고, 로짓 값이 비정상적으로 커져서 발생하는 훈련 불안정성을 완화하며, 결과적으로 모델의 일반화 성능을 향상시키는 역할을 한다.25

2.2. Gemma 3의 아키텍처 혁신: Gemma 2와의 비교 분석

Gemma 3의 아키텍처 변화는 임의적인 개선이 아니라, 컨텍스트 길이를 128K로 확장하고 멀티모달리티를 도입하는 과정에서 필연적으로 발생하는 공학적 문제들을 해결하기 위한 목표 지향적 진화의 결과물이다.

어텐션 메커니즘의 발전:
5:1 Local-Global 비율: Gemma 3는 128K라는 방대한 컨텍스트 길이에서 발생하는 ‘KV 캐시 메모리 폭증(memory explosion)’ 문제를 해결하기 위해 어텐션 구조를 근본적으로 재설계했다.4 Gemma 2의 1:1 교대 방식 대신,
5개의 로컬 레이어 다음에 1개의 전역 레이어를 배치하는 비대칭 구조를 채택했다.4 이때 로컬 어텐션의 범위(span)는 1024 토큰으로 매우 짧게 유지했다.4 이 설계는 언어 이해의 대부분이 지역적 문맥에 의존하며, 전역적 문맥은 주기적으로만 참조하면 된다는 가설에 기반한다. 대부분의 레이어가 작은 KV 캐시만을 유지하고, 6개 중 1개의 레이어만 전체 128K 컨텍스트 캐시를 저장하므로, 추론 시 메모리 사용량을 획기적으로 줄일 수 있다. 이는 소비자 등급 하드웨어에서의 긴 컨텍스트 추론을 현실화하는 핵심 전략이다.
QK-Norm 도입: 멀티모달리티를 도입하면 새로운 훈련 불안정성 문제가 발생한다. 텍스트 임베딩과 통계적 특성 및 norm 분포가 다른 이미지 임베딩을 함께 처리할 때, 특정 모달리티의 토큰이 어텐션 계산을 지배하여 로짓 값이 통제 불가능하게 커지는 ‘로짓 드리프트(logit drift)’ 현상이 발생할 수 있다.26 Gemma 2의 소프트-캡핑은 일반적인 안정화 기법이었지만, Gemma 3는 이 문제에 대한 더 직접적이고 원리적인 해결책으로
QK-Norm을 도입했다.4 QK-Norm은 내적 계산 이전에
$Q$ 와 $K$ 벡터의 norm을 직접 정규화함으로써, 텍스트든 이미지든 단일 토큰 표현의 norm이 어텐션 계산을 지배하는 것을 원천적으로 방지한다.26 이는 일반적인 안정화 기법에서 멀티모달 훈련의 특정 문제를 해결하는 원칙적인 정규화 기법으로의 전환을 의미하며, 기술적 성숙도를 보여준다.
컨텍스트 확장(128K)과 KV 캐시 최적화 전략: Gemma 3는 1B 모델(32K)을 제외한 모든 모델에서 128K 토큰이라는 방대한 컨텍스트 길이를 지원한다.4 이는 단순히 RoPE의 파라미터를 조정하는 것을 넘어, 앞서 설명한 5:1 어텐션 구조와 같은 아키텍처 수준의 최적화가 있었기에 실용적으로 구현될 수 있었다.
학습 방식의 변화: 지식 증류(Knowledge Distillation)의 심화: Gemma 2의 소형 모델들은 지식 증류를 통해 효과적으로 훈련되었다.18 Gemma 3는 이 기법을 계승하고 더욱 발전시켰다. 더 작은 ‘학생’ 모델이 더 크고 유능한 ‘교사’ 모델의 부드러운 확률 분포(softened probability outputs)를 모방하도록 학습함으로써, 제한된 파라미터 내에서도 교사 모델의 복잡한 ’추론 과정’을 학습하게 된다.4 이 심화된 증류 기법은 Gemma 3가 사전 학습과 명령어 미세조정(instruction finetuning) 버전 모두에서 Gemma 2를 능가하는 우수한 성능을 달성하는 핵심적인 요인으로 작용했다.4

다음 표는 Gemma 2와 Gemma 3의 핵심적인 아키텍처 차이점을 요약하여 보여준다.

기능	Gemma 2	Gemma 3
컨텍스트 길이	8192 토큰 18	128K 토큰 (1B 모델은 32K) 4
어텐션 구조	1:1 교대 로컬(4096)/전역(8192) 어텐션 18	5:1 교대 로컬(1024)/전역(128K) 어텐션 4
어텐션 변형	Grouped-Query Attention (GQA) 18	Grouped-Query Attention (GQA) 4
안정화/정규화	Logit Soft-capping 18	QK-Norm 4
지원 모달리티	텍스트 전용 13	텍스트 및 이미지 4
다국어 지원	주로 영어 13	140개 이상 언어 사전 학습 4

제3부: Gemma 3 기술 심층 탐구

Gemma 3 제품군은 단일 모델이 아니라, 서로 다른 배포 환경과 사용 사례를 목표로 전략적으로 다각화된 포트폴리오다. 고성능 범용 모델, 고급 멀티모달 애플리케이션, 그리고 극도의 효율성이 요구되는 온디바이스 시나리오라는 세 가지 뚜렷한 생태학적 영역을 공략한다.

3.1. 멀티모달리티 구현: SigLIP 비전 인코더와 Pan & Scan 기법

Gemma 3의 멀티모달리티 기능은 맞춤형으로 조정된 SigLIP(Sigmoid Loss for Language-Image Pre-training) 비전 인코더를 통해 구현된다.4 SigLIP은 이미지를 입력받아 언어 모델이 이해할 수 있는 일련의 벡터, 즉 ‘소프트 토큰(soft tokens)’ 시퀀스로 변환하는 역할을 한다.4 이 과정은 비전 인코더를 LLM과 함께 처음부터 훈련하는 막대한 비용을 피하기 위해, 사전 학습된 SigLIP 인코더를 **고정(frozen)**된 상태로 사용하는 실용적인 접근법을 택했다.22

추론 비용과 효율성을 극대화하기 위해, SigLIP 인코더가 생성한 가변 길이의 이미지 임베딩은 256개의 고정된 크기 벡터로 압축된다.4 이는 이미지의 복잡한 시각 정보를 유지하면서도 언어 모델이 처리해야 할 토큰의 수를 일정하게 제어하여, 계산 부하를 예측 가능하게 하고 시스템의 전반적인 처리량을 높이는 효과적인 전략이다.

또한, Gemma 3는 LLaVA 모델에서 영감을 받은 Pan & Scan (P&S) 기법을 도입하여 고정된 해상도(896x896)의 인코더가 다양한 해상도와 종횡비의 이미지를 유연하게 처리할 수 있도록 했다.4 추론 시, 입력 이미지의 해상도가 높거나 종횡비가 표준과 다를 경우, P&S 알고리즘이 이미지를 여러 개의 겹치지 않는 부분(crop)으로 자동 분할한다. 각 분할된 영역은 인코더의 표준 해상도에 맞게 개별적으로 리사이즈되어 처리된다. 이 방식은 마치 사람이 돋보기를 사용하여 문서의 특정 부분을 확대하여 읽는 것과 유사하게, 이미지 내의 작은 텍스트나 미세한 세부 사항을 모델이 놓치지 않고 인식할 수 있게 해준다.7

3.2. 다국어 능력의 확장: 140개 언어 지원을 위한 데이터 및 토크나이저 전략

Gemma 3는 이전 세대가 주로 영어 데이터에 집중했던 것과 달리, 140개 이상의 언어에 대한 사전 학습을 지원하며, 이 중 35개 이상의 언어는 별도의 미세조정 없이도 즉시 사용 가능한 수준의 높은 성능을 보인다.5 이는 글로벌 애플리케이션을 구축하는 개발자에게 매우 중요한 기능이다.

이러한 광범위한 다국어 능력을 확보하기 위해, 사전 학습 데이터 혼합(data mixture) 단계에서 다국어 데이터의 비중을 대폭 확대했다.22 여기에는 다양한 언어의 단일 언어 웹 문서와 함께, 번역 품질 향상에 도움이 되는 병렬 코퍼스(parallel data)가 모두 포함되었다. 데이터셋 내 언어 간의 불균형 문제, 즉 특정 언어의 데이터가 과도하게 많거나 적은 현상은 Chung et al. (2023)의 연구에서 영감을 받은 샘플링 전략을 통해 완화하여, 소수 언어에 대한 모델의 학습 기회를 보장했다.22

토크나이저 또한 다국어 처리에 최적화된 Gemini 2.0과 동일한 SentencePiece 토크나이저를 채택했다.22 Gemma 계열 모델은 **256k라는 매우 큰 어휘 크기(vocabulary size)**를 특징으로 하는데, 이는 다양한 언어의 문자, 하위 단어(subword), 특수 기호 등을 효율적으로 토큰화하여 ‘미등록 토큰(unknown token)’ 발생을 최소화하고 모델의 언어 표현력을 극대화하는 데 결정적인 역할을 한다.8

3.3. 온디바이스 최적화: Gemma 3n의 MatFormer 아키텍처와 PLE 캐싱

Gemma 3n은 Gemma 3 제품군 내에서 휴대폰, 노트북, 태블릿과 같은 저자원(low-resource) 기기에서의 효율적인 실행에 특화된 모델이다.29 이는 범용 Gemma 3 모델과는 다른, 온디바이스 환경을 위한 독자적인 최적화 기술들을 포함한다.

MatFormer (Matryoshka Transformer) 아키텍처: 이 구조는 러시아 인형 ’마트료시카’처럼 하나의 큰 모델 내부에 더 작은 모델들이 중첩된 형태를 띤다.29 이를 통해 모델은 요청의 복잡도에 따라 필요한 만큼의 파라미터만 선택적으로 활성화하여 추론을 수행할 수 있다. 예를 들어, E4B(Effective 4B) 모델은 E2B(Effective 2B) 모델의 모든 파라미터를 포함하고 있으며, 간단한 작업은 더 작은 E2B 코어 모델만으로 처리하여 계산 비용, 응답 시간, 그리고 에너지 소비를 크게 줄인다.29
PLE (Per-Layer Embedding) 캐싱: 각 트랜스포머 레이어의 성능을 향상시키는 데 사용되는 추가적인 데이터인 PLE 파라미터를 모델의 주 메모리 외부, 즉 빠르고 접근성이 좋은 로컬 저장소에 캐싱하는 기술이다.29 모델 추론 시, 각 레이어가 실행될 때마다 필요한 PLE 데이터를 캐시에서 가져와 사용한다. 이 접근 방식은 모델의 실행 메모리 점유율(memory footprint)을 줄이면서도 응답 품질을 유지하거나 향상시키는 효과를 가져온다.29
조건부 파라미터 로딩(Conditional Parameter Loading): 사용자의 요청이 텍스트 전용 작업일 경우, 모델은 불필요한 비전 및 오디오 관련 파라미터 그룹의 로딩을 건너뛴다. 이를 통해 로드되는 총 파라미터 수를 줄여 메모리 리소스를 절약하고 모델 로딩 시간을 단축한다.29

이러한 기술들의 조합을 통해, Gemma 3n E2B 모델은 실제로는 50억 개 이상의 파라미터를 내장하고 있음에도 불구하고, 실제 운영 시에는 유효 메모리 로드(effective memory load)를 19.1억 개 수준으로 유지하며 효율적으로 작동할 수 있다.29

다음 표는 Gemma 3 제품군의 모델별 주요 사양과 권장 사용 사례를 정리한 것이다.

모델명	파라미터	컨텍스트 길이	비전 지원	핵심 아키텍처	권장 하드웨어	이상적 사용 사례
Gemma 3 1B	1B	32K	아니요	표준 (5:1 어텐션)	고사양 CPU / 소비자용 GPU	로컬 환경에서의 문서 요약, 간단한 챗봇, 텍스트 분류
Gemma 3 4B	4B	128K	예	표준 (5:1 어텐션)	게이밍 GPU / 엔트리급 TPU/GPU 서버	멀티모달 RAG, 복잡한 챗봇, 콘텐츠 생성, 이미지 분석
Gemma 3 12B	12B	128K	예	표준 (5:1 어텐션)	중급 TPU/GPU 서버 (예: 단일 H100)	고급 추론, 코드 생성, 함수 호출을 통한 에이전트 워크플로우
Gemma 3 27B	27B	128K	예	표준 (5:1 어텐션)	고사양 TPU/GPU 서버 (예: 단일 H100)	최첨단 성능 요구 연구, 복잡한 기업용 태스크, 모델 평가
Gemma 3n E2B/E4B	유효 2B/4B	32K	예 (오디오 포함)	MatFormer + PLE 캐싱	휴대폰, 노트북, 엣지 디바이스	온디바이스 AI 어시스턴트, 실시간 멀티모달 분석, 오프라인 기능

제4부: Gemma 3 모델 구축 파이프라인

4.1. 데이터 준비: 대규모 고품질 데이터셋 구축 및 정제

대규모 언어 모델의 성능은 전적으로 학습 데이터의 양과 질에 의해 결정된다.6 Gemma 3의 개발 파이프라인은 방대한 데이터를 수집하고 이를 고도로 정제하는 과정에서 시작된다.

데이터 수집 및 규모: Gemma 3 27B 모델은 약 14조(Trillion) 개의 토큰이라는 막대한 양의 데이터로 사전 학습되었다.6 이 데이터는 웹 문서, 코드, 수학 및 과학 분야의 학술 자료, 그리고 멀티모달 학습을 위한 이미지 등 매우 다양한 소스로부터 수집된다.6 이러한 다양성은 모델이 광범위한 주제와 언어 스타일에 대한 폭넓은 이해를 갖추도록 하는 기반이 된다.
데이터 전처리 및 필터링: 수집된 원시 데이터는 모델 학습에 직접 사용되기 전에 여러 단계의 엄격한 정제 과정을 거친다.
품질 필터링: 저품질의 콘텐츠, 스팸, 기계적으로 생성된 텍스트 등을 제거하여 데이터셋의 전반적인 품질을 향상시킨다.22
중복 제거(Deduplication): MinHash LSH(Locality-Sensitive Hashing)와 같은 알고리즘을 사용하여 문서 또는 문단 수준에서 정확하거나 거의 유사한 중복 데이터를 식별하고 제거한다. 이는 모델이 특정 데이터 패턴을 과도하게 학습(암기)하는 것을 방지하고, 학습 효율성을 높이며, 데이터셋의 다양성을 확보하는 데 필수적이다.30
안전성 및 민감 정보 필터링: Google의 책임감 있는 AI 원칙에 따라, 유해 콘텐츠, 편향된 발언, 혐오 발언 등을 포함한 데이터를 필터링하여 모델이 안전하고 원치 않는 결과물을 생성할 위험을 최소화한다.18 또한, 자동화된 기술을 사용하여 개인 식별 정보(PII)와 같은 민감 데이터를 제거하여 프라이버시를 보호한다.33
평가 데이터 오염 제거(Decontamination): 모델의 성능을 공정하고 객관적으로 평가하기 위해, MMLU, HellaSwag 등 표준 벤치마크에 사용되는 평가 데이터셋이 학습 데이터에 포함되지 않도록 사전에 철저히 제거한다. 이는 모델이 평가 문제를 ’암기’하여 성능이 부풀려지는 것을 방지한다.19
토큰화(Tokenization): 모든 정제 과정을 마친 텍스트 데이터는 토크나이저를 통해 모델이 처리할 수 있는 정수 ID 시퀀스로 변환된다. Gemma는 SentencePiece 토크나이저를 사용하며, 이는 공백을 포함한 모든 문자를 처리 단위로 삼아 언어에 구애받지 않고 텍스트를 분할할 수 있는 장점이 있다.8 특히 Gemma는
256k라는 대규모 어휘집을 사용하여 다국어 텍스트와 프로그래밍 코드의 특수 기호 등을 효율적으로 표현하고, 미등록 토큰(unknown token)의 발생을 최소화한다.8

4.2. 사전 학습(Pre-training) 단계

사전 학습은 정제된 대규모 데이터셋을 사용하여 모델이 언어 자체의 근본적인 패턴을 학습하는 과정이다.

학습 목표: 사전 학습의 핵심 목표는 **‘다음 토큰 예측(Next Token Prediction)’**이다.12 모델은 주어진 텍스트 시퀀스(컨텍스트)를 바탕으로, 다음에 올 가장 확률 높은 토큰이 무엇인지를 예측하도록 훈련된다. 이 단순해 보이는 작업을 수 조 번 반복하는 과정에서, 모델은 문법, 의미론, 사실적 지식, 추론 능력 등 언어와 세계에 대한 방대한 지식을 내재적으로 학습하게 된다. 이 과정에서 모델의 예측과 실제 정답 토큰 간의 차이를 측정하기 위해 일반적으로
교차 엔트로피 손실(Cross-Entropy Loss) 함수가 사용되며, 모델은 이 손실을 최소화하는 방향으로 가중치를 업데이트한다.35
하드웨어 및 분산 학습: Gemma 3와 같은 수십억에서 수백억 파라미터를 가진 모델의 학습은 단일 장비로는 불가능하며, 막대한 계산 자원을 필요로 한다. Google은 이 과정을 위해 자체적으로 설계한 AI 가속기인 **TPU(Tensor Processing Unit) 하드웨어(TPUv4p, TPUv5p, TPUv5e)**를 사용했다.6 수천 개의 TPU 칩으로 구성된 TPU Pod 클러스터를 활용하여, 데이터 병렬화(Data Parallelism), 텐서 병렬화(Tensor Parallelism), 파이프라인 병렬화(Pipeline Parallelism) 등 다양한 분산 학습 전략을 통해 거대한 모델과 데이터를 여러 장치에 분산시켜 학습 시간을 획기적으로 단축한다.38
하이퍼파라미터 튜닝 및 안정성: 사전 학습의 성공은 학습률(learning rate), 배치 크기(batch size), 옵티마이저(optimizer), 가중치 감쇠(weight decay) 등 수많은 하이퍼파라미터의 정교한 튜닝에 달려있다.40 특히 대규모 학습 과정에서는 손실(loss) 값이 갑자기 발산하는 등 훈련 불안정성이 발생하기 쉽다. 이를 방지하고 안정적인 수렴을 유도하기 위해, 학습 초기에 학습률을 서서히 증가시키는 ’웜업(warm-up)’과 이후 점진적으로 감소시키는 ’코사인 감쇠(cosine decay)’와 같은 학습률 스케줄링 기법을 사용한다.40 또한, 훈련 과정을 지속적으로 모니터링하며, 문제가 발생했을 때 이전에 저장된 체크포인트(checkpoint)에서 학습을 재개하는 등의 전략을 통해 안정성을 확보한다.

4.3. 정렬(Alignment) 단계: 모델의 유용성 및 안전성 확보

사전 학습을 마친 ’베이스 모델(base model)’은 방대한 지식을 갖추고 있지만, 특정 지시를 따르거나, 안전하고 유용한 방식으로 대화하는 능력은 부족하다.12 정렬은 이 강력하지만 제어되지 않은 모델을 인간의 의도와 가치에 부합하는 유용한 ’어시스턴트’로 변모시키는 필수 과정이다. 이 과정에서 발생하는 막대한 계산 및 인력 비용을 ’정렬세(alignment tax)’라고도 부르며, 이를 줄이는 것이 현대 LLM 연구의 주요 과제 중 하나이다.

SFT (Supervised Fine-Tuning): 정렬의 첫 단계는 지도 미세조정이다. 인간이 직접 작성하거나 검수한 고품질의 ‘지시-응답’ 쌍 데이터셋을 사용하여 모델을 추가로 학습시킨다.18 이 과정을 통해 모델은 “질문에 답하기”, “요약하기”, “코드 작성하기” 등 특정 작업 형식에 맞춰 응답을 생성하는 방법을 학습하고, 사용자의 지시를 따르는 기본적인 능력을 갖추게 된다.44 Gemma 2와 3 모두 이 SFT 단계를 거쳐 명령어 튜닝(instruction-tuned) 버전을 생성했다.4
RLHF (Reinforcement Learning from Human Feedback) 및 DPO (Direct Preference Optimization): SFT 이후, 모델의 응답을 ‘더 나은’ 방향으로, 즉 인간의 복잡하고 미묘한 선호도에 더 가깝게 정렬하기 위해 선호도 튜닝을 수행한다.
RLHF: 전통적인 RLHF는 3단계의 복잡한 파이프라인을 따른다. (1) SFT 모델을 사용하여 여러 응답을 생성하고, 인간 평가자가 어떤 응답이 더 나은지 순위를 매긴다. (2) 이 선호도 데이터를 학습하여, 특정 응답이 얼마나 좋은지를 점수로 예측하는 별도의 ’보상 모델(Reward Model)’을 훈련한다. (3) 강화학습 알고리즘(주로 PPO)을 사용하여, 언어 모델이 이 보상 모델로부터 높은 점수를 받는 응답을 생성하도록 정책(policy)을 미세조정한다.46 이 방식은 효과적이지만, 여러 모델을 훈련하고 관리해야 하며, 강화학습 과정 자체가 불안정하고 튜닝이 어렵다는 단점이 있다.49
DPO: 이러한 RLHF의 복잡성과 불안정성은 ’정렬세’를 높이는 주된 요인이었다. DPO는 이 문제를 해결하기 위해 등장한 혁신적인 기법이다. DPO는 보상 모델을 명시적으로 학습하고 강화학습을 수행하는 대신, 선호도 데이터를 사용하여 단일 단계의 학습으로 정책을 직접 최적화한다.49 DPO의 손실 함수는 ’선호되는 응답’이 생성될 로그 확률은 높이고, ’선호되지 않는 응답’이 생성될 로그 확률은 낮추도록 설계되었다. 이는 수학적으로 RLHF의 목표를 근사하며, 안정적인 분류 손실(classification loss) 형태로 구현될 수 있어 훈련이 훨씬 간단하고 효율적이다.49 DPO와 같은 최신 기법의 등장은 정렬 과정을 더 효율적으로 만들어, 고품질의 정렬된 모델을 더 빠르고 낮은 비용으로 개발할 수 있는 길을 열어주고 있다.

4.4. 평가 및 한계

개발된 모델의 성능과 신뢰성을 검증하기 위해 엄격하고 다각적인 평가가 수행된다.

표준 벤치마크를 통한 성능 측정: 모델의 객관적인 성능은 다양한 표준 벤치마크 데이터셋을 통해 측정된다. 여기에는 다음과 같은 다양한 영역의 능력을 평가하는 테스트가 포함된다.
상식 추론: HellaSwag 51
다중 작업 언어 이해: MMLU (Massive Multitask Language Understanding) 51
수학 및 논리 추론: GSM8K 53
코드 생성: HumanEval 51
진실성 및 환각 방지: TruthfulQA 52

Gemma 3는 이러한 자동화된 벤치마크에서 동급 크기의 다른 개방형 모델들을 능가하는 최상위권 성능을 기록했다.4
인간 평가: 자동화된 벤치마크 점수만으로는 모델의 실제 유용성이나 대화 품질을 완벽하게 평가할 수 없다. 이를 보완하기 위해 실제 인간 사용자의 선호도를 측정하는 평가가 필수적이다. Chatbot Arena와 같은 플랫폼은 여러 모델을 익명으로 사용자에게 제시하고, 사용자가 더 선호하는 응답을 선택하게 하여 모델들의 순위를 매기는 블라인드 테스트를 수행한다. 이 플랫폼에서 사용되는 Elo 점수 시스템을 통해, Gemma 3 27B 모델은 훨씬 더 큰 파라미터를 가진 상용 모델들과 대등하거나 그 이상의 성능을 보이는 것으로 평가되었다.5
내재적 한계: 모든 현존하는 대규모 언어 모델과 마찬가지로, Gemma 3 역시 근본적인 한계를 지닌다.
편향성(Bias): 모델은 방대한 인터넷 텍스트로 학습되므로, 데이터에 내재된 사회적, 문화적 편향을 그대로 학습하고 재현할 수 있다.6
환각(Hallucination): 모델은 사실에 기반하지 않은 그럴듯한 정보를 생성할 수 있다. 이는 모델이 진정한 의미의 ’지식’을 가진 것이 아니라, 학습 데이터의 통계적 패턴에 기반하여 응답을 생성하기 때문이다.6
지식 단절(Knowledge Cutoff): 모델의 지식은 사전 학습 데이터가 수집된 특정 시점(예: 2024년 8월)에 고정된다. 따라서 그 이후의 사건이나 정보에 대해서는 알지 못한다.6
문맥 이해의 한계: 미묘한 풍자, 비유적 표현, 복잡한 상식 추론 등 인간에게는 당연한 언어적 뉘앙스를 이해하는 데 어려움을 겪을 수 있다.6

결론: Gemma 3가 제시하는 개방형 AI의 미래

핵심 기술 요약 및 종합

Gemma 3는 단순히 이전 모델보다 파라미터 수를 늘린 결과물이 아니다. 이는 ’효율성’과 ’접근성’이라는 명확한 철학 아래, 아키텍처와 학습 파이프라인이 긴밀하게 공동 설계된 기술적 성취다. 5:1 비율의 비대칭적 Local-Global 어텐션 구조는 128K라는 방대한 컨텍스트 길이를 소비자 등급 하드웨어에서 실용적으로 처리하기 위한 핵심적인 아키텍처 혁신이다. 마찬가지로, QK-Norm의 도입은 텍스트와 이미지를 동시에 처리하는 멀티모달 환경에서 발생하는 고유한 훈련 불안정성 문제를 정면으로 해결하기 위한 원칙적인 접근법이다. 이러한 기술적 결정들은 새로운 기능을 추가할 때 발생하는 공학적 난제들을 극복하고, 고성능 모델을 더 넓은 개발자 커뮤니티가 사용할 수 있도록 만드는 데 초점을 맞추고 있다.

개발자 생태계에 미치는 영향

Gemma 3는 최첨단 AI 기술을 상업적으로 이용 가능한 라이선스와 함께 개방형으로 제공함으로써 기술 민주화에 크게 기여한다. Hugging Face, Ollama, JAX, PyTorch와 같은 주요 AI 프레임워크는 물론, NVIDIA GPU와 AMD ROCm 스택, 그리고 Google Cloud TPU에 이르기까지 광범위한 하드웨어 및 소프트웨어 생태계를 포괄적으로 지원한다.5 이는 개발자들이 기존에 사용하던 도구와 워크플로우를 거의 변경하지 않고도 Gemma 3를 원활하게 통합할 수 있음을 의미한다. 특히, 개인 개발자도 자신의 게이밍 GPU를 사용하여 모델을 직접 미세조정하고 실험할 수 있는 환경을 제공함으로써, AI 기술의 진입 장벽을 낮추고 풀뿌리 혁신을 가속화할 수 있는 견고한 토대를 마련한다.

미래 전망

Gemma 3와 그 파생 모델인 Gemma 3n의 등장은 AI 기술의 중심이 대규모 클라우드 데이터센터에서 점차 개인용 컴퓨터, 노트북, 스마트폰과 같은 엣지 디바이스로 확장되고 있음을 명확히 시사한다. 성능과 효율성 사이의 최적 균형점을 찾아낸 고품질 경량 모델의 발전은, 앞으로 더욱 개인화되고, 사용자의 프라이버시를 존중하며, 인터넷 연결 없이도 안정적으로 작동하는 오프라인 AI 애플리케이션의 시대를 열 것이다.7 이는 AI가 소수의 거대 기술 기업의 전유물이 아니라, 모든 개발자와 사용자의 손안에서 창의성과 생산성을 증폭시키는 보편적인 도구로 자리 잡게 될 미래를 예고한다.

참고 자료

The Ultimate Guide to Building Large Language Models - Multimodal, 9월 28, 2025에 액세스, https://www.multimodal.dev/post/the-ultimate-guide-to-building-large-language-models
rasbt/LLMs-from-scratch: Implement a ChatGPT-like LLM in … - GitHub, 9월 28, 2025에 액세스, https://github.com/rasbt/LLMs-from-scratch
How to build a large language model from scratch | Online Courses, Learning Paths, and Certifications - Pluralsight, 9월 28, 2025에 액세스, https://www.pluralsight.com/resources/blog/ai-and-data/how-build-large-language-model
Gemma 3 Technical Report - arXiv, 9월 28, 2025에 액세스, https://arxiv.org/html/2503.19786v1
Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, 9월 28, 2025에 액세스, https://blog.google/technology/developers/gemma-3/
google/gemma-3-27b-it - Hugging Face, 9월 28, 2025에 액세스, https://huggingface.co/google/gemma-3-27b-it
Gemma 3: Overview - by Nandini Lokesh Reddy - Medium, 9월 28, 2025에 액세스, https://medium.com/@nandinilreddy/gemma-3-overview-20b98b35c31e
Gemma explained: An overview of Gemma model family architectures - Google Developers Blog, 9월 28, 2025에 액세스, https://developers.googleblog.com/gemma-explained-overview-gemma-model-family-architectures
Transformers in Machine Learning - GeeksforGeeks, 9월 28, 2025에 액세스, https://www.geeksforgeeks.org/machine-learning/getting-started-with-transformers/
Attention Is All You Need : A Complete Guide to Transformers - Medium, 9월 28, 2025에 액세스, https://medium.com/@alejandro.itoaramendia/attention-is-all-you-need-a-complete-guide-to-transformers-8670a3f09d02
Transformer — Attention Is All You Need Easily Explained With Illustrations | by Luv Bansal, 9월 28, 2025에 액세스, https://luv-bansal.medium.com/transformer-attention-is-all-you-need-easily-explained-with-illustrations-d38fdb06d7db
A Comprehensive Guide to Pre-training LLMs - Analytics Vidhya, 9월 28, 2025에 액세스, https://www.analyticsvidhya.com/blog/2025/02/llm-pre-training/
Gemma 2 model card | Google AI for Developers, 9월 28, 2025에 액세스, https://ai.google.dev/gemma/docs/core/model_card_2
LLM Transformer Model Visually Explained - Polo Club of Data Science, 9월 28, 2025에 액세스, https://poloclub.github.io/transformer-explainer/
Transformer Architecture Explained With Self-Attention Mechanism - Codecademy, 9월 28, 2025에 액세스, https://www.codecademy.com/article/transformer-architecture-self-attention-mechanism
Transformer Architecture Explained: A Beginner-to-Expert Guide | by Manjula Mariappan | Medium, 9월 28, 2025에 액세스, https://medium.com/@mkmanjula96/transformer-architecture-explained-a-beginner-to-expert-guide-74a170dee1a7
How Transformers Work: A Detailed Exploration of Transformer Architecture - DataCamp, 9월 28, 2025에 액세스, https://www.datacamp.com/tutorial/how-transformers-work
Papers Explained 157: Gemma 2 - Ritvik Rastogi, 9월 28, 2025에 액세스, https://ritvik19.medium.com/papers-explained-157-gemma-2-f1b75b56b9f2
Gemma 2: Improving Open Language Models at a … - Googleapis.com, 9월 28, 2025에 액세스, https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
[Discussion] Learned positional embeddings for longer sequences : r/MachineLearning, 9월 28, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/1fb4zls/discussion_learned_positional_embeddings_for/
Rotary Position Embedding for Vision Transformer - arXiv, 9월 28, 2025에 액세스, https://arxiv.org/html/2403.13298v1
Gemma 3 Technical Report - Googleapis.com, 9월 28, 2025에 액세스, https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
SwiGLU: The FFN Upgrade I Use to Get Free Performance - DEV …, 9월 28, 2025에 액세스, https://dev.to/mshojaei77/swiglu-the-ffn-upgrade-i-use-to-get-free-performance-33jc
What Is Google Gemma? | IBM, 9월 28, 2025에 액세스, https://www.ibm.com/think/topics/google-gemma
Gemma explained: What’s new in Gemma 2 - Google Developers Blog, 9월 28, 2025에 액세스, https://developers.googleblog.com/gemma-explained-new-in-gemma-2
QK Norm and the Curious Case of Logit Drift - Notes on the …, 9월 28, 2025에 액세스, https://rossjtaylor.com/blog/qk-norm-and-the-curious-case-of-logit-drift/
google/gemma-2b - Hugging Face, 9월 28, 2025에 액세스, https://huggingface.co/google/gemma-2b
Gemma - Hugging Face, 9월 28, 2025에 액세스, https://huggingface.co/docs/transformers/model_doc/gemma
Gemma 3n model overview | Google AI for Developers, 9월 28, 2025에 액세스, https://ai.google.dev/gemma/docs/gemma-3n
An introduction to preparing your own dataset for LLM training | Artificial Intelligence - AWS, 9월 28, 2025에 액세스, https://aws.amazon.com/blogs/machine-learning/an-introduction-to-preparing-your-own-dataset-for-llm-training/
MinHash LSH in Milvus: The Secret Weapon for Fighting Duplicates in LLM Training Data, 9월 28, 2025에 액세스, https://milvus.io/blog/minhash-lsh-in-milvus-the-secret-weapon-for-fighting-duplicates-in-llm-training-data.md
Data Deduplication at Trillion Scale: How to Solve the Biggest Bottleneck of LLM Training, 9월 28, 2025에 액세스, https://zilliz.com/blog/data-deduplication-at-trillion-scale-solve-the-biggest-bottleneck-of-llm-training
google/gemma-3n-E4B-it-litert-lm - Hugging Face, 9월 28, 2025에 액세스, https://huggingface.co/google/gemma-3n-E4B-it-litert-lm
google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation. - GitHub, 9월 28, 2025에 액세스, https://github.com/google/sentencepiece
Inside LLMs: How Pre-Training Shapes What ChatGPT Knows - Pietro Mingotti, 9월 28, 2025에 액세스, https://pietromingotti.com/inside-llms-pre-training/
How do Large Language Models learn? | by Jerald Teo - Medium, 9월 28, 2025에 액세스, https://medium.com/@jeraldteokj/visualising-loss-calculation-in-large-language-models-1af410a9d73d
Gemma 3 model card | Google AI for Developers - Gemini API, 9월 28, 2025에 액세스, https://ai.google.dev/gemma/docs/core/model_card_3
Deepspeed Megatron Distributed Training | Tools And Frameworks | Large Language Models Tutorial | TechieLearn, 9월 28, 2025에 액세스, https://techielearn.in/learn/large-language-models/tools-and-frameworks/deepspeed-megatron-distributed-training
Megatron-LM - Hugging Face, 9월 28, 2025에 액세스, https://huggingface.co/docs/accelerate/usage_guides/megatron_lm
Comprehensive guide to LLM pre-training steps - Weights & Biases - Wandb, 9월 28, 2025에 액세스, https://wandb.ai/site/articles/training-llms/pre-training-steps/
A Guide to LLM Hyperparameters | Symbl.ai, 9월 28, 2025에 액세스, https://symbl.ai/developers/blog/a-guide-to-llm-hyperparameters/
Supervised Fine-Tuning (SFT) for LLMs - GeeksforGeeks, 9월 28, 2025에 액세스, https://www.geeksforgeeks.org/artificial-intelligence/supervised-fine-tuning-sft-for-llms/
Supervised fine-tuning (SFT) of an LLM - Colab - Google, 9월 28, 2025에 액세스, https://colab.research.google.com/github/NielsRogge/Transformers-Tutorials/blob/master/Mistral/Supervised_fine_tuning_(SFT)_of_an_LLM_using_Hugging_Face_tooling.ipynb
Supervised Fine-Tuning for LLMs: Step-by-Step Python Guide - Bright Data, 9월 28, 2025에 액세스, https://brightdata.com/blog/ai/supervised-fine-tuning
Supervised fine-tuning in LLMs? - by Aryaaditya - Medium, 9월 28, 2025에 액세스, https://medium.com/@aryaaditya7808/supervised-fine-tuning-in-llms-15b82ae78122
What is RLHF? - Reinforcement Learning from Human Feedback Explained - AWS, 9월 28, 2025에 액세스, https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/
Reinforcement learning from human feedback - Wikipedia, 9월 28, 2025에 액세스, https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
RLAIF vs. RLHF: Scaling Reinforcement Learning from … - arXiv, 9월 28, 2025에 액세스, https://arxiv.org/pdf/2309.00267
Direct Preference Optimization: Your Language Model is Secretly a …, 9월 28, 2025에 액세스, https://arxiv.org/abs/2305.18290
Direct Preference Optimization (DPO) for LLM Alignment coded in Python & PyTorch from scratch - Reddit, 9월 28, 2025에 액세스, https://www.reddit.com/r/Python/comments/1ekpr18/direct_preference_optimization_dpo_for_llm/
Top LLM Benchmarks Explained: MMLU, HellaSwag, BBH, and Beyond - Confident AI, 9월 28, 2025에 액세스, https://www.confident-ai.com/blog/llm-benchmarks-mmlu-hellaswag-and-beyond
30 LLM evaluation benchmarks and how they work - Evidently AI, 9월 28, 2025에 액세스, https://www.evidentlyai.com/llm-guide/llm-benchmarks
Comprehensive LLM Benchmark Overview & Analysis : r/ChatGPTPro - Reddit, 9월 28, 2025에 액세스, https://www.reddit.com/r/ChatGPTPro/comments/1jf5vc4/comprehensive_llm_benchmark_overview_analysis/
Parsing Fact From Fiction: Benchmarking LLM Accuracy With TruthfulQA | Deepgram, 9월 28, 2025에 액세스, https://deepgram.com/learn/truthfulqa-llm-benchmark-guide
Gemma - Google DeepMind, 9월 28, 2025에 액세스, https://deepmind.google/models/gemma/
Gemma 2 is now available to researchers and developers - Google Blog, 9월 28, 2025에 액세스, https://blog.google/technology/developers/google-gemma-2/