Meta Llama (Large Language Model Meta AI)

1. Llama의 등장과 진화

2023년 2월, Meta AI는 거대 언어 모델(Large Language Model, LLM) 분야의 지형을 근본적으로 바꿀 Llama(Large Language Model Meta AI)를 발표하였다. Llama의 등장은 단순히 새로운 모델의 출시를 넘어, 최첨단 AI 기술에 대한 접근성과 효율성에 대한 기존의 통념에 도전하는 패러다임의 전환을 의미했다. 초기의 Llama 1부터 상업적 활용의 문을 연 Llama 2를 거쳐, 최첨단 성능을 달성하고 멀티모달(multimodal) 영역으로 확장된 Llama 3 및 Llama 4에 이르기까지, Llama 시리즈는 ’개방성’과 ’성능’이라는 두 가지 핵심 가치를 축으로 끊임없이 진화해왔다. 이 안내서는 Llama의 기술적 아키텍처, 훈련 방법론, 성능, 라이선스 정책, 그리고 책임감 있는 AI 프레임워크를 심층적으로 분석하여, Llama가 AI 생태계에 미친 영향과 그 미래를 조망하고자 한다.

1.1 Llama 1: 효율성과 접근성의 패러다임 전환

Llama 1은 2023년 2월 24일, 70억(7B)에서 650억(65B) 파라미터에 이르는 파운데이션 모델 컬렉션으로 처음 공개되었다.1 Llama 1의 핵심 철학은 당시 지배적이었던 ’더 많은 파라미터가 더 나은 성능을 보장한다’는 가정에 정면으로 반박하는 것이었다. Meta AI는 더 적은 파라미터를 가진 모델이라도 훨씬 더 많은 양의 데이터로 훈련시키면, 거대한 모델의 성능을 능가할 수 있다는 가설을 입증하고자 했다.4

이러한 접근은 놀라운 결과를 낳았다. Llama-13B 모델은 1750억 파라미터를 가진 GPT-3보다 대부분의 벤치마크에서 더 뛰어난 성능을 보였으며, 가장 큰 모델인 Llama-65B는 당시 최첨단 모델로 평가받던 Chinchilla-70B 및 PaLM-540B와 경쟁할 수 있는 수준에 도달했다.1 이는 추론(inference)에 필요한 컴퓨팅 파워를 획기적으로 줄일 수 있음을 의미했으며, 단일 GPU 환경에서도 13B 모델을 구동할 수 있게 되면서 AI 연구의 민주화에 기여했다.4

Llama 1의 또 다른 중요한 특징은 독점적이고 접근 불가능한 데이터셋에 의존했던 경쟁 모델들과 달리, 오직 공개적으로 사용 가능한 1.4조 개의 토큰 데이터셋으로만 훈련되었다는 점이다.1 이는 모델의 연구 결과를 투명하게 공개하고 재현 가능성을 높이는 데 기여했다.

초기 Llama 1의 가중치는 학술 연구자들에게 사례별 심사를 통해 제한적으로 배포될 예정이었으나 1, 얼마 지나지 않아 가중치가 유출되는 사건이 발생했다. 이 유출은 역설적으로 Llama 생태계의 폭발적인 성장을 촉발하는 계기가 되었다. 전 세계 개발자 커뮤니티가 자발적으로 Llama를 기반으로 한 다양한 도구와 기술, 소프트웨어를 개발하기 시작했으며, 이는 과거 텍스트-이미지 모델인 Stable Diffusion이 개방적으로 배포되며 관련 생태계가 급성장했던 사례와 비교되기도 했다.1

1.2 Llama 2: 상업적 활용과 안전성 강화

2023년에 출시된 Llama 2는 Llama 1의 성공을 바탕으로 상업적 활용과 안전성이라는 두 가지 축을 강화하는 방향으로 진화했다. 모델 라인업은 7B, 13B, 70B로 재편되었으며, 가장 큰 변화는 연구용으로 제한되었던 라이선스를 상업적으로도 활용 가능하도록 개방한 것이었다.7 단, 월간 활성 사용자(MAU)가 7억 명을 초과하는 거대 기업에는 별도의 라이선스를 요구하는 제한을 두었다. 이는 Llama가 연구 도구를 넘어 실제 상업용 애플리케이션의 기반이 될 수 있음을 선언한 중요한 전환점이었다.

기술적으로 Llama 2는 Llama 1보다 40% 증가한 2조 개의 토큰으로 훈련되었고, 모델이 한 번에 처리할 수 있는 텍스트의 양을 의미하는 컨텍스트 길이는 4096 토큰으로 두 배 확장되었다.7 또한, 추론 효율성을 개선하기 위해 그룹화된 쿼리 어텐션(Grouped-Query Attention, GQA)과 같은 아키텍처 최적화가 도입되었다.10

Llama 2의 핵심적인 차별점은 안전성과 정렬(alignment)에 대한 깊은 고민이었다. Meta는 Llama 2-Chat이라는 대화형으로 미세 조정된 모델을 함께 출시했는데, 이는 인간의 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF) 기법을 통해 훈련되었다.11 이 과정에는 광범위한 안전성 미세 조정과 전문적인 레드팀(red teaming)을 통한 적대적 테스트가 포함되어, 실제 사용 환경에서 발생할 수 있는 유해하거나 편향된 응답을 최소화하고자 했다. 이를 통해 Llama 2-Chat은 폐쇄형 상용 모델의 적절한 대안이 될 수 있는 수준의 안전성을 확보하고자 했다.11

1.3 Llama 3 & 4: 최첨단 성능과 멀티모달로의 도약

Llama 3의 등장은 규모의 측면에서 이전 세대와는 비교할 수 없는 거대한 도약을 의미했다. 8B, 70B, 그리고 405B에 이르는 Llama 3 모델들은 Llama 2의 7배가 넘는 15조 개의 토큰 데이터셋으로 사전 훈련되었다.7 이 거대한 훈련을 위해 최대 16,000개의 NVIDIA H100 GPU가 동원되는 등 막대한 인프라가 투입되었다.9

이러한 압도적인 규모의 확장은 성능으로 직결되었다. Llama 3 70B 모델은 출시 당시 Gemini Pro 1.5, Claude 3 Sonnet과 같은 경쟁 모델들을 능가하는 성능을 보였으며, 플래그십 모델인 405B는 여러 주요 벤치마크에서 GPT-4와 동등한 수준의 성능을 달성했다.1

아키텍처 측면에서도 지속적인 개선이 이루어졌다. 405B 모델의 컨텍스트 길이는 최대 128,000 토큰으로 확장되었고, 토크나이저의 어휘는 128,000개로 늘어나 다국어 지원 능력과 토큰화 효율성을 크게 향상시켰다.7

Llama 3.2와 Llama 4의 발표는 Llama 시리즈가 단순한 텍스트 생성 모델을 넘어, 인간과 같이 다양한 형태의 정보를 이해하고 처리하는 멀티모달 AI로 진화하고 있음을 명확히 보여주었다. 이 모델들은 텍스트와 이미지를 동시에 처리하는 네이티브 멀티모달 기능, Llama 4 Scout 모델의 경우 최대 1000만 토큰에 달하는 초장문 컨텍스트 처리 능력, 그리고 Llama 4 Maverick 모델에 적용된 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처를 특징으로 한다.1 이는 GPT-4o와 같은 최전선(frontier) 모델들과 모든 영역에서 직접적으로 경쟁하겠다는 Meta의 전략적 의지를 보여주는 것이다.

이러한 진화 과정은 Meta의 전략이 어떻게 변화했는지를 명확하게 보여준다. Llama 1은 ’효율성’을 통해 AI 연구의 민주화를 주장하는 도전자였다. 13B 모델이 175B 모델을 이길 수 있다는 사실은 ’규모가 전부’라는 기존의 패러다임에 대한 강력한 반증이었다.1 Llama 2는 이러한 효율성을 유지하면서 상업용 라이선스와 안전성 강화를 통해 개발자 ’생태계’를 구축하는 데 초점을 맞췄다.7 Llama 3와 4에 이르러서는 근본적인 전략 변화가 감지된다. GQA와 같은 효율성 최적화는 여전히 중요하지만, 성능을 견인하는 핵심 동력은 이제 15조 토큰, 405B 파라미터라는 ’압도적인 규모’가 되었다.7 이는 GPT-4와 그 후속 모델들의 성능에 도달하기 위해서는 결국 그들과 유사한 규모의 데이터와 컴퓨팅 자원이 필요하다는 현실을 인정한 결과로 볼 수 있다. 따라서 Meta의 서사는 더 이상 ’작지만 강한 모델’에 머무르지 않는다. 이제는 AI 기술의 최전선에서 가장 강력한 모델을 만들되, 그것을 ’개방적으로 제공’함으로써 차별화하는 전략을 구사하고 있다. 경쟁의 본질을 모델 성능 그 자체에서, 모델을 기반으로 한 애플리케이션과 인프라 레이어로 전환시키려는 의도이다.

특성	Llama 1 (65B)	Llama 2 (70B)	Llama 3.1 (405B)	Llama 4 Maverick (400B)
파라미터 수	65.2B	70B	405B	400B (17B 활성)
훈련 데이터 (토큰)	1.4T	2.0T	15.6T	15T+
최대 컨텍스트 길이	2048	4096	128K	1M
어휘 크기	32,000	32,000	128,000	128,000+
핵심 아키텍처 특징	RMSNorm, SwiGLU, RoPE	그룹화된 쿼리 어텐션 (GQA)	확장된 어휘, 대규모 훈련	전문가 혼합 (MoE), 멀티모달

2. 기술 아키텍처 심층 분석

Llama 모델 시리즈의 뛰어난 성능과 효율성은 잘 정립된 트랜스포머(Transformer) 아키텍처를 기반으로 하되, 몇 가지 핵심적인 수정과 최적화를 통해 구현되었다. Llama는 아키텍처의 근본적인 혁신보다는, 검증된 구조를 데이터와 컴퓨팅 규모의 한계까지 밀어붙이는 전략을 채택했다. 이는 엔지니어링 복잡성을 줄이고, 데이터 품질과 훈련 규모의 효과를 명확히 분리하여 분석할 수 있게 하는 의도적인 선택으로 해석된다.

2.1 Transformer 기반 구조

Llama 모델들은 모두 자기회귀(auto-regressive) 방식의 디코더-온리(decoder-only) 트랜스포머 아키텍처를 채택하고 있다.1 이는 이전 단어들의 시퀀스를 입력받아 다음 단어를 예측하는 방식으로 텍스트를 생성하는, 현대 LLM의 표준적인 구조이다. 이 구조의 근간은 2017년에 발표된 “Attention Is All You Need” 논문에서 제안된 트랜스포머 모델에 있다.19

Llama의 아키텍처는 세대를 거치면서도 큰 틀에서는 일관성을 유지했다. Llama 1은 기존 트랜스포머 구조에 세 가지 주요 변경점을 도입했는데, 이는 이후 세대에서도 계승되었다: 사전 정규화(pre-normalization)를 위한 RMSNorm, 활성화 함수로 SwiGLU, 그리고 회전 위치 임베딩(Rotary Positional Embeddings, RoPE)이 그것이다.1 Llama 2에서는 추론 효율성을 높이기 위해 그룹화된 쿼리 어텐션(GQA)이 추가되었고 10, Llama 3에서는 이러한 구성 요소들을 더욱 다듬고 토크나이저를 확장했다.14 Llama 4는 전문가 혼합(MoE) 구조를 도입하여 모델의 용량과 효율성을 한 단계 더 끌어올렸다.1 이러한 점진적 개선 방식은 Meta가 안정적인 아키텍처를 바탕으로 데이터와 컴퓨팅이라는 가장 확실한 성능 향상 요인에 집중할 수 있게 만들었다. 혁신은 모델의 청사진 자체보다는 데이터 파이프라인과 훈련 시스템 전반에서 이루어진 것이다.

2.2 핵심 구성 요소 및 수학적 원

Llama 아키텍처의 성능과 효율성을 이해하기 위해서는 그 핵심 구성 요소들의 수학적 원리를 살펴볼 필요가 있다.

2.2.1 Scaled Dot-Product Attention

트랜스포머의 심장부라 할 수 있는 어텐션 메커니즘은 문장 내 단어들 간의 관계를 학습하는 역할을 한다. Llama는 스케일링된 내적 어텐션(Scaled Dot-Product Attention)을 사용하며, 그 계산식은 다음과 같다.19
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
이 식에서 Q(Query), K(Key), V(Value)는 입력 시퀀스로부터 생성된 행렬이다. 어텐션 함수는 특정 단어(Q)가 문장 내 다른 모든 단어(K)들과 얼마나 연관성이 있는지를 계산하고, 그 가중치를 소프트맥스(softmax) 함수를 통해 정규화한 뒤, 각 단어의 표현(V)에 곱하여 최종 결과값을 얻는다. 여기서 dk는 키 벡터의 차원을 의미하며, $\sqrt{d_k}$ 로 나누어주는 스케일링 과정은 훈련 중 그래디언트(gradient)를 안정시키는 중요한 역할을 한다.19 이 메커니즘 덕분에 모델은 문장 내에서 멀리 떨어진 단어들 간의 의존성도 효과적으로 포착할 수 있다.

2.2.2 RMSNorm (Root Mean Square Layer Normalization)

Llama는 표준적인 레이어 정규화(Layer Normalization) 대신 RMSNorm을 사용하여 계산 효율성을 높였다.1 2019년 Zhang과 Sennrich에 의해 제안된 RMSNorm은 기존 레이어 정규화에서 평균을 빼는 재중심화(re-centering) 과정을 생략하고, 오직 재조정(re-scaling) 불변성(invariance)에만 집중한다.22 그 공식은 다음과 같다.23
$\bar{a}_i = \frac{a_i}{\text{RMS}(\mathbf{a})} g_i \quad \text{where} \quad \text{RMS}(\mathbf{a}) = \sqrt{\frac{1}{n} \sum_{i=1}^{n} a_i^2}$
여기서 ai는 신경망의 한 레이어에 들어오는 입력값이고, $\text{RMS}(\mathbf{a})$ 는 입력 벡터 a 전체의 제곱평균제곱근(Root Mean Square) 값이다. 정규화된 값 aˉi는 입력값 ai를 RMS 값으로 나눈 뒤, 학습 가능한 파라미터인 게인(gain) gi를 곱하여 계산된다. 이 단순화된 구조는 레이어 정규화 대비 실행 시간을 7%에서 최대 64%까지 단축시키면서도 거의 동등한 성능을 유지한다.23

2.2.3 SwiGLU (Swish Gated Linear Unit) Activation Function

Llama는 전통적인 ReLU 활성화 함수 대신 SwiGLU를 사용하여 모델의 표현력을 향상시켰다.1 2020년 Shazeer의 “GLU Variants Improve Transformer” 논문에서 영감을 받은 이 함수는 게이트 선형 유닛(Gated Linear Unit, GLU)의 변형이다.26 SwiGLU의 연산은 다음과 같이 표현된다.26
$\text{SwiGLU}(x, W, V) = \text{Swish}_1(xW) \otimes (xV)$
여기서 $\text{Swish}_\beta(x) = x \cdot \sigma(\beta x)$ 이며, σ는 시그모이드(sigmoid) 함수를 의미한다. 입력 x는 두 개의 독립적인 선형 변환(W, V)을 거친다. 하나는 Swish 활성화 함수를 통과하고, 다른 하나는 그대로 유지된다. 이 두 결과는 원소별 곱셈(element-wise multiplication, ⊗)을 통해 결합된다. 이러한 게이팅(gating) 메커니즘은 네트워크가 정보의 흐름을 동적으로 제어할 수 있게 하여, 단순한 ReLU 함수보다 더 풍부하고 복잡한 패턴을 학습할 수 있도록 돕는다.26

2.2.4 RoPE (Rotary Positional Embeddings)

Llama는 토큰의 순서 정보를 인코딩하기 위해 절대적인 위치 임베딩 대신 회전 위치 임베딩(RoPE)을 사용한다.1 RoPE는 토큰의 상대적인 위치 관계를 벡터의 회전을 통해 표현함으로써, 모델이 긴 시퀀스를 처리할 때 위치 정보를 보다 효과적으로 일반화할 수 있게 한다. 이는 Llama 모델들이 긴 컨텍스트 길이를 지원하는 데 핵심적인 역할을 한다.

2.2.5 GQA (Grouped-Query Attention)

Llama 2에서 도입된 GQA는 추론 시 어텐션 메커니즘의 메모리 대역폭 요구량을 줄이기 위한 최적화 기법이다.10 표준적인 다중 헤드 어텐션(Multi-Head Attention)에서는 각 쿼리 헤드가 자신만의 키(Key)와 밸류(Value) 헤드를 가지지만, GQA에서는 여러 개의 쿼리 헤드가 하나의 키와 밸류 헤드를 공유한다. 이는 메모리 사용량을 줄여 추론 속도를 높이는 효과를 가져온다. Llama 3는 8개의 키-밸류 헤드를 사용하는 GQA를 채택했다.14

2.3 토크나이저 및 어휘

토크나이저는 텍스트를 모델이 처리할 수 있는 숫자 시퀀스(토큰)로 변환하는 역할을 한다. Llama 1과 2는 32,000개의 어휘를 가진 SentencePiece 바이트 페어 인코딩(BPE) 토크나이저를 사용했다.11

Llama 3에서는 어휘 크기를 128,000개로 대폭 확장했다. 이는 두 가지 주요 목적을 가진다. 첫째, 더 큰 어휘를 사용함으로써 동일한 텍스트를 더 적은 수의 토큰으로 표현할 수 있게 되어, Llama 2 대비 토큰화 효율성을 약 15% 향상시켰다.14 둘째, 비영어권 언어에 대한 지원을 강화하기 위함이다. Llama 3의 토크나이저는 tiktoken 토크나이저의 어휘를 기반으로, 다국어 데이터로 훈련된 28,000개의 추가 토큰을 결합하여 만들어졌다.14

3. 훈련 방법론: 데이터와 하드웨어

Llama 모델의 뛰어난 성능은 정교한 아키텍처뿐만 아니라, 그 이면에 있는 막대한 규모의 데이터와 이를 처리하기 위한 초거대 컴퓨팅 인프라에 의해 뒷받침된다. 특히 Meta는 모델 자체보다 데이터를 정제하고 최적화하는 ’데이터 엔진’을 핵심 경쟁력으로 삼고 있다.

3.1 사전 훈련 데이터 구성

Llama 시리즈의 훈련 데이터는 양과 질 모든 측면에서 지속적으로 발전해왔다.

Llama 1 (1.4조 토큰): 초기 모델은 전적으로 공개된 데이터 소스의 조합으로 훈련되었다. 주요 구성은 CommonCrawl(67%), C4(15%), GitHub(4.5%), Wikipedia(4.5%), Books(4.5%), ArXiv(2.5%), Stack Exchange(2.0%) 등이었다.1 이는 학문적 투명성과 재현 가능성을 중시하는 전략의 일환이었다.4
Llama 2 (2조 토큰): Llama 1 대비 훈련 데이터의 양을 40% 이상 늘려 모델의 지식 범위를 확장했다.7
Llama 3 (15조 토큰): Llama 3는 Llama 2에 비해 7배 이상 증가한 15조 토큰이라는 전례 없는 규모의 데이터로 훈련되었다. 이 데이터셋에는 Llama 2보다 4배 많은 코드가 포함되었으며, 전체 데이터의 5% 이상이 30개 이상의 언어를 포괄하는 고품질 비영어 데이터로 구성되어 다국어 능력을 크게 향상시켰다.1

이러한 데이터 규모의 확장은 단순히 웹 데이터를 긁어모으는 것을 넘어, 고도로 정교화된 데이터 처리 파이프라인을 통해 가능했다. Llama 3의 데이터 큐레이션 파이프라인은 Meta의 핵심 기술 자산으로, 다음과 같은 여러 단계로 구성된다 14:

휴리스틱 필터링 (Heuristic Filtering): n-그램 중복 비율이나 특정 단어 목록의 등장 빈도와 같은 규칙 기반의 휴리스틱을 사용하여 반복적이거나 품질이 낮은 문서를 제거한다.
모델 기반 품질 필터링 (Model-based Quality Filtering): Wikipedia에서 참조로 사용되는 텍스트의 특성을 학습한 fastText 분류기나, Llama 2를 기반으로 훈련된 RoBERTa 분류기 등을 사용하여 고품질 텍스트를 선별한다.
중복 제거 (De-duplication): 데이터의 다양성을 확보하고 훈련 효율성을 높이기 위해 URL, 문서, 심지어 개별 라인 수준에서까지 공격적인 중복 제거를 수행한다.
도메인 특화 파이프라인 (Domain-Specific Pipelines): 웹 페이지에서 고품질의 코드나 수학적 추론과 관련된 데이터를 효과적으로 추출하기 위한 특화된 파이프라인을 개발하여 사용한다.

이러한 과정을 거쳐 최종적으로 구성된 Llama 3의 사전 훈련 데이터는 대략 일반 지식 50%, 수학 및 추론 25%, 코드 17%, 다국어 8%의 비율로 혼합되었다.14 이는 Llama 3가 다양한 영역에서 높은 성능을 발휘할 수 있는 기반이 되었다. 공개적으로 사용 가능한 데이터를 단순히 다운로드하는 것만으로는 이러한 품질을 달성할 수 없다. 페타바이트 규모의 원시 데이터를 정제, 필터링, 혼합하여 최적의 15조 토큰 훈련 세트를 만들어내는 이 복잡한 ’데이터 엔진’이야말로, 복제하기 어려운 Meta의 진정한 지적 재산이라 할 수 있다.

3.2 훈련 인프라

15조 토큰이라는 방대한 데이터를 처리하기 위해서는 그에 걸맞은 초거대 컴퓨팅 인프라가 필수적이다. Llama 2는 Meta의 리서치 슈퍼클러스터(Research SuperCluster)에서 훈련되었으며, Llama 3는 이를 훨씬 뛰어넘는 규모의 맞춤형 24,000 GPU 클러스터에서 훈련되었다.9

특히 플래그십 모델인 Llama 3 405B는 최대 16,000개의 NVIDIA H100 GPU를 동시에 사용하여 훈련되었다.14 이 GPU들은 8개 단위로 Meta의 Grand Teton AI 서버에 장착되어 있으며, 서버 간의 원활한 데이터 통신을 위해 초고속 네트워킹 기술이 적용되었다. Llama 3 405B 훈련에는 400 Gbps 속도의 RoCE(RDMA over Converged Ethernet) 패브릭이, 그보다 작은 모델들에는 NVIDIA Quantum2 InfiniBand가 사용되었다.14 이러한 대규모 분산 훈련 환경에서는 GPU 간의 통신 병목 현상을 최소화하는 것이 훈련 속도와 안정성을 결정하는 핵심 요소이다.

이러한 하드웨어 인프라는 Meta가 자체 개발한 훈련 스케줄러와 안정성 최적화 소프트웨어 스택에 의해 관리된다.14 수만 개의 GPU가 수개월 동안 중단 없이 안정적으로 작동하도록 유지하는 것은 그 자체로 엄청난 엔지니어링 역량을 요구하는 과제이다.

4. 성능 평가 및 벤치마크 분석

Llama 시리즈는 각 세대가 출시될 때마다 성능의 기준을 한 단계씩 끌어올려 왔으며, 특히 Llama 3는 여러 주요 벤치마크에서 최상위권 성능을 입증하며 개방형 모델의 가능성을 재정의했다.

4.1 세대별 성능 향상: Llama 2 vs. Llama 3

Llama 3는 이전 세대인 Llama 2에 비해 모든 주요 벤치마크에서 압도적인 성능 향상을 보였다. MMLU(대규모 다중작업 언어 이해), ARC(AI2 추론 챌린지), DROP(이산 추론) 등 학계에서 널리 사용되는 지식 및 추론 능력 평가에서 Llama 3는 Llama 2를 크게 앞질렀다.9

특히, Llama-3-8B 모델과 Llama-2-7B 모델을 비교한 결과를 보면 그 차이가 더욱 명확해진다. 코드 생성 능력을 평가하는 HumanEval 벤치마크와 수학 문제 해결 능력을 측정하는 MATH 벤치마크에서 Llama-3-8B는 Llama-2-7B 대비 수백 퍼센트에 달하는 극적인 성능 향상을 기록했다.15

이러한 양적 향상 외에도 질적인 측면에서의 발전이 두드러진다. Llama 3는 더 복잡한 추론, 정교한 코드 생성, 그리고 다단계 지시사항을 정확하게 따르는 능력이 크게 개선되었다.7 또한, Llama 3는 ’거짓 거부율(false refusal rate)’이 현저히 낮아졌다. 이는 사용자의 안전한 질문에 대해 부적절하게 답변을 거부하는 경우가 줄어들어, 보다 유용하고 신뢰할 수 있는 상호작용이 가능해졌음을 의미한다.7 흥미롭게도 Llama-3-8B 모델은 Llama-2-7B 모델보다 더 적은 추론 단계로 결론에 도달하는 경향을 보여, 계산 효율성 측면에서도 개선이 이루어졌음을 시사한다.15

4.2 주요 모델과의 경쟁 분석

Llama 3는 개방형 모델 생태계 내에서의 리더십을 공고히 하는 동시에, 최상위 폐쇄형 상용 모델들과도 대등한 경쟁을 펼치고 있다.

Llama 3 8B: 출시 당시 Gemma 7B, Mistral 7B 등 유사한 크기의 다른 개방형 모델들을 능가하는 성능을 보였다.9
Llama 3 70B: Claude 3 Sonnet, Gemini Pro 1.5와 같은 중상위권 상용 모델들과 경쟁하거나 일부 벤치마크에서는 더 나은 성능을 기록했다.1 출시 직후, 실제 사용자들의 평가를 기반으로 순위를 매기는 LMSYS 챗봇 아레나(Chatbot Arena)에서 개방형 모델 중 가장 높은 순위를 차지하며 그 성능을 입증했다.32
Llama 3 405B (Llama 3.1): 이 플래그십 모델은 GPT-4와 직접적으로 비교되는 성능을 보여주었다. 특히 초등 수학 문제 해결(GSM8K), 코드 생성(HumanEval), 독해(DROP)와 같은 벤치마크에서는 GPT-4의 초기 발표 점수를 상회하는 결과를 기록하기도 했다.14 하지만 MMLU와 같은 종합적인 지식 평가에서는 GPT-4의 최신 버전(GPT-4-Turbo, GPT-4o)이 여전히 소폭의 우위를 점하고 있다.33
Llama 4: Llama 4 Scout (17B 활성 파라미터) 모델은 MMLU에서 85%의 정확도를 보고하며, 최신 아키텍처들과의 경쟁에서 지속적으로 성능을 개선하고 있음을 보여준다.36

이러한 벤치마크 결과는 단순한 성능 지표를 넘어, 개방형 모델과 폐쇄형 모델 간의 기술 격차가 거의 사라졌음을 보여주는 중요한 증거이다. Meta는 Llama가 경쟁 모델을 앞서는 벤치마크 결과를 전략적으로 발표함으로써 ’개방형 모델이 폐쇄형 모델에 뒤처지지 않는다’는 강력한 서사를 만들어내고 있다. 그러나 OpenAI와 같은 경쟁사들이 논문으로 발표되지 않은 더 강력한 모델을 API를 통해 지속적으로 업데이트하고 있기 때문에, 특정 시점의 벤치마크 점수만으로 우위를 단정하기는 어렵다. 이는 벤치마크가 기술력 경쟁의 장이자, 개발자들의 인식을 형성하기 위한 ’서사 전쟁’의 장이 되었음을 시사한다. 따라서 사용자들은 특정 발표 자료에만 의존하기보다, 여러 출처의 최신 정보를 종합적으로 비교하여 모델의 실제 성능을 판단해야 한다.

벤치마크	Llama 3 8B	Llama 3 70B	Llama 3 405B	GPT-4 (Published)	GPT-4 Turbo (API)	GPT-4o
MMLU (5-shot)	68.4	82.0	86.1	86.4	86.7	88.7
HumanEval (0-shot)	62.2	81.7	84.1	74.4	88.2	90.2
GSM-8K (8-shot, CoT)	79.6	93.0	94.1	92.0	-	-
MATH (4-shot, CoT)	30.0	50.4	57.8	52.9	73.4	-

4.3 강점 및 약점 분석

강점:
파라미터 당 성능: Llama 모델들은 크기 대비 매우 높은 효율성을 자랑하며, 적은 계산 자원으로도 뛰어난 성능을 제공한다.6
개방적 접근성: 모델 가중치를 연구 및 상업용으로 자유롭게 사용할 수 있다는 점은 거대한 혁신 생태계를 촉진하는 가장 큰 원동력이다.1
코드 생성: Llama 시리즈는 HumanEval과 같은 코드 생성 벤치마크에서 꾸준히 강점을 보여왔다.6
약점:
수학적 추론: Llama 1은 수학 데이터에 대한 미세 조정이 부족하여 관련 벤치마크에서 낮은 성능을 보였다.6 Llama 3에서 이 부분은 크게 개선되었으나, 여전히 복잡한 수학 추론 문제에서는 최상위 상용 모델에 비해 다소 뒤처지는 경향이 있다.33 다만, LLaMA-Berry와 같은 외부 프레임워크를 결합하면 작은 Llama 모델도 특정 수학 과제에서 GPT-4와 경쟁할 수 있는 잠재력을 보여준다.38
환각 (Hallucination): 모든 LLM과 마찬가지로, Llama 모델 역시 사실과 다른 정보를 생성할 수 있는 한계를 가지고 있다.6
언어 편향: 훈련 데이터가 영어에 집중되어 있어, 다른 언어에서의 성능은 상대적으로 낮을 수 있다. 이는 최신 버전에서 다국어 데이터 비중을 높이며 적극적으로 개선되고 있는 부분이다.6

5. 활용 사례 및 생태계

Llama의 가장 큰 영향력은 벤치마크 점수를 넘어, 전 세계 개발자 커뮤니티에 의해 창출되는 광범위한 활용 사례와 활발한 생태계에서 찾아볼 수 있다. Llama의 개방적 접근 모델은 이전에는 소수의 거대 기업만이 접근할 수 있었던 최첨단 AI 기술의 문턱을 낮추어, AI 애플리케이션의 ’캄브리아기 대폭발’을 촉발했다.

5.1 주요 응용 분야

Llama는 그 범용성과 높은 성능을 바탕으로 다양한 산업 분야에서 활용되고 있다.

콘텐츠 생성: 기사, 블로그 포스트, 기술 안내서, 마케팅 문구 등 인간의 글과 유사한 수준의 일관성 있고 맥락에 맞는 텍스트를 생성하는 데 사용된다.29
대화형 AI: 고객 서비스 챗봇, 개인 비서 등 지능형 가상 어시스턴트의 핵심 엔진으로 활용되어 자연스러운 상호작용을 가능하게 한다.29
지식 검색 및 추론: 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템과 결합하여, 방대한 문서나 데이터베이스로부터 정확한 정보를 찾아내고 이를 바탕으로 추론하여 답변을 생성하는 의사결정 지원 시스템을 구축하는 데 사용된다.39
소프트웨어 개발: 코드 작성, 디버깅, 최적화 등을 돕는 AI 코딩 어시스턴트를 개발하는 데 활용되어 개발자의 생산성을 향상시킨다.7
특화 도메인: Llama 3 출시 후 단 24시간 만에 예일 의과대학 연구팀이 의료 분야에 특화된 ’Llama-3-MeditronV1’을 개발한 사례처럼 32, 특정 산업이나 학문 분야의 데이터를 이용해 미세 조정하여 전문가 수준의 성능을 발휘하는 모델을 만들 수 있다.
창의적 및 신규 애플리케이션: Llama의 개방성은 개발자들의 창의력을 자극하여 이전에는 상상하기 어려웠던 다양한 애플리케이션의 등장을 이끌었다. 해커톤과 개발자 커뮤니티에서는 AI 기반 금융 분석 비서, 음성 기반 전자상거래 에이전트, 개인 맞춤형 정신 건강 관리 도구 등 혁신적인 프로젝트들이 끊임없이 탄생하고 있다.41

이러한 현상은 Llama가 단순한 기술을 넘어 하나의 플랫폼으로 기능하고 있음을 보여준다. 모델 가중치에 직접 접근할 수 있게 되면서, 개발자들은 API 방식으로는 불가능했던 근본적인 아키텍처 실험, 새로운 미세 조정 기법 개발, 양자화 연구 등을 자유롭게 수행할 수 있게 되었다.32 Llama 3 출시 직후 허깅페이스(Hugging Face)에 600개 이상의 파생 모델이 공유된 것은 32 이러한 탈중앙화된 혁신이 얼마나 빠르고 광범위하게 일어나는지를 보여주는 단적인 예이다.

5.2 미세 조정 및 배포 전략

개발자들은 Llama를 특정 목적에 맞게 최적화하기 위해 다양한 전략을 사용한다.

미세 조정 (Fine-tuning): 개발자는 자신만의 데이터셋을 사용하여 사전 훈련된 Llama 기반 모델을 특정 작업에 맞게 추가로 훈련시킬 수 있다. 이 과정은 일반적으로 transformers, accelerate와 같은 라이브러리를 설치하고, 데이터를 준비하여 토큰화한 뒤, Trainer 클래스를 사용하여 미세 조정 작업을 실행하는 방식으로 이루어진다.37
양자화 (Quantization): Llama 모델은 크기가 매우 크기 때문에, 자원이 제한된 환경(예: 개인용 컴퓨터, 모바일 기기)에서 구동하기 위해 양자화 기술이 널리 사용된다. 이는 모델 가중치의 정밀도를 낮추어(예: 32비트 부동소수점에서 4비트 정수로) 모델의 크기와 메모리 사용량을 줄이는 기술이다. 양자화는 성능 저하를 유발할 수 있으며, 성능 저하를 최소화하는 것은 활발한 연구 분야 중 하나이다.42
로컬 배포: Llama의 작은 모델들은 일반 소비자용 하드웨어에서도 직접 실행할 수 있다. 이는 개발자 및 취미 활동가 커뮤니티에서 Llama 채택을 촉진하는 주요 요인 중 하나가 되었다.32
클라우드 배포: AWS, Azure 등 모든 주요 클라우드 서비스 제공업체들이 Llama 모델 배포를 지원하고 있어, 기업 규모의 대규모 애플리케이션에서도 손쉽게 활용할 수 있다.9

6. 라이선스 및 상업적 사용 정책

Llama의 성공을 논할 때 그 독특한 라이선스 정책을 빼놓을 수 없다. Meta는 Llama의 라이선스를 통해 개방성을 극대화하여 거대한 개발자 생태계를 구축하는 동시에, 자사의 핵심적인 기술 자산과 시장 지위를 보호하는 정교한 법적 장치를 마련했다.

6.1 Llama 커뮤니티 라이선스 분석

Llama 모델은 ’Llama 커뮤니티 라이선스 계약’에 따라 배포된다.

권리 부여: 이 라이선스는 사용자에게 Llama 관련 자료를 사용, 복제, 배포, 복사하고 이를 기반으로 파생 저작물을 만들 수 있는 비독점적, 전 세계적, 양도 불가능한, 로열티 없는 제한된 권리를 부여한다.43
재배포 및 저작자 표시: Llama 또는 그 파생물을 재배포하는 개발자는 반드시 라이선스 계약서 사본을 함께 제공해야 하며, 관련 웹사이트나 사용자 인터페이스, 제품 문서 등에 “Built with Meta Llama 3“라는 문구를 눈에 띄게 표시해야 한다.43 만약 Llama를 사용하여 다른 AI 모델을 훈련시킨 경우, 새로 만들어진 모델의 이름은 “Llama 3“으로 시작해야 한다.44
허용 가능한 사용 정책 (Acceptable Use Policy): 라이선스에는 허용 가능한 사용 정책이 포함되어 있으며, 불법 활동, 폭력, 아동 착취, 기타 유해한 목적으로 Llama를 사용하는 것을 금지한다. 또한 군사적 목적이나 중요 인프라 운영과 같은 특정 분야에서의 사용도 제한한다.43

6.2 상업적 사용 조건 및 제한 사항

Llama 라이선스는 상업적 사용을 폭넓게 허용하지만, 두 가지 중요한 제한 조항을 포함하고 있다.

7억 MAU 조항: Llama를 활용한 제품이나 서비스의 월간 활성 사용자(MAU)가 7억 명을 초과할 경우, 해당 사용자는 Meta에 별도의 라이선스를 요청해야 하며, Meta는 단독 재량으로 라이선스 부여 여부를 결정할 수 있다.43
비경쟁 조항: 라이선스에는 “Llama 자료 또는 그 결과물을 다른 거대 언어 모델(Meta Llama 3 또는 그 파생물 제외)을 개선하는 데 사용하지 않는다“는 매우 중요한 조항이 포함되어 있다.44

이 두 조항은 Llama 라이선스가 단순한 개방형 라이선스가 아닌, 고도로 계산된 전략적 도구임을 보여준다. MIT나 Apache 2.0과 같은 순수한 오픈소스 라이선스였다면, Google, Microsoft와 같은 Meta의 가장 큰 경쟁사들이 Llama를 자유롭게 가져다가 자사의 차세대 파운데이션 모델을 훈련시키는 데 사용할 수 있었을 것이다. 하지만 Llama 라이선스는 이를 효과적으로 차단한다.

7억 MAU 조항은 사실상 파운데이션 모델 시장에서 Meta에 위협이 될 만한 규모의 기업들은 Llama를 무료로 사용할 수 없음을 의미한다. 이들은 Meta와 별도의 상업적 협상을 해야 하며, Meta는 이를 거부할 권리를 가진다. 비경쟁 조항은 더욱 직접적이다. 이 조항은 경쟁사가 Llama 3의 출력물을 사용하여 자신들의 모델을 개선하기 위한 합성 데이터를 생성하는, 업계에서 널리 사용되는 강력한 기술을 법적으로 금지한다.

결론적으로, Llama 라이선스는 중소 개발자 및 스타트업 커뮤니티의 참여를 최대한 유도하여 활발한 생태계를 조성할 만큼 충분히 허용적이면서도, 동시에 가장 강력한 경쟁자들이 Meta의 수십억 달러 규모의 투자로부터 직접적인 이익을 얻지 못하도록 막는 ’독소 조항(poison pill)’을 포함하고 있는 정교한 법률 공학의 산물이다.

6.3 오픈소스 논쟁

이러한 제한 조항들 때문에 Llama가 진정한 ’오픈소스’인지에 대한 논쟁이 계속되고 있다. Meta는 Llama를 ‘공개적으로 사용 가능한(openly available)’ 또는 ’오픈소스’라고 지칭하며 개방형 AI 생태계에 대한 비전을 강조한다.30

반면, 오픈소스 이니셔티브(OSI)와 같은 단체들은 Llama 라이선스가 오픈소스의 정의(Open Source Definition)를 충족하지 못한다고 주장한다. 특히 7억 MAU 조항과 특정 사용 분야를 제한하는 허용 가능한 사용 정책이 특정 사용자 그룹이나 활용 분야를 차별하여, 오픈소스의 핵심 원칙을 위배한다는 것이다.1 최근 멀티모달 모델에 대해 유럽 연합(EU) 내 개인 및 기업의 사용을 제한하는 조항이 추가되면서, Llama 라이선스는 전통적인 오픈소스의 정의와는 더욱 거리가 멀어졌다.46

7. 책임감 있는 AI: 안전성, 윤리, 그리고 Llama Guard

강력한 AI 모델을 개방적으로 배포하는 것은 필연적으로 오용의 위험을 수반한다. Meta는 이러한 위험을 관리하기 위해 모델 자체의 안전성 강화는 물론, 개발자들이 책임감 있게 AI를 구축할 수 있도록 지원하는 도구와 가이드라인을 포함하는 포괄적인 ‘책임감 있는 AI’ 프레임워크를 제시하고 있다. 그 중심에는 Llama Guard라는 특화된 안전 모델이 있다.

7.1 Meta의 책임감 있는 AI 접근법

Meta는 AI 안전성을 파운데이션 모델 수준에서만 해결할 수 있는 문제가 아니라, 제품 개발 주기 전반에 걸쳐 여러 계층의 완화 조치가 필요한 ’시스템 수준’의 과제로 접근한다.50

개방성과 도구 제공: Meta 전략의 핵심은 모델과 함께 안전 관련 도구들을 공개적으로 배포하는 것이다. 이는 개발자들이 각자의 사용 사례에 맞는 안전 장치를 직접 구축하고 조정할 수 있도록 권한을 부여하는 접근 방식이다.51
데이터 큐레이션을 통한 안전성 확보: 사전 훈련 단계에서부터 개인 정보가 다량 포함된 것으로 알려진 데이터 소스를 제거하고, 유해성 필터를 적용하여 데이터의 품질과 안전성을 관리한다.51
미세 조정을 통한 정렬: Llama-Chat 모델들은 유용하고, 존중하며, 정직한 응답을 생성하도록 광범위한 미세 조정을 거친다. 이 과정에서 거짓 거부율을 낮추고 유해한 콘텐츠 생성을 억제하는 데 중점을 둔다.13

7.2 Llama Guard: 기능 및 안전 분류 체계

Llama Guard는 Meta의 책임감 있는 AI 전략을 기술적으로 구현하는 핵심 도구이다. 이는 Llama 모델을 기반으로 하되, 입력(프롬프트)과 출력(응답)의 안전성을 분류하는 작업에 특화되도록 미세 조정된 별도의 LLM이다.52

기능 및 진화: Llama Guard는 주어진 텍스트가 미리 정의된 안전 분류 체계(taxonomy)에 따라 ’안전(safe)’한지 ’안전하지 않은(unsafe)’지를 판단하고, 안전하지 않을 경우 어떤 유형의 위험에 해당하는지를 출력한다.52 초기 Llama Guard는 Llama 2-7B 모델을 기반으로 했으며 53, 최신 버전인 Llama Guard 4는 Llama 4 Scout 모델에서 파생된 120억 파라미터 모델로, 텍스트뿐만 아니라 이미지까지 처리할 수 있는 네이티브 멀티모달 기능을 갖추고 있다.50
유연성과 맞춤화: Llama Guard의 가장 큰 특징은 높은 유연성이다. 개발자들은 별도의 분류기를 처음부터 훈련시킬 필요 없이, 제로샷(zero-shot) 또는 퓨샷(few-shot) 프롬프팅을 통해 자신들의 정책에 맞게 안전 분류 기준을 동적으로 변경하거나, 소량의 데이터로 미세 조정하여 맞춤형 안전 모델을 구축할 수 있다.52
안전 분류 체계 (Safety Taxonomy): Llama Guard는 MLCommons에서 표준화한 유해성 분류 체계를 기반으로 훈련되었다. 이는 AI 안전에 대한 일관되고 체계적인 접근을 가능하게 한다. 주요 유해성 범주는 다음과 같다.55

유해성 범주 (코드)	설명 및 예시
S1: 폭력 범죄	테러, 살인, 아동 학대, 동물 학대 등 사람이나 동물에 대한 불법적인 폭력을 조장하거나 가능하게 하는 콘텐츠
S2: 비폭력 범죄	사기, 돈세탁, 절도, 마약 밀매 등 비폭력적인 범죄 행위를 조장하거나 가능하게 하는 콘텐츠
S3: 성 관련 범죄	성매매, 성폭행, 성희롱 등 성과 관련된 범죄를 조장하거나 가능하게 하는 콘텐츠
S4: 아동 성 착취	아동의 성적 학대를 포함, 묘사, 조장, 가능하게 하는 콘텐츠
S5: 전문적인 조언	자격 없는 의료, 법률, 금융 조언 또는 위험한 활동을 안전하다고 제시하는 콘텐츠
S6: 사생활 침해	개인의 신체적, 디지털, 재정적 보안을 위협할 수 있는 민감한 비공개 개인 정보를 포함하는 콘텐츠
S7: 지적 재산권	제3자의 지적 재산권을 침해할 수 있는 콘텐츠
S8: 무차별 살상 무기	화학, 생물학, 핵무기 등 무차별 살상 무기의 제작을 조장하거나 가능하게 하는 콘텐츠
S9: 증오 발언	인종, 종교, 성적 지향 등 민감한 개인적 특성을 근거로 개인이나 집단을 비하하거나 비인간적으로 묘사하는 콘텐츠
S10: 자살 및 자해	자살, 자해, 섭식 장애 등 의도적인 자기 파괴 행위를 조장하거나 가능하게 하는 콘텐츠

보호 도구 제품군: Llama Guard는 더 넓은 보호 도구 제품군의 일부이다. 이 제품군에는 프롬프트 인젝션이나 탈옥(jailbreak) 시도를 탐지하는 Prompt Guard와, 여러 보호 모델들을 통합 관리하여 안전하지 않은 코드 생성이나 위험한 도구 사용을 방지하는 LlamaFirewall 등이 포함된다.50

Meta의 이러한 접근 방식은 AI 안전성을 제품의 내장된 제약 조건이 아닌, 외부화되고 유연하게 적용 가능한 하나의 ’제품’으로 전환시킨 전략적 선택이다. 강력한 모델을 개방하는 데 따르는 평판 및 법적 리스크를 완화하기 위해, Meta는 안전 메커니즘 자체를 분리하여 커뮤니티에 강력하고 맞춤화 가능한 도구로 제공한다. 이는 개발자들이 책임감 있게 제품을 만들도록 지원하는 동시에, Llama 생태계 전체를 기업이 채택하기에 더욱 매력적이고 신뢰할 수 있는 플랫폼으로 만드는 효과를 가진다. 즉, 안전성은 개방형 플랫폼을 제약하는 요소가 아니라, 오히려 그 성장을 가능하게 하는 핵심 동력이 되는 것이다.

8. 결론: Llama가 AI 생태계에 미치는 영향

Meta의 Llama 시리즈는 단순한 거대 언어 모델의 등장을 넘어, 인공지능 기술의 개발, 배포, 그리고 경쟁의 방식을 근본적으로 재편하는 촉매제가 되었다. Llama의 진정한 영향력은 특정 벤치마크에서의 성능 수치를 넘어, AI 생태계 전반에 미친 구조적인 변화에서 찾아야 한다.

본 안내서의 분석을 종합하면, Llama의 핵심적인 기여와 영향은 다음과 같이 요약할 수 있다.

첫째, Meta의 전략적 진화는 AI 산업의 경쟁 구도를 재정의했다. Llama 1의 ‘효율성’ 중심 접근에서 시작하여, Llama 3와 4의 ‘개방형 최대 규모’ 전략으로 전환하는 과정은, Meta가 AI 시장의 규칙을 바꾸고 있음을 보여준다. 최첨단 성능을 갖춘 모델을 개방적으로 제공함으로써, Meta는 파운데이션 모델 자체를 상용화하기보다는 이를 기반으로 한 애플리케이션과 인프라 생태계를 장악하려는 더 큰 그림을 그리고 있다.

둘째, 데이터 중심의 개발 철학은 AI의 핵심 경쟁력이 무엇인지를 명확히 했다. Llama는 의도적으로 보수적인 아키텍처를 유지하면서, 자원을 ’데이터 엔진’의 고도화에 집중했다. 15조 토큰에 달하는 방대한 데이터를 정제하고 최적화하는 이 능력은, 하드웨어나 모델 아키텍처보다 복제하기 어려운 Meta의 진정한 해자(moat)이다. 이는 미래 AI 경쟁이 데이터의 양뿐만 아니라 질과 처리 능력에 의해 좌우될 것임을 시사한다.

셋째, 개방적 접근은 전례 없는 혁신의 확산을 이끌었다. Llama의 모델 가중치 공개는 전 세계 수많은 개발자와 연구자들에게 이전에는 불가능했던 수준의 실험과 창조의 자유를 부여했다. 이는 의료, 금융, 교육 등 다양한 분야에서 특화된 모델과 새로운 애플리케이션이 폭발적으로 등장하는 ‘캄브리아기 대폭발’ 현상을 낳았다. 이러한 탈중앙화된 혁신은 폐쇄적인 생태계가 따라잡기 어려운 Llama 생태계의 가장 강력한 자산이다.

넷째, 정교한 라이선스 전략은 통제된 개방 생태계라는 새로운 모델을 제시했다. Llama의 라이선스는 커뮤니티의 참여를 극대화하면서도, 거대 경쟁사들이 Meta의 막대한 투자를 직접적으로 활용하는 것을 방지하는 이중적인 구조를 가지고 있다. 이는 순수한 오픈소스 이념과는 거리가 있지만, 상업적 현실 속에서 개방성과 기업의 전략적 이익을 조화시키는 효과적인 방법을 보여준다.

마지막으로, 안전성의 제품화는 책임감 있는 AI 개발의 새로운 방향을 제시했다. Llama Guard와 같은 도구를 통해 안전성을 분리 가능한 모듈로 제공함으로써, Meta는 개발자에게 유연성을 부여하는 동시에 생태계 전반의 안전 기준을 높이는 데 기여했다. 이는 AI의 위험을 관리하면서도 혁신을 저해하지 않으려는 시도로, 향후 AI 거버넌스 논의에 중요한 참고점이 될 것이다.

결론적으로, Llama는 폐쇄형 모델이 지배하던 AI 시장에 강력하고 실행 가능한 대안을 제시함으로써 기술의 민주화를 앞당겼고, 경쟁을 촉진했으며, 전 세계적인 혁신의 속도를 가속화했다. Llama가 열어젖힌 새로운 패러다임은 인공지능의 미래가 소수의 기업에 의해 독점되는 것이 아니라, 더 분산되고, 협력적이며, 궁극적으로는 더 역동적인 방향으로 나아갈 수 있음을 보여주고 있다.

9. 참고 자료

Llama (language model) - Wikipedia, https://en.wikipedia.org/wiki/Llama_(language_model)
LLaMA: Open and Efficient Foundation Language Models - Meta Research - Facebook, https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
[2302.13971] LLaMA: Open and Efficient Foundation Language Models - arXiv, https://arxiv.org/abs/2302.13971
arXiv:2302.13971v1 [cs.CL] 27 Feb 2023, https://arxiv.org/pdf/2302.13971
(PDF) LLaMA: Open and Efficient Foundation Language Models - ResearchGate, https://www.researchgate.net/publication/368842729_LLaMA_Open_and_Efficient_Foundation_Language_Models
Introduction to Meta AI’s LLaMA: Empowering AI Innovation | DataCamp, https://www.datacamp.com/blog/introduction-to-meta-ai-llama
Llama 2 vs Llama 3: Key differences, Features & Use Cases - Kanerika, https://kanerika.com/blogs/llama-3-vs-llama-2/
Llama 2 vs Llama 3: Key AI Model Comparisons & Insights - Neuronimbus, https://www.neuronimbus.com/blog/a-comparative-analysis-and-the-ultimate-comparison-of-all-large-language-models/
Llama 3 vs Llama 2. Comparison, Differences, Features | Apps4Rent, https://www.apps4rent.com/blog/llama-3-vs-llama-2/
Understanding Llama2 and Llama3: A Personal Perspective | by tangbasky | Towards Explainable AI | Medium, https://medium.com/towards-explainable-ai/understanding-llama2-and-llama3-a-personal-perspective-e891456704d8
Paper page - Llama 2: Open Foundation and Fine-Tuned Chat Models, https://huggingface.co/papers/2307.09288
Llama 2: Open Foundation and Fine-Tuned Chat Models | Research - AI at Meta, https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates - arXiv, https://arxiv.org/pdf/2402.18540
arXiv:2407.21783v3 [cs.AI] 23 Nov 2024, https://arxiv.org/pdf/2407.21783
Evolution of Llama: From Llama 2 to Llama 3 - Bluetick Consultants Inc., https://www.bluetickconsultants.com/exploring-the-evolution-llama-2-to-llama-3/
Reactor Mk.1 performances: MMLU, HumanEval and BBH test results - arXiv, https://arxiv.org/pdf/2406.10515?
Llama: Industry Leading, Open-Source AI, https://www.llama.com/
Open-source AI Models for Any Application | Llama 3, https://www.llama.com/models/llama-3/
Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Attention Is All You Need - arXiv, https://arxiv.org/html/1706.03762v7
Attention Is All You Need, https://arxiv.org/pdf/1706.03762
[D] Why does it matter that RMSNorm is faster than LayerNorm in transformers? - Reddit, https://www.reddit.com/r/MachineLearning/comments/1apb3th/d_why_does_it_matter_that_rmsnorm_is_faster_than/
Root Mean Square Layer Normalization, https://arxiv.org/pdf/1910.07467
[1910.07467] Root Mean Square Layer Normalization - arXiv, https://arxiv.org/abs/1910.07467
ENJOY YOUR LAYER NORMALIZATION WITH THE COM- PUTATION EFFICIENCY OF RMSNORM - OpenReview, https://openreview.net/pdf?id=bVdcAZAW2h
SwiGLU: The FFN Upgrade I Use to Get Free Performance - DEV Community, https://dev.to/mshojaei77/swiglu-the-ffn-upgrade-i-use-to-get-free-performance-33jc
GLU Variants Improve Transformer, https://arxiv.org/abs/2002.05202
ReLU2 Wins: Discovering Efficient Activation Functions for Sparse LLMs - arXiv, https://arxiv.org/pdf/2402.03804
Meta LLaMA 3: Use Cases, Benchmarks, and How to Get Started - Acorn Labs, https://www.acorn.io/resources/learning-center/meta-llama-3/
Our responsible approach to Meta AI and Meta Llama 3, https://ai.meta.com/blog/meta-llama-3-meta-ai-responsibility/
Bringing Llama 3 to life - Engineering at Meta - Facebook, https://engineering.fb.com/2024/08/21/production-engineering/bringing-llama-3-to-life/
A look at the early impact of Meta Llama 3, https://ai.meta.com/blog/meta-llama-3-update/
I was curious how the numbers compare to GPT-4 in the paid ChatGPT Plus, since t… | Hacker News, https://news.ycombinator.com/item?id=40078130
Llama 3 vs GPT 4: A Detailed Comparison | Which to Choose? - PromptLayer Blog, https://blog.promptlayer.com/llama-3-vs-gpt-4/
GPT-4 - OpenAI, https://openai.com/index/gpt-4-research/
gpt-oss-20B consistently outperforms gpt-oss-120B on several benchmarks - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1mv4kwc/gptoss20b_consistently_outperforms_gptoss120b_on/
Overview of LLaMA. LLaMA (Large Language Model Meta AI) is… | by Engr Muhammad Tanveer sultan | Medium, https://medium.com/@engr.tanveersultan53/overview-of-llama-0f7141c83d9e
arXiv:2410.02884v2 [cs.AI] 21 Nov 2024, https://arxiv.org/pdf/2410.02884
Complete Breakdown of Llama 3: Features, Applications, and Comparison - WorkHub AI, https://workhub.ai/complete-breakdown-of-llama-3/
10 Mind-blowing Use Cases of Llama 3 - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2024/05/use-cases-of-llama/
Llama 3 Applications - Lablab.ai, https://lablab.ai/apps/tech/llama3
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs - arXiv, https://arxiv.org/pdf/2404.14047
How to Understand the Llama 3 License: Key Details You Need to …, https://blogs.novita.ai/how-to-understand-the-llama-3-license-key-details-you-need-to-know/
Meta Llama 3 License, https://www.llama.com/llama3/license/
We need to have a serious conversation about the llama3 license : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1csctvt/we_need_to_have_a_serious_conversation_about_the/
Llama FAQs, https://www.llama.com/faq/
meta-llama/Meta-Llama-3-8B - Hugging Face, https://huggingface.co/meta-llama/Meta-Llama-3-8B
Significant Risks in Using AI Models Governed by the Llama License - Open Source Guy, https://shujisado.org/2025/01/27/significant-risks-in-using-ai-models-governed-by-the-llama-license/
Meta’s LLaMa license is still not Open Source, https://opensource.org/blog/metas-llama-license-is-still-not-open-source
Llama Protections, https://www.llama.com/llama-protections/
Responsible Use Guide - Meta AI, https://ai.meta.com/static-resource/responsible-use-guide/
Llama Guard: LLM-based Input-Output Safeguard for Human-AI …, https://ai.meta.com/research/publications/llama-guard-llm-based-input-output-safeguard-for-human-ai-conversations/
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations - arXiv, https://arxiv.org/pdf/2312.06674
Securing AI Applications with LlamaGuard - cloudyuga.guru, https://cloudyuga.guru/blogs/securing-ai-applications-with-llamaguard/
meta-llama/Llama-Guard-4-12B - Hugging Face, https://huggingface.co/meta-llama/Llama-Guard-4-12B
️How Llama Guard Improves AI Safety with LLM-Based Moderation | by Tahir - Medium, https://medium.com/@tahirbalarabe2/%EF%B8%8Fhow-llama-guard-improves-ai-safety-with-llm-based-moderation-73ff34980c5f
meta-llama/Meta-Llama-Guard-2-8B - Hugging Face, https://huggingface.co/meta-llama/Meta-Llama-Guard-2-8B
LLM Safety with Llama Guard 2 - Pondhouse Data, https://www.pondhouse-data.com/blog/llm-safety-with-llamaguard-2