Booil Jung

오픈 소스 거대 언어 모델의 모든 것

인공지능(AI) 분야, 특히 거대 언어 모델(Large Language Models, LLM)의 발전은 기술 산업의 지형을 근본적으로 바꾸고 있습니다. 초기에 OpenAI의 GPT-3와 같은 강력한 폐쇄형 모델이 시장을 주도하며 기술의 가능성을 제시했다면, 최근 몇 년간의 가장 중요한 변화는 오픈 소스 LLM의 폭발적인 성장과 확산입니다. 이는 단순히 기술적 대안의 등장을 넘어, AI 기술의 접근성, 혁신의 속도, 그리고 비즈니스 모델의 패러다임 자체를 재정의하고 있습니다. 본 보고서는 현재 존재하는 거의 모든 주요 오픈 소스 LLM을 망라하여 그 특징과 장단점을 심층적으로 분석하고, 이들이 가져온 기술적, 경제적, 윤리적 함의를 종합적으로 고찰하는 것을 목표로 합니다.

오픈 소스 LLM 생태계를 정확히 이해하기 위해서는 먼저 ‘오픈’이라는 용어가 내포하는 다양한 층위를 명확히 구분해야 합니다. 현재 통용되는 ‘오픈 소스 LLM’이라는 표현은 종종 기술적 현실과 라이선스의 복잡성을 단순화하여 오해를 낳을 수 있습니다. 이 스펙트럼은 완전한 개방성에서부터 전략적 제한에 이르기까지 다양하게 펼쳐져 있습니다.1

엄밀한 의미에서 진정한 오픈 소스(Open Source) LLM은 단순히 모델의 가중치(weights)를 공개하는 것을 넘어, 모델의 재현과 검증에 필요한 모든 구성 요소를 투명하게 공개하는 것을 의미합니다. 여기에는 다음 요소들이 포함됩니다:

소스 코드(Source Code): 모델 아키텍처, 학습 알고리즘, 추론 코드를 포함하는 인간이 읽고 수정할 수 있는 코드.1
모델 가중치(Model Weights): 학습을 통해 얻어진 파라미터 값으로, 모델의 지식을 담고 있는 핵심 요소.1
학습 데이터셋(Training Dataset): 모델을 처음부터 다시 학습시키는 데 사용된 원본 데이터 또는 그에 준하는 데이터셋. 이는 재현성과 편향 연구에 필수적입니다.3
학습 방법론(Training Methodology): 하이퍼파라미터, 최적화 기법, 학습 절차 등 모델을 재현하는 데 필요한 상세한 정보.1

반면, 오픈 가중치(Open Weight) 모델은 위 요소 중 모델 가중치는 공개하지만, 학습 데이터셋이나 구체적인 학습 방법론 등은 비공개로 유지하는 경우가 많습니다.1 현재 Llama 3, Mistral 등 시장을 주도하는 대부분의 ‘오픈 소스’ 모델이 실제로는 이 범주에 속합니다. 이 모델들은 사용자가 모델을 다운로드하여 직접 실행하고 파인튜닝할 수 있는 자유를 제공하지만, 모델을 처음부터 완전히 재현하는 것은 불가능합니다.

마지막으로 제한된 가중치(Restricted Weight) 또는 폐쇄형(Closed-Source) 모델은 가중치를 포함한 모든 핵심 요소를 비공개로 유지하고, 오직 API(Application Programming Interface)를 통해서만 모델의 기능에 접근할 수 있도록 허용합니다. OpenAI의 GPT-4, Anthropic의 Claude 등이 대표적인 예입니다.2

현재 오픈 소스 LLM 생태계의 복잡성은 라이선스 정책에서 명확히 드러납니다. Llama 3와 같은 모델은 ‘Meta Llama 3 Community License’라는 커스텀 라이선스를 채택하고 있는데, 이는 월간 활성 사용자(MAU)가 7억 명 이상인 기업의 경우 상업적 활용을 위해서는 별도의 라이선스 계약을 요구하는 등 제한을 두고 있습니다.6 이는 순수한 기술 개방이 아니라, 자사 플랫폼(예: Meta의 소셜 미디어)으로의 생태계 유도를 위한 ‘전략적 개방’에 가깝습니다. 즉, 모델 자체를 상품화하기보다는 모델을 통해 생성된 콘텐츠와 애플리케이션이 자사 생태계 내에서 유통되도록 유도하는 것입니다.8 따라서 ‘오픈 소스’라는 용어의 사용은 기술적 정확성보다는 마케팅 및 커뮤니티 형성의 측면이 강하며, 사용자는 라이선스와 공개 범위를 면밀히 검토해야 하는 숨겨진 복잡성이 존재합니다.

라이선스의 종류는 모델의 활용 범위와 생태계에 지대한 영향을 미칩니다. MIT나 Apache 2.0과 같은 허용적 라이선스(Permissive License)는 상업적 사용을 포함한 거의 모든 활동을 최소한의 제약으로 허용하여 기술의 광범위한 확산을 촉진합니다.10 반면, CC-BY-NC(Creative Commons Attribution-NonCommercial)와 같은 비상업적 라이선스는 연구나 개인 프로젝트에는 유용하지만, 이를 활용한 비즈니스 모델 구축에는 제약을 가합니다.10 따라서 개발자와 기업은 기술적 특성만큼이나 라이선스 조건을 신중하게 고려하여 모델을 선택해야 합니다.

오픈 소스 LLM의 등장은 AI 기술 발전의 방향을 바꾸어 놓은 중대한 사건입니다. 이는 소수의 거대 기업이 독점하던 최첨단 기술을 전 세계 개발자, 연구자, 스타트업에게 개방함으로써 기술 민주화를 실현하고 혁신의 속도를 가속화하는 기폭제가 되었습니다.

2020년 OpenAI의 GPT-3가 등장했을 때, 그 압도적인 성능은 경이로움과 동시에 기술 접근성에 대한 우려를 낳았습니다.11 강력한 AI 모델을 개발하고 운영하는 데 필요한 막대한 자본과 데이터는 소수의 빅테크 기업에게만 허락된 것처럼 보였습니다. 그러나 2023년 Meta가 Llama를 공개하면서 이러한 패러다임에 균열이 생기기 시작했습니다.11 Llama는 비록 비상업적 라이선스로 제한되었지만, GPT-3.5에 필적하는 성능을 보여주며 오픈 소스(정확히는 오픈 가중치) 모델의 잠재력을 입증했습니다. 이후 Llama 2, Llama 3가 연이어 공개되면서 오픈 소스 진영은 폐쇄형 모델과 대등하게 경쟁할 수 있는 강력한 대안으로 자리매김했습니다.13

이러한 개방성은 강력한 ‘생태계 효과’를 창출합니다. 오픈 소스 모델은 전 세계 수많은 개발자와 연구자로 구성된 커뮤니티의 집단 지성을 통해 빠르게 발전합니다.2 누구나 모델을 다운로드하여 특정 도메인에 맞게 파인튜닝하고, 그 결과를 다시 커뮤니티에 공유합니다. 이 과정에서 수많은 특화 모델이 파생되고, 버그가 신속하게 수정되며, 새로운 활용 사례가 끊임없이 발굴됩니다.5 이는 소수의 엔지니어가 개발을 주도하는 폐쇄형 모델의 중앙 집중식 방식과는 근본적으로 다른, 분산적이고 유기적인 혁신 모델입니다.

오픈 소스 LLM은 경제적 측면에서도 상당한 파급 효과를 가집니다. 가장 큰 장점은 비용 효율성입니다. 폐쇄형 모델이 API 호출 당 비용을 부과하는 것과 달리, 오픈 소스 모델은 초기 라이선스 비용 없이 자유롭게 사용할 수 있습니다.15 물론 모델을 자체 서버나 클라우드에 배포하고 운영하는 데 비용이 발생하지만, 대규모 트래픽을 처리하는 경우 API 사용료보다 총 소유 비용(TCO)이 훨씬 저렴할 수 있습니다.14

더 중요한 것은 데이터 보안과 통제권입니다. 금융, 의료, 법률 등 민감한 데이터를 다루는 기업들은 외부 API로 데이터를 전송하는 것에 대한 규제 및 보안상의 부담이 큽니다. 오픈 소스 모델을 사용하면 모든 데이터를 자체 인프라 내에서 처리(온프레미스 또는 프라이빗 클라우드)할 수 있어, 데이터 주권을 완벽하게 확보하고 규제 준수 문제를 해결할 수 있습니다.14 이러한 장점들은 AI 기술 도입의 문턱을 낮추어 더 많은 기업과 조직이 AI 혁신에 동참할 수 있는 기반을 마련해주고 있습니다.

현대 LLM 아키텍처의 발전은 ‘성능’과 ‘효율성’이라는 두 가지 핵심 과제를 동시에 해결하려는 노력의 역사입니다. 초기 LLM 경쟁이 단순히 파라미터 수를 늘리는 ‘규모의 경쟁’이었다면 17, 이제는 제한된 컴퓨팅 자원 내에서 어떻게 더 빠르고, 더 길고, 더 정확하게 처리할 수 있는가에 대한 ‘효율성의 경쟁’으로 전환되고 있습니다. 이러한 변화는 아키텍처의 모듈화와 기존 구성 요소의 최적화를 통해 이루어지고 있으며, 특히 오픈 소스 모델이 제한된 하드웨어에서도 경쟁력을 가질 수 있게 하는 핵심 동력이 되고 있습니다.

2017년 “Attention Is All You Need” 논문에서 제안된 트랜스포머(Transformer) 아키텍처는 지난 몇 년간 LLM의 발전을 이끌어온 절대적인 표준이었습니다.19 그러나 입력 시퀀스의 길이가 길어질수록 계산량이 제곱으로 증가하는 어텐션 메커니즘의 이차적 복잡도($O(N^2$)) 문제와 막대한 메모리 요구사항은 트랜스포머의 근본적인 한계로 지적되어 왔습니다.20 이에 따라 학계와 산업계에서는 트랜스포머를 대체하거나 보완할 차세대 아키텍처에 대한 연구가 활발히 진행되고 있습니다.

MoE는 모델의 전체 파라미터 수를 크게 늘리면서도 추론 시 계산 비용을 일정하게 유지할 수 있는 혁신적인 아키텍처입니다.22 이 구조는 거대한 단일 신경망 대신, 여러 개의 작은 전문화된 신경망, 즉 ‘전문가(Expert)’ 네트워크와 이 전문가들 중 어떤 것을 활성화할지 결정하는 ‘라우터(Router)’ 네트워크로 구성됩니다.24

입력 토큰이 들어오면 라우터는 각 토큰에 가장 적합하다고 판단되는 소수의 전문가(보통 1~2개)를 선택하여 활성화합니다. 해당 토큰은 선택된 전문가 네트워크에서만 처리되고, 나머지 수많은 전문가들은 비활성화 상태로 유지됩니다.26 이 ‘조건부 계산(Conditional Computation)’ 덕분에 모델은 수천억, 혹은 조 단위의 파라미터를 가질 수 있으면서도, 실제 추론에 사용되는 활성 파라미터(active parameters)의 수는 훨씬 작아 계산 효율성을 극대화할 수 있습니다.22

이러한 장점 덕분에 Mixtral, DeepSeek-V2, Qwen 1.5, Llama 4 등 다수의 고성능 오픈 소스 모델들이 MoE 아키텍처를 채택하고 있습니다.6 MoE 아키텍처의 성공은 LLM의 발전 방향이 단순히 더 큰 단일 모델(dense model)을 만드는 것이 아니라, 필요에 따라 특정 모듈을 활성화하는 지능형 시스템으로 진화하고 있음을 보여줍니다.

SSM은 순환 신경망(RNN)의 순차적 데이터 처리 능력과 트랜스포머의 병렬 학습 능력을 결합하려는 시도에서 출발한 새로운 아키텍처입니다.20 고전적인 제어 이론의 상태 공간 표현을 딥러닝에 접목한 SSM은 특히 긴 시퀀스(long-sequence) 데이터 처리에 강점을 보입니다.

SSM 기반 모델의 가장 큰 특징은 입력 시퀀스 길이에 따라 계산량이 선형적으로 증가(O(n))한다는 점입니다.28 이는 트랜스포머의 이차적 복잡도 문제를 근본적으로 해결할 수 있는 잠재력을 의미합니다. Mamba, Falcon Mamba 7B와 같은 모델들이 SSM 아키텍처를 기반으로 개발되었으며, 이론적으로 무한한 길이의 컨텍스트를 효율적으로 처리할 수 있어 큰 주목을 받고 있습니다.17 비록 SSM이 정말로 트랜스포머를 넘어서는 상태 추적 능력을 갖추었는지에 대한 이론적 논쟁은 계속되고 있지만 30, 긴 컨텍스트 처리와 계산 효율성 측면에서 트랜스포머의 강력한 대안으로 부상하고 있는 것은 분명합니다.

NeurIPS, ICLR과 같은 세계 최고 권위의 AI 학회에서는 트랜스포머의 한계를 극복하기 위한 다양한 차세대 아키텍처에 대한 논의가 매년 활발하게 이루어지고 있습니다.32 xLSTM, RWKV(Receptance Weighted Key Value)와 같은 새로운 모델들이 제안되며, 이는 효율성, 확장성, 그리고 장기 의존성(long-range dependency) 처리 능력 개선에 초점을 맞추고 있습니다.33 이러한 연구 동향은 LLM 아키텍처가 단일 패러다임에 머무르지 않고, 다양한 문제 해결을 위해 끊임없이 진화하고 있음을 보여줍니다.

차세대 아키텍처 탐색과 더불어, 기존 트랜스포머 구조 내에서 가장 비용이 많이 드는 어텐션 메커니즘을 최적화하려는 노력 또한 LLM 효율성 향상의 중요한 축을 담당하고 있습니다.

기존의 다중 헤드 어텐션(Multi-Head Attention, MHA)은 여러 개의 어텐션 ‘헤드’를 병렬로 사용하여 입력 시퀀스의 다양한 측면(예: 구문적 관계, 의미적 관계)을 동시에 포착하는 방식입니다.35 이는 모델의 표현력을 높이는 데 크게 기여했지만, 추론 과정에서 각 토큰의 Key와 Value 벡터를 모든 헤드에 대해 저장해야 하는 ‘KV 캐시’ 문제로 인해 막대한 메모리를 소모하는 단점이 있었습니다.36

이 문제를 해결하기 위해 제안된 것이 다중 쿼리 어텐션(Multi-Query Attention, MQA)입니다. MQA에서는 여러 개의 Query 헤드가 단 하나의 Key-Value 헤드 쌍을 공유합니다.35 이로써 KV 캐시의 크기를 헤드 수만큼 줄일 수 있어 추론 속도와 메모리 효율성을 크게 향상시킬 수 있었지만, 모델의 표현력이 감소하여 성능 저하를 유발할 수 있다는 단점이 있었습니다.36

그룹 쿼리 어텐션(Grouped-Query Attention, GQA)은 MHA의 높은 성능과 MQA의 높은 효율성 사이의 절충안으로 제시된 혁신적인 기법입니다.37 GQA는 전체 Query 헤드를 여러 그룹으로 나누고, 각 그룹 내의 Query 헤드들이 하나의 Key-Value 헤드 쌍을 공유하도록 설계되었습니다.38

예를 들어, 32개의 Query 헤드가 있다면 MHA는 32개의 KV 헤드를, MQA는 1개의 KV 헤드를 사용합니다. 반면 GQA는 8개의 그룹으로 나누어 각 그룹이 1개의 KV 헤드를 공유하게 함으로써 총 8개의 KV 헤드만 사용합니다. 이 방식을 통해 GQA는 MHA에 근접하는 높은 성능을 유지하면서도 MQA 수준의 빠른 추론 속도와 낮은 메모리 사용량을 달성할 수 있습니다.35 이 뛰어난 균형 덕분에 Llama 2 70B, Mistral 7B, 그리고 Llama 3 시리즈 등 다수의 최신 고성능 모델들이 GQA를 핵심 아키텍처로 채택하고 있습니다.6

슬라이딩 윈도우 어텐션(Sliding Window Attention, SWA)은 Mistral 7B 모델에서 처음 도입되어 큰 주목을 받은 기법입니다.40 기존 어텐션이 시퀀스 내의 모든 토큰 쌍에 대해 계산을 수행하는 것과 달리, SWA는 각 토큰이 자신을 포함한 이전의 고정된 크기(window size,

W)의 토큰들에 대해서만 어텐션을 계산하도록 제한합니다.41

이 방식을 통해 어텐션 계산의 복잡도는 시퀀스 길이 n에 대해 $O(n^2)$에서 $O(n \times W)$로, 즉 선형적으로 감소합니다.21 비록 한 레이어에서는 제한된 범위의 토큰만 볼 수 있지만, 트랜스포머 레이어가 여러 겹 쌓이면서 정보가 점차 전파되어 결국에는 윈도우 크기보다 훨씬 먼 거리의 토큰 정보에도 간접적으로 접근할 수 있게 됩니다.42 또한, SWA는 필요한 KV 캐시의 크기를 고정된 윈도우 크기만큼으로 제한하는 ‘롤링 버퍼 캐시(Rolling Buffer Cache)’와 결합하여 메모리 사용량을 획기적으로 줄이면서도 긴 컨텍스트를 효과적으로 처리할 수 있게 해줍니다.40

오픈 소스 LLM 생태계는 몇몇 핵심적인 모델 패밀리를 중심으로 빠르게 확장 및 발전해 왔습니다. 이들 모델은 각기 다른 철학과 기술적 접근을 통해 생태계의 다양성을 형성하고 있으며, 개발자와 기업은 자신의 목적에 가장 부합하는 모델을 선택할 수 있는 폭넓은 기회를 갖게 되었습니다. 현재 시장은 단일 최강자가 지배하는 구도가 아니라, 범용성, 효율성, 특정 작업(코딩, 다국어, 추론 등)에 대한 전문성 등 다양한 차원에서 경쟁하는 다극화된 양상을 보이고 있습니다. 이는 사용자 입장에서 더 이상 ‘하나의 최고’ 모델을 찾는 것이 아니라, ‘특정 목적에 맞는 최적’의 모델을 선택하는 시대로의 전환을 의미합니다.

Meta의 Llama 시리즈는 오픈 소스 LLM 생태계의 성장을 견인한 가장 영향력 있는 모델군으로 평가받습니다. Llama의 등장은 오픈 소스 진영이 폐쇄형 모델과 본격적으로 경쟁할 수 있는 신호탄이었으며, 이후 Llama는 사실상 업계 표준에 가까운 위치를 차지하게 되었습니다.

Llama 2: 2023년 7월에 출시된 Llama 2는 7B, 13B, 70B 파라미터 모델로 구성되며, 이전 세대보다 학습 데이터 양을 40% 늘리고 컨텍스트 길이를 두 배로 확장했습니다.12 특히 대화형으로 파인튜닝된 Llama-2-Chat 모델은 인간의 피드백을 통한 강화 학습(RLHF)을 적용하여 유용성과 안전성을 크게 향상시켰으며, 이는 오픈 소스 챗봇의 성능을 한 단계 끌어올린 계기가 되었습니다.43
Llama 3: 2024년 4월에 공개된 Llama 3는 8B와 70B 모델로 출시되었습니다. 이 모델의 핵심적인 개선 사항은 효율성에 있습니다. 128,000개의 토큰으로 구성된 새로운 토크나이저를 채택하여 언어 처리 효율을 높였고, 8,192 토큰의 긴 시퀀스로 학습하며 Grouped-Query Attention (GQA)을 적용하여 추론 효율성을 개선했습니다.6 이를 통해 Llama 3 8B 모델은 이전 세대의 Llama 2 70B 모델과 필적하는 성능을 보여주기도 했습니다.
Llama 3.1 & Llama 4: Llama 3.1은 405B라는 거대한 파라미터 크기의 ‘밀집(dense)’ 모델을 공개하며 오픈 소스 모델의 성능 한계를 다시 한번 확장했습니다.7 128,000 토큰의 컨텍스트 창을 지원하여 방대한 양의 정보를 한 번에 처리할 수 있는 능력을 갖추었습니다. 더 나아가, 2025년 4월에 발표된 Llama 4 시리즈(Scout, Maverick)는 MoE 아키텍처를 도입하고, 컨텍스트 창을 1,000만 토큰까지 확장하며 이미지 처리 기능까지 추가하는 등 멀티모달 및 초장문 컨텍스트 시대로의 진입을 예고했습니다.7
장점: Llama 시리즈의 가장 큰 강점은 방대한 커뮤니티와 이를 기반으로 한 풍부한 생태계입니다. 수많은 파인튜닝 사례, 가이드, 그리고 지원 도구들이 존재하여 개발자들이 쉽게 모델을 활용하고 커스터마이징할 수 있습니다.44
단점: ‘Meta Llama 3 Community License’라는 커스텀 라이선스는 월간 활성 사용자(MAU)가 7억 명을 초과하는 대규모 서비스에서의 상업적 사용을 제한합니다.7 이는 Llama가 완전한 의미의 오픈 소스라기보다는 Meta의 생태계 확장을 위한 전략적 도구임을 시사합니다. 또한 초기 모델들은 영어 중심의 학습 데이터로 인해 다국어 지원이 상대적으로 취약하다는 평가를 받았습니다.

프랑스 파리의 스타트업 Mistral AI는 ‘파라미터 대비 성능’이라는 새로운 경쟁의 장을 열며 LLM 시장에 큰 파장을 일으켰습니다. 이들은 단순히 모델의 크기를 키우기보다, 아키텍처 최적화를 통해 작은 모델로도 뛰어난 성능을 달성할 수 있음을 증명했습니다.

Mistral 7B: 2023년 10월에 출시된 Mistral 7B는 73억 개의 파라미터만으로도 Llama 2 13B를 능가하고 Llama-1 34B와 경쟁하는 성능을 보여주었습니다.47 이러한 놀라운 효율성의 비결은 Sliding Window Attention (SWA)과 Grouped-Query Attention (GQA)이라는 두 가지 혁신적인 아키텍처에 있습니다. 이를 통해 긴 컨텍스트를 효율적으로 처리하고 추론 속도를 극대화했습니다.40
Mixtral 8x7B & 8x22B: 2023년 12월, Mistral AI는 희소 Mixture-of-Experts (SMoE) 아키텍처를 적용한 Mixtral 8x7B를 공개하며 다시 한번 시장을 놀라게 했습니다.7 이 모델은 총 467억 개의 파라미터를 가지고 있지만, 추론 시에는 각 토큰당 2개의 전문가만 활성화하여 129억 개의 파라미터만 사용합니다. 그 결과, Llama 2 70B 모델에 필적하는 성능을 보이면서도 추론 속도는 약 6배 더 빠른 경이적인 효율성을 달성했습니다.7 이후 공개된 Mixtral 8x22B는 이러한 성공을 더욱 확장한 모델입니다.6
장점: Mistral AI 모델들의 핵심 경쟁력은 압도적인 ‘가성비’, 즉 성능 대비 비용 효율성입니다. 또한, 상업적 활용에 제약이 거의 없는 Apache 2.0 라이선스를 채택하여 개발자 친화적인 환경을 제공합니다.6 특히 네이티브 함수 호출(Function Calling) 기능을 지원하여 외부 도구와 연동하는 AI 에이전트 개발에 매우 유리합니다.6
단점: 상대적으로 신생 주자이기 때문에 Llama 시리즈만큼 방대한 커뮤니티 자산이나 파인튜닝 사례가 축적되지는 않았습니다. 또한, 복잡한 논리 추론이나 특정 전문 분야의 지식 깊이 측면에서는 GPT-4와 같은 최상위 폐쇄형 모델에 비해 한계를 보일 수 있습니다.7

Google과 아랍에미리트(UAE)의 기술혁신연구소(TII)는 각각 막대한 자본과 연구 역량을 바탕으로 고품질의 오픈 소스 LLM을 시장에 선보였습니다.

Gemma (Google): Google의 폐쇄형 모델인 Gemini와 동일한 기술 및 인프라를 기반으로 개발된 오픈 모델 시리즈입니다.49 9B와 27B 파라미터 크기로 제공되며, 특히 27B 모델은 자신보다 두 배 이상 큰 모델과 유사한 성능을 보이면서도 효율적인 추론이 가능하도록 설계되었습니다.6 Gemma의 가장 큰 특징은 ‘책임감 있는 AI(Responsible AI)’ 개발에 중점을 둔다는 점입니다. Google은 모델과 함께 유해 콘텐츠 필터링을 위한 ‘ShieldGemma’, 모델의 내부 작동 방식을 분석하는 ‘Gemma Scope’와 같은 도구들을 함께 제공하여 개발자들이 더 안전하고 신뢰할 수 있는 AI를 만들 수 있도록 지원합니다.49 Apache 2.0 라이선스를 채택하여 상업적 사용이 자유롭고, TensorFlow, PyTorch, JAX 등 주요 AI 프레임워크와의 높은 호환성을 자랑합니다.6
Falcon (TII): UAE의 국책 연구소인 TII가 개발한 Falcon 시리즈는 한때 180B 모델이 허깅페이스 오픈 LLM 리더보드 1위를 차지하며 큰 주목을 받았습니다.7 Falcon의 성능 비결 중 하나는 ‘RefinedWeb’이라는 5조 토큰 규모의 방대하고 정제된 웹 데이터셋으로 학습했다는 점입니다.50 최근 출시된 Falcon 2는 멀티모달 기능을 추가하여 이미지와 텍스트를 함께 처리할 수 있으며(Vision-to-Language Model), Falcon Mamba는 트랜스포머 아키텍처의 대안으로 주목받는 상태 공간 모델(SSM)을 도입하는 등 기술적 혁신을 지속하고 있습니다.6

중국의 기술 기업들 역시 글로벌 오픈 소스 LLM 경쟁에서 두각을 나타내고 있으며, 특히 다국어 처리와 코딩/수학 같은 논리적 추론 능력에서 강점을 보이고 있습니다.

Qwen (Alibaba): ‘통이치엔원(通義千問)’으로도 알려진 Qwen은 0.5B부터 110B에 이르는 매우 폭넓은 파라미터 크기의 모델군을 제공하며, MoE 아키텍처를 적용한 모델도 포함하고 있습니다.6 Qwen 2.5는 30개 이상의 언어를 지원하며, 특히 다국어 벤치마크에서 뛰어난 성능을 보여 글로벌 서비스를 지향하는 개발자들에게 매력적인 선택지를 제공합니다.7 또한, 최대 128K에 달하는 긴 컨텍스트 창을 지원하여 방대한 문서를 처리하는 데 유리합니다.7 다만, 일부 모델은 상업적 사용에 제한이 있는 자체 연구용 라이선스를 채택하고 있어 사용 전 확인이 필수적입니다.6
DeepSeek: DeepSeek AI는 코딩과 수학 등 고도의 추론 능력이 요구되는 작업에 특화된 모델을 개발하는 데 집중하고 있습니다. DeepSeek-Coder V2와 DeepSeek-R1은 관련 벤치마크에서 OpenAI의 모델들과 경쟁하며 최상위권 성능을 기록했습니다.47 이들 모델은 효율적인 MoE 아키텍처를 적극적으로 활용하며, 허용적인 MIT 라이선스를 채택하여 개방성이 매우 높다는 장점이 있습니다.50

상업적 기업들이 주도하는 오픈 가중치 모델 생태계와는 별개로, 비영리 연구 집단인 EleutherAI는 AI 기술의 완전한 투명성과 재현성을 목표로 활동하고 있습니다. 이들은 ‘진정한 오픈 소스’를 지향하며, 커뮤니티에 귀중한 자산을 제공해왔습니다.

GPT-Neo, GPT-J, GPT-NeoX, Pythia: 이 모델들은 GPT-3의 강력한 성능에 영감을 받아, 누구나 접근하고 연구할 수 있는 대안을 만들고자 하는 목표로 개발되었습니다.6 이들은 모델의 가중치뿐만 아니라 학습 코드와 방법론을 공개하여, 학계와 커뮤니티가 LLM의 내부 작동 방식을 깊이 있게 탐구하고 재현할 수 있는 기반을 마련했습니다.
The Pile 데이터셋: EleutherAI의 가장 중요한 기여 중 하나는 ‘The Pile’이라는 대규모 고품질 텍스트 데이터셋을 구축하고 공개한 것입니다.52 약 825 GiB에 달하는 이 데이터셋은 학술 논문(arXiv), 서적(Books3), 웹 텍스트(OpenWebText2), 코드(Github) 등 22개의 다양한 소스로부터 데이터를 수집하여 구성되었습니다.54 The Pile은 모델 학습 데이터의 출처와 구성을 투명하게 공개함으로써, 모델의 편향을 분석하고 재현 가능한 연구를 수행하는 데 결정적인 역할을 했습니다.55

이러한 노력은 상업적 이익보다는 순수한 연구와 기술 민주화에 초점을 맞추고 있으며, 오픈 소스 LLM 생태계의 건강한 발전을 위한 중요한 축을 담당하고 있습니다.

Table 1: 주요 오픈 소스 LLM 종합 비교

모델명 (Model)	개발사 (Developer)	파라미터 수 (Parameters)	아키텍처 특징 (Architecture)	컨텍스트 창 (Context Window)	라이선스 (License)
Llama 3.1 8B/70B	Meta	8B, 70B	Dense, GQA	128K	Llama 3 Community License
Llama 3.1 405B	Meta	405B	Dense, GQA	128K	Llama 3 Community License
Llama 4 Maverick	Meta	17B (active), 400B (total)	MoE, Multimodal	10M	Custom (MAU > 700M 제한)
Mistral 7B Instruct	Mistral AI	7B	Dense, GQA, SWA	32K	Apache 2.0
Mixtral 8x7B Instruct	Mistral AI	12.9B (active), 46.7B (total)	Sparse MoE (SMoE)	32K	Apache 2.0
Mixtral 8x22B Instruct	Mistral AI	39B (active), 141B (total)	Sparse MoE (SMoE)	64K	Apache 2.0
Gemma 2 9B/27B Instruct	Google	9B, 27B	Dense	8K	Apache 2.0
Falcon 2 11B	TII	11B	Dense, Multilingual	8K	Apache 2.0
Qwen 2.5 72B Instruct	Alibaba	72B	Dense, Multilingual	32K (128K with YaRN)	Apache 2.0
DeepSeek-Coder V2	DeepSeek AI	16B (active), 236B (total)	MoE, Code-specialized	128K	MIT License
Phi-3-mini-128k-instruct	Microsoft	3.8B	Dense (SLM), Synthetic Data	128K	MIT License

주: 파라미터 수는 모델의 instruction-tuned 버전을 기준으로 하며, 일부 값은 근사치일 수 있습니다. 라이선스는 변경될 수 있으므로 사용 전 반드시 공식 출처를 확인해야 합니다. 6

거대 언어 모델(LLM)의 경쟁이 파라미터 크기를 늘리는 방향으로 치닫는 동안, 반대편에서는 ‘작지만 강한’ 모델, 즉 소형 언어 모델(Small Language Models, SLM)이 새로운 가능성을 제시하며 부상하고 있습니다. SLM의 등장은 ‘하나의 모델이 모든 것을 해결한다’는 기존의 패러다임에서 벗어나, ‘최적의 도구를 적재적소에 사용한다’는 실용주의적 접근으로의 전환을 의미합니다. 모든 작업에 가장 큰 모델을 사용하는 것이 비효율적이라는 인식이 확산되면서, 개발자들은 작업의 복잡성과 요구사항에 따라 다양한 크기의 모델을 선택하는 ‘모델 포트폴리오’ 관리 시대로 진입하고 있습니다.

Microsoft의 Phi 시리즈는 SLM의 잠재력을 가장 잘 보여주는 대표적인 사례입니다. Phi는 “데이터의 품질이 모델의 크기보다 중요하다”는 철학을 바탕으로 개발되었습니다.49

특징 및 학습 전략: Phi-3는 3.8B(Mini), 7B(Small), 14B(Medium) 등 다양한 크기로 제공됩니다.57 이 모델의 가장 큰 특징은 학습 데이터에 있습니다. 엄격하게 필터링된 고품질의 웹 데이터와 함께, 수학, 코딩, 상식 추론 등 특정 능력을 가르치기 위해 더 큰 LLM을 사용하여 생성한 방대한 양의 ‘교과서 같은(textbook-like)’ 합성 데이터(synthetic data)를 적극적으로 활용합니다.57 이 전략을 통해 Phi-3는 작은 크기에도 불구하고 Mixtral 8x7B나 GPT-3.5와 같은 훨씬 큰 모델에 필적하는 뛰어난 추론 및 언어 이해 능력을 보여줍니다.58
장점: 온디바이스 AI의 실현: Phi-3의 가장 큰 장점은 낮은 계산 요구사항 덕분에 강력한 서버 없이 스마트폰, 노트북, IoT 기기 등 엣지 디바이스에서 직접 실행(온디바이스 AI)이 가능하다는 점입니다.16 이는 여러 가지 중요한 이점을 제공합니다:
1. 데이터 프라이버시 강화: 사용자 데이터가 외부 서버로 전송되지 않고 기기 내에서 처리되므로 개인정보 보호에 매우 유리합니다.62
2. 낮은 지연 시간(Low Latency): 네트워크 통신 없이 즉각적인 응답이 가능하여 실시간 상호작용이 중요한 챗봇이나 음성 비서 애플리케이션에 적합합니다.16
3. 오프라인 작동: 인터넷 연결이 없는 환경에서도 AI 기능을 사용할 수 있어 활용 범위가 넓어집니다.64
4. 비용 효율성: 지속적인 API 호출 비용이나 서버 유지 비용 없이 AI 기능을 제공할 수 있어 경제적입니다.62
단점 및 한계: Phi-3는 주로 영어 데이터, 특히 파이썬 코드 중심으로 학습되었기 때문에 다른 언어나 프로그래밍 언어에 대한 성능은 상대적으로 떨어질 수 있습니다.56 또한, 방대한 지식을 요구하는 특정 전문 분야에서는 대형 모델만큼의 깊이와 정확성을 보여주지 못할 수 있습니다.

글로벌 기업들이 개발한 LLM은 대부분 영어 중심의 데이터로 학습되기 때문에, 한국의 고유한 문화적 맥락, 사회적 뉘앙스, 최신 정보, 전문 용어를 정확하게 이해하고 생성하는 데 명백한 한계를 보입니다.65 이로 인해 부정확한 정보를 생성하는 ‘환각(Hallucination)’ 현상이 더 자주 발생할 수 있습니다. 이러한 문제를 해결하기 위해 국내 기업과 연구 기관들은 한국어 데이터에 집중적으로 학습시킨 특화 LLM을 개발하고, 이를 오픈 소스로 공개하며 국내 AI 생태계 발전에 기여하고 있습니다.

Upstage SOLAR: 국내 AI 스타트업 업스테이지가 개발한 SOLAR는 오픈 소스 한국어 LLM의 기술력을 세계적으로 입증한 대표적인 모델입니다. SOLAR 10.7B는 Mistral 7B 모델을 기반으로 ‘Depth Up-scaling’이라는 독자적인 심층 확장 기법을 적용하여 10.7B 파라미터 모델로 확장했습니다.66 이 모델은 공개 직후 허깅페이스의 오픈 LLM 리더보드에서 1위를 차지하며, 작은 크기에도 불구하고 GPT-3.5를 넘어서는 성능을 보여주었습니다.65 GPU 한 장으로도 구동이 가능할 정도로 경량화되어 있어, 데이터 유출 우려 없이 기업 내부 서버에 직접 설치하여 활용하는 온프레미스 환경에 매우 적합합니다.65 Apache 2.0 라이선스로 공개되어 상업적 활용이 자유롭다는 점도 큰 장점입니다.65
Kakao Kanana: 카카오는 자체 개발한 경량 모델 Kanana를 2024년 5월, Kanana 1.5 버전으로 업그레이드하며 Apache 2.0 라이선스로 공개했습니다.65 2.1B 및 8B 파라미터 모델로 제공되는 Kanana 1.5는 특히 코딩, 수학 문제 풀이, 함수 호출(Function Calling) 등 ‘에이전틱 AI(Agentic AI)’ 구현에 필요한 기능을 대폭 강화한 것이 특징입니다.65 이는 단순한 텍스트 생성을 넘어 LLM이 실제적인 작업을 수행하는 도구로 활용될 수 있도록 한 것입니다. 한국어에 대한 깊은 이해를 바탕으로 글로벌 오픈 소스 모델들과 동등한 수준의 성능을 목표로 개발되었으며, 국내 기업들이 이를 기반으로 다양한 응용 서비스를 개발할 수 있는 좋은 플랫폼을 제공합니다.65
기타 국내 모델: 대기업들도 국내 AI 생태계 활성화에 동참하고 있습니다. LG AI연구원은 전문가용 고성능 모델부터 온디바이스용 초경량 모델까지 다양한 크기의 EXAONE 3.5를 공개했으며, 비상업적 연구 목적으로 사용 가능합니다.71 네이버는 자사의 주력 모델인 하이퍼클로바X를 기반으로 한 경량 모델 ‘HyperCLOVA X-SEED’를 상업적 활용이 가능하도록 공개하여 중소 규모 비즈니스의 AI 도입을 지원하고 있습니다.71

이러한 한국어 특화 LLM들은 글로벌 모델이 채우지 못하는 언어적, 문화적 간극을 메우며 국내 AI 기술의 자립과 생태계 발전에 중요한 역할을 하고 있습니다.

Table 2: 한국어 특화 LLM 성능 비교

모델명 (Model)	개발사 (Developer)	기반 모델 (Base Model)	파라미터 수 (Parameters)	라이선스 (License)	주요 특징 (Key Features)
Upstage SOLAR-10.7B	Upstage	Mistral 7B	10.7B	Apache 2.0	Depth Up-scaling 기술 적용, 허깅페이스 리더보드 1위 달성, 경량 고효율, 온프레미스에 적합
Kakao Kanana 1.5	Kakao	자체 개발	2.1B, 8B	Apache 2.0	에이전틱 AI 기능(코딩, 수학, 함수 호출) 강화, 우수한 한국어 이해도, 상업적 활용 용이
LG EXAONE 3.5	LG AI연구원	자체 개발	2.4B, 7.8B, 32B	EXAONE AI Model License 1.1 - NC	온디바이스부터 고성능까지 다양한 크기 제공, 수학/코딩 능력 우수, 비상업적 연구용
Naver HyperCLOVA X-SEED	Naver	HyperCLOVA X	공개되지 않음	Custom (상업적 활용 가능)	한국어 및 한국 문화 이해도 탁월, 명령어 추종 기능 우수, 국내 AI 생태계 활성화 목적

주: 각 모델의 라이선스 및 사용 조건은 공개 시점에 따라 변경될 수 있으므로, 실제 사용 전 반드시 공식 문서를 통해 최신 정보를 확인해야 합니다. 65

언어 모델의 발전은 텍스트의 영역을 넘어 시각, 청각 등 인간의 다양한 감각 정보를 통합적으로 이해하고 처리하는 다중모달(Multimodal) AI로 확장되고 있습니다. 특히 텍스트와 이미지를 함께 이해하는 비전-언어 모델(Vision-Language Models, VLM)은 오픈 소스 진영에서도 가장 활발하게 연구되고 있는 분야 중 하나입니다. VLM의 발전은 ‘데이터 중심 AI’ 철학의 중요성을 다시 한번 입증하고 있습니다. 정교한 아키텍처 혁신만큼이나, 혹은 그 이상으로 학습에 사용되는 데이터의 양, 질, 그리고 전략적인 구성 방식이 모델의 최종 성능을 결정하는 핵심 요소로 작용하고 있습니다.

VLM은 사용자가 이미지와 함께 텍스트로 질문을 던지면, 이미지를 이해하고 그에 맞는 텍스트 답변을 생성하는 모델입니다. 예를 들어, 음식 사진을 보여주며 “이 요리의 레시피를 알려줘”라고 질문하거나, 복잡한 도표를 보여주며 “이 차트의 핵심 인사이트를 요약해줘”라고 요청하는 것이 가능합니다.72

기본 구조: 대부분의 VLM은 모듈화된 아키텍처를 따릅니다.74
1. 비전 인코더(Vision Encoder): 입력된 이미지의 시각적 특징을 추출하여 벡터 형태로 변환하는 역할을 합니다. 주로 CLIP 73이나 SigLIP 72과 같이 사전 학습된 강력한 비전 모델이 사용됩니다.
2. 언어 모델(Language Model): 텍스트 프롬프트와 비전 인코더로부터 전달받은 이미지 특징 벡터를 함께 입력받아 최종적인 텍스트 응답을 생성합니다. Llama, Mistral 등 기존의 강력한 LLM이 이 역할을 수행합니다.
3. 프로젝터/어댑터(Projector/Adapter): 비전 인코더가 생성한 시각 특징 벡터를 언어 모델이 이해할 수 있는 차원과 형식으로 변환해주는 ‘번역기’ 역할을 하는 작은 신경망입니다. 이 연결고리가 두 이질적인 모달리티를 효과적으로 융합하는 핵심 기술입니다.75
주요 모델 분석:
- LLaVA-NeXT: LLaVA(Large Language and Vision Assistant)는 VLM의 대중화를 이끈 대표적인 오픈 소스 모델입니다.75 특히 LLaVA-NeXT(LLaVA-1.6)는 이전 버전에 비해 입력 이미지 해상도를 4배 높여 더 세밀한 시각 정보를 파악할 수 있게 했고, 데이터 혼합 방식을 개선하여 OCR(광학 문자 인식) 및 상식 추론 능력을 크게 향상시켰습니다.76 LLaVA의 성공 비결 중 하나는 GPT-4와 같은 강력한 모델을 활용하여 고품질의 멀티모달 지시-응답 데이터셋(instruction-following dataset)을 대규모로 생성하고, 이를 학습에 활용한 ‘데이터 중심’ 전략에 있습니다.73
- IDEFICS 2: Hugging Face가 주도하여 개발한 8B 파라미터의 VLM으로, Apache 2.0 라이선스로 공개되어 개방성이 높습니다.77 이 모델은 이미지를 정사각형으로 강제 변환하지 않고 원본 해상도와 비율을 최대한 유지하는 NaViT(Native Resolution Vision Transformer) 전략을 채택하여 이미지 정보의 왜곡을 최소화했습니다.78 또한, 웹 문서, 이미지-캡션 쌍, OCR 데이터, 이미지-코드 데이터 등 다양한 소스의 데이터를 전략적으로 혼합하여 학습함으로써 다재다능한 능력을 갖추게 되었습니다.77
- Florence-2: Microsoft가 개발한 Florence-2는 0.23B(base)와 0.77B(large)라는 매우 작은 크기에도 불구하고 뛰어난 성능을 자랑하는 초경량 VLM입니다.80 이 모델의 가장 큰 특징은 이미지 캡셔닝, 객체 탐지, 세분화(segmentation), OCR 등 수많은 개별 비전 작업을 <OD>, <CAPTION>과 같은 통일된 텍스트 프롬프트 기반의 시퀀스-투-시퀀스(sequence-to-sequence) 프레임워크로 통합했다는 점입니다.80 Florence-2의 강력한 성능은 복잡한 아키텍처가 아닌, 1억 2,600만 개의 이미지에 54억 개의 바운딩 박스, 마스크, 캡션 등 포괄적인 주석을 단 ‘FLD-5B’라는 방대한 고품질 데이터셋에서 비롯됩니다.82 이는 VLM의 성능 향상에 있어 데이터의 질과 구성이 얼마나 중요한지를 명확히 보여주는 사례입니다.
- 기타 주요 VLM: 이 외에도 긴 비디오(최대 1시간)를 처리할 수 있는 Qwen 2.5 VL 72, 여러 장의 이미지를 동시에 입력받아 추론하는 Pixtral 72, 그리고 온디바이스 환경에 최적화된 Phi-4 Multimodal 72 등 다양한 특장점을 가진 오픈 소스 VLM들이 등장하며 치열하게 경쟁하고 있습니다.

이처럼 VLM 분야의 발전은 미래의 AI가 텍스트를 넘어 인간처럼 보고, 읽고, 이해하는 방향으로 나아가고 있음을 보여줍니다. 특히, 고품질의 대규모 멀티모달 데이터셋을 구축하고 이를 효과적으로 활용하는 능력이 향후 VLM 경쟁의 승패를 가를 핵심 요소가 될 것으로 전망됩니다.

오픈 소스 LLM의 진정한 가치는 모델 자체의 성능을 넘어, 이를 실제 환경에서 ‘실행 가능하게’ 만들고, 특정 목적에 맞게 ‘커스터마이징’하며, 외부 세계와 ‘연결’하여 실질적인 문제를 해결하는 능력에 있습니다. 이러한 과정에는 하드웨어에 대한 이해, 모델 압축 기술, 효율적인 파인튜닝 기법, 그리고 에이전트 프레임워크에 대한 지식이 필수적입니다. 이 모든 요소들이 유기적으로 결합하여, 폐쇄형 API가 제공하기 어려운 깊이의 유연성과 통제력을 사용자에게 부여합니다.

강력한 오픈 소스 모델이 존재하더라도, 이를 구동할 하드웨어가 없다면 무용지물입니다. LLM을 실행하는 데 있어 가장 큰 병목은 그래픽 처리 장치(GPU)의 비디오 메모리(VRAM)입니다.83

VRAM 요구사항: 모델을 메모리에 로드하는 데 필요한 VRAM의 양은 기본적으로 ‘파라미터 수 × 파라미터당 바이트 수’로 결정됩니다. 예를 들어, 70억(7B) 개의 파라미터를 가진 모델을 표준 반정밀도(FP16, 파라미터당 2바이트)로 로드하려면 최소 7B×2 bytes≈14GB의 VRAM이 필요합니다. 70B 모델의 경우 약 140GB가 필요하여, 일반적인 단일 소비자용 GPU로는 실행이 불가능합니다.84
양자화(Quantization): 이 문제를 해결하는 핵심 기술이 바로 양자화입니다. 양자화는 모델의 가중치를 표현하는 숫자의 정밀도(precision)를 낮추어 모델의 크기를 줄이는 압축 기법입니다.87 예를 들어, 16비트 부동소수점(FP16)으로 저장된 가중치를 4비트 정수(INT4)로 변환하면, 모델의 크기는 이론적으로 1/4로 줄어듭니다. 7B 모델의 경우 14GB에서 약 3.5GB로 VRAM 요구사항이 크게 감소하여 일반적인 소비자용 GPU에서도 실행이 가능해집니다.85 물론 이 과정에서 약간의 성능 저하가 발생할 수 있지만, 최신 양자화 기술들은 그 손실을 최소화하고 있습니다.18
주요 양자화 포맷 비교: 현재 오픈 소스 커뮤니티에서는 여러 양자화 포맷이 경쟁하고 있으며, 각각의 특징은 다음과 같습니다.

Table 3: 모델 양자화 기법 비교

기법 (Technique)	주요 특징 (Key Features)	대상 하드웨어 (Target Hardware)	일반적인 비트 수 (Common Bit-rates)	장점 (Pros)	단점 (Cons)
GGUF	llama.cpp에서 사용하는 포맷. 모델의 일부 레이어만 GPU에 올리는(offloading) 유연한 메모리 관리 가능.	CPU, GPU (특히 Apple Silicon에 최적화)	2-bit ~ 8-bit	CPU만으로도 구동 가능, 하드웨어 유연성 높음.	순수 GPU 환경에서는 GPTQ/AWQ 대비 속도가 느릴 수 있음.
GPTQ	후-학습 양자화(PTQ) 기법. 2차 정보 근사를 통해 양자화 오류를 최소화하여 정확도를 보존.	NVIDIA/AMD GPU	2-bit, 3-bit, 4-bit, 8-bit	빠른 추론 속도, 높은 압축률에도 비교적 정확도 손실이 적음.	양자화 과정이 상대적으로 느리고 복잡할 수 있음.
AWQ	활성화 인식 가중치 양자화. 모델의 성능에 중요한 ‘ salient’ 가중치를 식별하고 보호하여 정확도 손실을 최소화.	NVIDIA/AMD GPU	4-bit	지시-튜닝된 모델에서 특히 우수한 성능을 보임, GPTQ보다 빠른 경우도 있음.	모든 모델 아키텍처에 최적화되어 있지는 않을 수 있음.

주: 각 양자화 기법의 성능은 모델 아키텍처, 하드웨어, 그리고 사용되는 소프트웨어 라이브러리에 따라 달라질 수 있습니다. [90, 91, 92, 93]

범용으로 사전 학습된 LLM은 특정 비즈니스나 도메인의 요구사항을 완벽하게 충족시키지 못하는 경우가 많습니다. 이때 필요한 것이 바로 ‘파인튜닝(Fine-tuning)’입니다. 하지만 수십억 개의 파라미터 전체를 재학습시키는 것은 막대한 계산 자원을 필요로 합니다.

PEFT (Parameter-Efficient Fine-Tuning): 이 문제를 해결하기 위해 등장한 것이 PEFT, 즉 ‘파라미터 효율적 파인튜닝’입니다. PEFT는 모델의 전체 파라미터는 그대로 두고(동결, freeze), 소수의 추가 파라미터나 특정 부분만 학습시켜 모델을 특정 작업에 적응시키는 기법들의 총칭입니다.94
LoRA (Low-Rank Adaptation): LoRA는 가장 널리 사용되는 PEFT 기법 중 하나입니다.96 LoRA의 핵심 아이디어는 파인튜닝 과정에서 발생하는 원본 가중치 행렬(

W0)의 변화량(ΔW)이 ‘낮은 내재적 차원(low intrinsic rank)’을 갖는다는 관찰에서 출발합니다. 즉, 거대한 ΔW 행렬을 두 개의 훨씬 작은 저계수(low-rank) 행렬 A와 B의 곱(ΔW=BA)으로 근사할 수 있다는 것입니다.95 파인튜닝 시에는 거대한 원본 가중치

W0는 동결하고, 훨씬 적은 수의 파라미터를 가진 작은 행렬 A와 B만을 학습시킵니다. 이로써 학습해야 할 파라미터 수를 99% 이상 줄일 수 있어 GPU 메모리 요구사항을 3배가량 감소시키고 학습 속도를 높일 수 있습니다.96
QLoRA (Quantized LoRA): QLoRA는 LoRA의 효율성을 극한으로 끌어올린 기법입니다.94 QLoRA는 먼저 4비트로 양자화된 매우 가벼운 기본 모델을 메모리에 로드합니다. 그런 다음, 이 양자화된 모델 위에 LoRA 어댑터(행렬 A, B)를 추가하여 파인튜닝을 진행합니다. 이때 LoRA 어댑터 자체는 FP16과 같은 더 높은 정밀도로 학습되어 성능 저하를 최소화합니다.98 이 방식을 통해 Llama 2 70B와 같은 거대 모델도 24GB VRAM을 가진 단일 소비자용 GPU에서 파인튜닝하는 것이 가능해졌으며, 이는 AI 모델의 개인화 및 커스터마이징에 대한 접근성을 극적으로 높인 혁신으로 평가받습니다.99

최신 LLM은 단순히 텍스트를 생성하는 것을 넘어, 외부 도구와 상호작용하며 복잡한 목표를 자율적으로 수행하는 ‘AI 에이전트’로 진화하고 있습니다.

함수 호출 (Function Calling): 이는 LLM이 사전에 정의된 외부 함수나 API를 호출할 수 있게 하는 기능입니다.100 예를 들어, “오늘 파리의 날씨는 어때?”라는 질문을 받으면, LLM은 텍스트로 답을 지어내는 대신

get_weather(city="Paris")와 같은 함수를 호출하고, 그 반환값을 바탕으로 사용자에게 정확한 정보를 전달합니다. Mistral, Command R+, Llama 4 등 최신 오픈 소스 모델들은 이 기능을 내장하고 있어, 개발자들이 LLM을 중심으로 하는 자동화 워크플로우를 쉽게 구축할 수 있도록 지원합니다.49
ReAct (Reason + Act) 프레임워크: ReAct는 LLM이 더 복잡한 다단계 작업을 수행할 수 있도록 하는 강력한 프롬프팅 프레임워크입니다.103 ReAct는 LLM이

‘생각(Thought) –» 행동(Action) –» 관찰(Observation)’ 이라는 명시적인 순환 구조를 따르도록 유도합니다.104
1. Thought: 현재 주어진 문제와 목표를 분석하고, 다음 행동 계획을 수립합니다. (예: “사용자가 애플의 주가를 물었으니, 금융 정보 API를 사용해야겠다.”)
2. Action: 수립한 계획에 따라 특정 도구(함수)를 호출합니다. (예: search_stock_price(ticker="AAPL"))
3. Observation: 도구 호출의 결과를 입력으로 받습니다. (예: “AAPL의 현재 주가는 $215.50입니다.”)
4. 이 관찰 결과를 바탕으로 다시 Thought 단계로 돌아가 최종 답변을 생성하거나 다음 행동을 계획합니다.
이러한 과정을 통해 LLM은 내부적인 추론(Chain-of-Thought)과 외부 세계와의 상호작용을 결합하여, 스스로 계획을 세우고, 정보를 수집하며, 예외 상황에 대처하는 등 훨씬 더 지능적인 문제 해결 능력을 보여줍니다.105 LangChain과 같은 여러 오픈 소스 프레임워크에서 ReAct 에이전트를 쉽게 구현할 수 있는 도구를 제공합니다.104

오픈 소스 LLM의 급속한 발전은 놀라운 가능성을 열어주었지만, 동시에 해결해야 할 복잡한 도전 과제와 윤리적 딜레마를 수면 위로 끌어올렸습니다. 모델의 성능을 어떻게 신뢰성 있게 평가할 것인가의 문제부터, 모델에 내재된 편향과 유해성, 그리고 기술의 자유로운 접근이 초래할 수 있는 책임의 문제에 이르기까지, 생태계의 지속 가능한 발전을 위해 반드시 짚고 넘어가야 할 쟁점들이 산재해 있습니다.

모델의 성능을 객관적으로 측정하고 비교하기 위해 다양한 벤치마크와 이를 종합한 리더보드가 활용됩니다. 허깅페이스의 Open LLM Leaderboard나 국내의 Open Ko-LLM Leaderboard는 개발자들이 자신의 모델 성능을 검증하고 다른 모델과 비교하는 중요한 기준으로 자리 잡았습니다.107

리더보드의 한계: 하지만 이러한 리더보드 중심의 평가는 여러 한계를 드러내고 있습니다. 첫째, MMLU(Massive Multitask Language Understanding)와 같은 전통적인 벤치마크는 최신 모델들의 성능이 상향 평준화되면서 점수가 거의 포화 상태에 이르렀습니다.111 이로 인해 점수 차이가 실제 성능 차이를 유의미하게 반영하지 못하는 경우가 많습니다. 둘째, 더 심각한 문제는 일부 모델 개발자들이 리더보드 점수를 높이기 위해 벤치마크의 평가 데이터셋을 모델 학습에 몰래 포함시키는 ‘데이터 오염(data contamination)’ 또는 ‘벤치마크에 대한 과적합(overfitting)’ 문제가 발생하고 있다는 점입니다.112 이는 리더보드 점수는 높지만 실제 사용자가 체감하는 성능은 떨어지는 괴리를 유발합니다.
새로운 평가 패러다임: 이러한 문제를 극복하기 위해 새로운 평가 방식들이 주목받고 있습니다. LMSYS가 운영하는 Chatbot Arena는 두 모델의 익명 응답을 사용자가 직접 비교하여 선호도를 평가하고, 이를 바탕으로 Elo 점수를 매기는 방식입니다.113 이는 정량적 벤치마크가 놓치는 미묘한 품질 차이나 대화의 자연스러움을 포착할 수 있다는 장점이 있습니다. 또한, 실제 GitHub의 이슈를 해결하는 능력을 평가하는

SWE-Bench 111, 오염되지 않은 데이터로 실시간 코딩 능력을 측정하는

LiveCodeBench 114, 그리고 복잡한 함수 호출 능력을 평가하는

Berkeley Function Calling Leaderboard 115 등 실제 세계의 복잡한 작업을 시뮬레이션하는 실용적인 벤치마크의 중요성이 갈수록 커지고 있습니다.

오픈 소스 AI의 ‘자유’는 필연적으로 ‘책임’의 문제를 동반합니다. 모델의 개방성이 높아질수록, 모델을 안전하고 윤리적으로 사용하는 것에 대한 책임은 모델을 개발한 소수의 기업에서 모델을 다운로드하여 사용하는 다수의 개인과 조직으로 이동하게 됩니다.

내재된 편향과 안전성 정렬: LLM은 인터넷에서 수집한 방대한 텍스트 데이터를 기반으로 학습하기 때문에, 현실 세계에 존재하는 인종, 성별, 종교, 장애 등에 대한 편견과 고정관념을 그대로 학습하고 심지어 증폭시킬 위험이 있습니다.116 개발사들은 이러한 문제를 완화하기 위해

안전성 정렬(Safety Alignment) 과정을 거칩니다. 이 과정에는 인간의 피드백을 통해 모델을 강화 학습시키는 RLHF(Reinforcement Learning from Human Feedback)나, RLHF의 복잡성과 불안정성을 개선한 DPO(Direct Preference Optimization)와 같은 기법이 사용됩니다.118 Llama 3와 같은 모델은 출시 전 광범위한

레드팀(Red Teaming), 즉 전문가들이 의도적으로 모델의 취약점을 공격하여 유해한 반응을 유도하고 이를 보완하는 과정을 거쳐 안전성을 강화합니다.120
검열과 표현의 자유: 하지만 이러한 안전장치는 특정 문화권(주로 서구권)의 가치관을 기준으로 무엇이 ‘유해한가’를 판단하는 일종의 ‘검열’로 작용할 수 있다는 비판에 직면합니다.122 예를 들어, 특정 정치적, 종교적 주제에 대해 모델이 답변을 회피하도록 학습시키는 것은 정보 접근을 제한하고 표현의 자유를 침해할 소지가 있습니다. 이러한 문제의식에서 출발하여, 개발자들이 의도적으로 안전 필터를 제거하거나 완화한

‘비검열(uncensored)’ 모델들이 등장했습니다.123 이 모델들은 사용자가 더 넓은 범위의 주제를 탐색할 수 있는 자유를 제공하지만, 동시에 혐오 발언, 허위 정보, 불법적인 콘텐츠 생성 등 오남용의 위험성을 내포하고 있어 첨예한 윤리적 논쟁을 불러일으키고 있습니다.124
파인튜닝의 위험: 더 큰 문제는, 안전하게 정렬된 모델이라 할지라도 사용자가 자신의 데이터로 파인튜닝하는 과정에서 안전 장치가 의도치 않게 손상될 수 있다는 점입니다.126 완전히 무해한 데이터셋으로 파인튜닝하더라도 모델의 내부 가중치가 변경되면서 기존의 안전 정렬이 약화되고, 예상치 못한 편향이나 유해한 행동이 나타날 수 있습니다. 따라서 오픈 소스 모델을 사용하는 기업이나 개발자는 모델이 생성하는 결과물에 대한 법적, 윤리적 책임을 직접적으로 지게 되며, 이는 ‘자유로운 사용’이라는 장점의 이면에 있는 ‘무거운 책임’을 명확히 보여줍니다.

LLM의 발전은 눈부시지만, 그 이면에는 심각한 환경적 비용이 존재합니다.

탄소 발자국: 수십억, 수천억 개의 파라미터를 가진 거대 모델을 학습시키는 데는 데이터센터의 막대한 전력 소비가 필수적이며, 이는 상당한 양의 탄소 배출로 이어집니다.127 한 연구에 따르면, 대형 모델 하나를 학습시키는 과정에서 발생하는 탄소 배출량은 자동차 여러 대가 평생 배출하는 양과 맞먹을 수 있습니다.128
지속 가능한 AI를 향한 노력: 이러한 문제는 AI 기술의 지속 가능성에 대한 중요한 질문을 제기합니다. MoE, SLM, 양자화, 효율적인 어텐션 메커니즘 등 모델의 계산 효율성을 높이는 기술들은 단순히 성능과 비용의 문제를 넘어, AI의 환경적 발자국을 줄이는 데에도 핵심적인 역할을 합니다. 앞으로 에너지 효율적인 하드웨어 개발과 알고리즘 최적화는 AI 분야의 중요한 연구 방향이 될 것입니다.

오픈 소스 거대 언어 모델 생태계는 기술적 성숙과 시장의 재편이라는 두 가지 축을 중심으로 역동적인 미래를 맞이하고 있습니다. 최첨단 성능을 자랑하는 폐쇄형 모델과의 치열한 경쟁 속에서 오픈 소스 모델은 고유의 강점을 바탕으로 독자적인 영역을 구축하고 있으며, 이는 AI 산업 전체의 구조적 변화를 예고하고 있습니다. 기초 모델의 성능이 상향 평준화되면서 경쟁의 장은 ‘모델 개발’에서 ‘모델 활용’으로 이동하고 있으며, 이는 AI 민주화의 최종 단계로 볼 수 있습니다.

오픈 소스 LLM의 성능이 비약적으로 발전하면서, 최상위 폐쇄형 모델과의 성능 격차는 점차 줄어들고 있습니다. 한 기업 설문조사에 따르면, 다수의 기업이 오픈 소스 모델의 성능이 폐쇄형 모델과 대등해질 경우 적극적으로 전환할 의향이 있다고 밝혔습니다.14 이는 두 진영 간의 경쟁이 더욱 치열해질 것을 시사합니다.

각자의 해자(Moat) 구축: 두 생태계는 각기 다른 경쟁 우위, 즉 ‘해자’를 구축하며 공존할 가능성이 높습니다.
- 폐쇄형 모델: OpenAI, Anthropic과 같은 기업들은 최첨단 성능 리더십, 사용하기 쉬운 API, 강력한 기술 지원 및 엔터프라이즈 솔루션을 통해 경쟁력을 유지합니다. 특히 OpenAI는 ChatGPT의 압도적인 사용자 기반을 통해 수집되는 실제 상호작용 데이터를 활용하여 모델을 지속적으로 개선하고, 이를 통해 강력한 ‘데이터 및 사용자 경험 해자’를 구축하고 있습니다.129
- 오픈 소스 모델: 반면, 오픈 소스 모델은 비용 효율성, 데이터 보안 및 통제권, 특정 요구사항에 맞게 모델을 자유롭게 수정하고 최적화할 수 있는 커스터마이징 유연성에서 압도적인 강점을 가집니다.14 이는 규제가 엄격하거나 데이터 프라이버시가 최우선인 산업에서 결정적인 선택 요인이 될 수 있습니다.
하이브리드 전략의 부상: 미래에는 어느 한쪽이 다른 쪽을 완전히 대체하기보다는, 기업들이 두 생태계의 장점을 모두 활용하는 하이브리드 전략을 채택하는 것이 일반화될 것입니다. 예를 들어, 일상적인 고객 응대나 콘텐츠 초안 작성과 같은 작업에는 비용 효율적인 사내 오픈 소스 모델을 활용하고, 고도의 법률 분석이나 복잡한 과학적 추론이 필요한 특정 작업에만 최첨단 폐쇄형 모델의 API를 호출하는 방식입니다.61 이는 비용을 최적화하면서도 최고의 성능을 확보할 수 있는 합리적인 접근 방식입니다.

오픈 소스 모델의 성능이 빠르게 상향 평준화되면서, LLM의 핵심 기술인 ‘기초 모델(Foundation Model)’ 자체는 점차 특별한 차별점을 갖기 어려운 ‘범용재(commodity)’가 되어가고 있습니다.133 Microsoft의 CEO 사티아 나델라가 지적했듯이, 모델 자체만으로는 더 이상 지속적인 경쟁 우위를 확보하기 어려운 시대가 오고 있습니다.135 이는 ‘상품의 보완재를 범용화하라’는 고전적인 비즈니스 전략과도 일맥상통합니다.136 클라우드 제공업체나 애플리케이션 기업 입장에서 LLM은 그들의 핵심 비즈니스를 보완하는 요소이며, 이들은 오픈 소스 모델을 적극 지원하여 LLM을 저렴하고 쉽게 사용할 수 있는 범용재로 만들고, 그 위에서 동작하는 자신들의 핵심 서비스에서 가치를 창출하려 합니다.

가치 사슬의 이동: 모델이 범용화됨에 따라, AI 시장에서의 경쟁력과 가치의 원천은 모델 자체에서 다른 영역으로 이동하고 있습니다.
1. 고유한 데이터(Data Moat): 경쟁사가 쉽게 복제할 수 없는 독점적인 고품질 데이터를 보유하고 이를 활용하여 모델을 파인튜닝하는 능력이 핵심 경쟁력이 됩니다.137
2. 애플리케이션 및 사용자 경험: 범용화된 모델을 활용하여 특정 산업의 문제를 해결하는 독창적인 애플리케이션이나 뛰어난 사용자 경험을 제공하는 것이 중요해집니다.135
3. 효율적인 배포 및 운영(MLOps): 모델을 안정적이고 비용 효율적으로 배포, 관리, 모니터링하는 MLOps 인프라와 전문성이 차별화 요소가 됩니다.
산업 구조의 변화: 기초 모델의 비용이 하락하고 접근성이 높아지면서, 더 많은 스타트업과 중소기업이 AI 기반 서비스를 개발할 수 있는 환경이 조성되고 있습니다.135 이는 소프트웨어 산업 전반의 혁신을 가속화하고, 기존에는 상상할 수 없었던 새로운 비즈니스 모델의 등장을 촉진할 것입니다.136 결국 미래 AI 시장의 승자는 최고의 모델을 가진 회사가 아니라, 범용화된 모델을 가장 잘 활용하여 고객에게 실질적인 가치를 제공하는 회사가 될 것입니다.

기술적 측면에서 LLM은 계속해서 진화할 것이며, 이는 AI의 능력과 활용 범위를 더욱 확장시킬 것입니다.

아키텍처의 다변화: 트랜스포머의 한계를 극복하기 위한 MoE, SSM 등 차세대 아키텍처에 대한 연구는 계속될 것입니다.22 이를 통해 우리는 더 효율적이고, 더 긴 컨텍스트를 처리하며, 특정 작업에 고도로 특화된 새로운 모델들을 만나게 될 것입니다. 또한, 텍스트를 넘어 이미지, 음성, 비디오 등 다양한 모달리티를 통합적으로 처리하는 멀티모달 모델이 AI의 표준이 될 것입니다.
에이전트 중심의 AI: 미래의 AI는 사용자의 질문에 수동적으로 답변하는 것을 넘어, 외부 도구 및 서비스와 능동적으로 상호작용하며 복잡한 목표를 자율적으로 계획하고 수행하는 ‘AI 에이전트’ 형태로 발전할 것입니다.103 이를 위해서는 현재보다 훨씬 정교한 계획 수립, 동적 추론, 그리고 도구 사용 능력이 요구될 것이며, 이는 향후 LLM 개발의 핵심 연구 주제가 될 것입니다.
개방성의 지속 가능성: 오픈 소스 AI 생태계의 지속적인 발전은 투명하고 건강한 커뮤니티의 참여에 달려 있습니다. The Pile, LAION과 같은 데이터셋의 투명성을 확보하고 53, 연구 결과의 재현성을 높이며, 기술의 자유로운 개방과 그에 따르는 윤리적 책임 사이의 균형을 맞추려는 노력이 계속될 때, 오픈 소스 LLM은 AI 기술의 미래를 긍정적으로 이끄는 핵심 동력으로 자리매김할 것입니다.

Openness in Language Models: Open Source vs Open Weights vs Restricted Weights, accessed July 20, 2025, https://promptengineering.org/llm-open-source-vs-open-weights-vs-restricted-weights/
Openness in language models: open source, open weights & restricted weights - ITLawCo, accessed July 20, 2025, https://itlawco.com/openness-in-language-models-open-source-open-weights-restricted-weights/
www.agora.software, accessed July 20, 2025, https://www.agora.software/en/llm-open-source-open-weight-or-proprietary/#:~:text=While%20Open%20Weight%20LLMs%20may,be%20used%2C%20modified%20and%20distributed.
Local LLM ≠ Open Source, so why do influencers use this phrase? : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/19a7mlx/local_llm_open_source_so_why_do_influencers_use/

Open Source vs Closed Source LLMs: Everything You Need to Know (and How to Use Them!)

by Rohan Mistry

Medium, accessed July 20, 2025, https://medium.com/@rohanmistry231/open-source-vs-closed-source-llms-everything-you-need-to-know-and-how-to-use-them-bec324d47ba6

Top 10 open source LLMs for 2025 - Instaclustr, accessed July 20, 2025, https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
Top 8 Open‑Source LLMs to Watch in 2025 - JetRuby Agency, accessed July 20, 2025, https://jetruby.com/blog/top-8-open-source-llms-to-watch-in-2025/
On the business, strategy, and impact of technology. - Stratechery by Ben Thompson, accessed July 20, 2025, https://stratechery.com/?utm_campaign=Jira%2B-%2BWebsite%2BVisits&utm_source=linkedin&utm_medium=paid&hsa_acc=509891554&hsa_cam=625489786&hsa_grp=193728796&hsa_ad=226537666&hsa_net=linkedin&hsa_ver=3&query-0-page=4
An Interview with Meta CEO Mark Zuckerberg About AI and the Evolution of Social Media, accessed July 20, 2025, https://stratechery.com/2025/an-interview-with-meta-ceo-mark-zuckerberg-about-ai-and-the-evolution-of-social-media/
The Paradox of Open Weights, but Closed Source : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1iw1xn7/the_paradox_of_open_weights_but_closed_source/
거대 언어 모델(LLM)이란 무엇인가요? - Databricks, accessed July 20, 2025, https://www.databricks.com/kr/glossary/large-language-models-llm
[AI넷] [최고의 오픈 소스 대규모 언어 모델(LLM) 5가지] 빠르게 진화하는 인공지능(AI) 세계에서 대규모 언어 모델(Large Language Models)은 혁신을 주도하고 기술과 상호 작용하는 방식을 재구성하는 초석으로 부상했다. 이것은 AI 커뮤니티에서 파장을 일으키고 있으며 각각, accessed July 20, 2025, http://www.ainet.link/11684
AI 기술 소개 #2. 거대 언어 모델(LLM) 개념 및 동향 소개 - HMG Developers, accessed July 20, 2025, https://developers.hyundaimotorgroup.com/blog/387
Open-Source LLMs vs Closed: Unbiased Guide for Innovative Companies [2025], accessed July 20, 2025, https://hatchworks.com/blog/gen-ai/open-source-vs-closed-llms-guide/
Open-Source vs Closed-Source LLM Software: Unveiling the Pros and Cons, accessed July 20, 2025, https://www.charterglobal.com/open-source-vs-closed-source-llm-software-pros-and-cons/

3 key features and benefits of small language models

The Microsoft Cloud Blog, accessed July 20, 2025, https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/

대형 언어 모델 - 위키백과, 우리 모두의 백과사전, accessed July 20, 2025, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8
A Comprehensive Evaluation of Quantization Strategies for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.16775v1
List of large language models - Wikipedia, accessed July 20, 2025, https://en.wikipedia.org/wiki/List_of_large_language_models
[2503.18970] From S4 to Mamba: A Comprehensive Survey on Structured State Space Models - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2503.18970
Sliding Window Attention Training for Efficient Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.18845v1
Mixture of Experts in Large Language Models †: Corresponding author: Junhao Song (junhao.song23@imperial.ac.uk) - arXiv, accessed July 20, 2025, https://arxiv.org/html/2507.11181v1
A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications - arXiv, accessed July 20, 2025, https://arxiv.org/html/2503.07137v1?utm_source=chatgpt.com

A Deep Dive into Mixture of Experts (MoE) in LLMs

atalupadhyay - WordPress.com, accessed July 20, 2025, https://atalupadhyay.wordpress.com/2025/02/11/a-deep-dive-into-mixture-of-experts-moe-in-llms/

Understanding Mixture of Experts in Deep Learning - VE3, accessed July 20, 2025, https://www.ve3.global/understanding-mixture-of-experts-in-deep-learning/
A Closer Look into Mixture-of-Experts in Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2406.18219v2
10 Open Source LLMs You Can Fine-Tune for Agentic Workflow in 2025 - Azumo, accessed July 20, 2025, https://azumo.com/artificial-intelligence/ai-insights/top-open-source-llms
VL-Mamba: Exploring State Space Models for Multimodal Learning - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2403.13600
Falcon LLM - Technology Innovation Institute (TII), accessed July 20, 2025, https://falconllm.tii.ae/
The Illusion of State in State-Space Models : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1c64fbn/the_illusion_of_state_in_statespace_models/
The Illusion of State in State-Space Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2404.08819v1
NeurIPS 2024 Spotlight Posters, accessed July 20, 2025, https://neurips.cc/virtual/2024/events/spotlight-posters-2024

ENLSP NeurIPS Workshop 2024

ENLSP highlights some fundamental problems in NLP and speech processing related to efficiency of the models, training and inference for the general ML and DL communities., accessed July 20, 2025, https://neurips2024-enlsp.github.io/

SLLM@ICLR 2025, accessed July 20, 2025, https://www.sparsellm.org/
Grouped Query Attention (GQA) vs. Multi Head Attention (MHA): LLM Inference Serving Acceleration - FriendliAI, accessed July 20, 2025, https://friendli.ai/blog/gqa-vs-mha
What is grouped query attention (GQA)? - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/grouped-query-attention
What is Grouped Query Attention (GQA)? - Klu.ai, accessed July 20, 2025, https://klu.ai/glossary/grouped-query-attention
거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로 - 컴퓨터와 수학, 몽상 조금, accessed July 20, 2025, https://skyil.tistory.com/299

What is GQA(Grouped Query Attention) in Llama 3

by Yashvardhan Singh

Medium, accessed July 20, 2025, https://medium.com/@yashsingh.sep30/what-is-gqa-grouped-query-attention-in-llama-3-c4569ec19b63

Mistral 7B: A Revolutionary Breakthrough in LLMs - Data Science Dojo, accessed July 20, 2025, https://datasciencedojo.com/blog/mistral-7b-emergence-in-llm/

Sliding Window Attention: How Mistral works

Hrishi - Typefully, accessed July 20, 2025, https://typefully.com/hrishioa/sliding-window-attention-how-mistral-works-jZnXRqh

Mastering Mistral AI: From Sliding Window Attention to Efficient Inference

by Ebad Sayed

Jul, 2025

Medium, accessed July 20, 2025, https://medium.com/@sayedebad.777/mastering-mistral-ai-from-sliding-window-attention-to-efficient-inference-22d944384788

The List of 11 Most Popular Open Source LLMs [2025]

Lakera – Protecting AI teams that disrupt the world., accessed July 20, 2025, https://www.lakera.ai/blog/open-source-llms

Build a chatbot by fine-tuning Llama 3 - Domino Data Lab, accessed July 20, 2025, https://domino.ai/platform/ai-hub/templates/build-chatbot-fine-tuning-llama3

How to Fine-Tune Llama 3 for Customer Service

Symbl.ai, accessed July 20, 2025, https://symbl.ai/developers/blog/how-to-fine-tune-llama-3-for-customer-service/

Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/mlabonne/sft-llama3
Best Open Source LLMs of 2025 - Klu.ai, accessed July 20, 2025, https://klu.ai/blog/open-source-llm-models
What is Mistral AI: Open Source Models - Cody, accessed July 20, 2025, https://meetcody.ai/blog/what-is-mistral-ai-open-source-models/

The Rise of Open-Source LLMs: A Game Changer for AI Innovation

by Ibrahim Sajid Malick, accessed July 20, 2025, https://medium.com/@IbrahimMalick/the-rise-of-open-source-llms-a-game-changer-for-ai-innovation-bdb0e9885e61

A List of Large Language Models - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/large-language-models-list
Best 44 Large Language Models (LLMs) in 2025 - Exploding Topics, accessed July 20, 2025, https://explodingtopics.com/blog/list-of-llms
EleutherAI/the-pile - GitHub, accessed July 20, 2025, https://github.com/EleutherAI/the-pile
The Pile (dataset) - Wikipedia, accessed July 20, 2025, https://en.wikipedia.org/wiki/The_Pile_(dataset)
Datasheet for the Pile - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2201.07311
The Pile - EleutherAI, accessed July 20, 2025, https://pile.eleuther.ai/
microsoft/Phi-3-mini-128k-instruct - Hugging Face, accessed July 20, 2025, https://huggingface.co/microsoft/Phi-3-mini-128k-instruct
Phi-3 is a family of lightweight 3B (Mini) and 14B (Medium) state-of-the-art open models by Microsoft. - Ollama, accessed July 20, 2025, https://ollama.com/library/phi3
Phi-3 Tutorial: Hands-On With Microsoft’s Smallest AI Model - DataCamp, accessed July 20, 2025, https://www.datacamp.com/tutorial/phi-3-tutorial
What can we learn from Microsoft Phi-3’s training process? - Kili Technology, accessed July 20, 2025, https://kili-technology.com/large-language-models-llms/what-can-we-learn-from-microsoft-phi-3-s-training-process
Papers Explained 130: Phi-3 - Ritvik Rastogi - Medium, accessed July 20, 2025, https://ritvik19.medium.com/papers-explained-130-phi-3-0dfc951dc404
Phi-3 Vision: Microsoft’s Compact and Powerful Multimodal AI Model, accessed July 20, 2025, https://techcommunity.microsoft.com/blog/azure-ai-services-blog/phi-3-vision-%E2%80%93-catalyzing-multimodal-innovation/4170251
The Big Benefits of Small Language Models in AI Development - ISG, accessed July 20, 2025, https://isg-one.com/articles/the-big-benefits-of-small-language-models
Why Small Language Models Are Making Big Waves in AI - Kanerika, accessed July 20, 2025, https://kanerika.com/blogs/small-language-models/
What are Small Language Models (SLM)? - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/small-language-models
국내 LLM 모델들의 현황과 비교 - MSAP.ai, accessed July 20, 2025, https://www.msap.ai/blog-home/blog/korea-llm/
Upstage SOLAR 10.7B v1.0 claims to beat Mixtral 8X7B and models up to 30B parameters. : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/18hga4p/upstage_solar_107b_v10_claims_to_beat_mixtral/
Solar models from Upstage are now available in Amazon SageMaker JumpStart - AWS, accessed July 20, 2025, https://aws.amazon.com/blogs/machine-learning/solar-models-from-upstage-are-now-available-in-amazon-sagemaker-jumpstart/
SOLAR-10.7B-v1.0 AI Model Details - AIModels.fyi, accessed July 20, 2025, https://www.aimodels.fyi/models/huggingFace/solar-107b-v10-upstage
카카오, 자체 개발 ‘Kanana’ 언어모델 4종 오픈소스 공개… 상업 라이선스 적용, accessed July 20, 2025, https://www.kakaocorp.com/page/detail/11566
더 똑똑해진 카카오의 언어모델 Kanana 1.5, 상업 활용 가능한 오픈소스 공개, accessed July 20, 2025, https://tech.kakao.com/posts/706
공개SW 활용 가이드 - 공개SW 가이드/보고서 - [기획브리핑] 국내 주요 …, accessed July 20, 2025, https://www.oss.kr/oss_guide/show/9246eca5-f639-484c-be09-797d76fc9582
Best Open-Source Vision Language Models of 2025 - Labellerr, accessed July 20, 2025, https://www.labellerr.com/blog/top-open-source-vision-language-models/
LLaVa and Visual Instruction Tuning Explained - Zilliz blog, accessed July 20, 2025, https://zilliz.com/blog/llava-visual-instruction-training
Best Open Source Multimodal Vision Models in 2025 - Koyeb, accessed July 20, 2025, https://www.koyeb.com/blog/best-multimodal-vision-models-in-2025
The Definitive Guide to LLaVA: Inferencing a Powerful Visual Assistant - LearnOpenCV, accessed July 20, 2025, https://learnopencv.com/llava-training-a-visual-assistant/
LLaVA-NeXT - Hugging Face, accessed July 20, 2025, https://huggingface.co/docs/transformers/v4.39.1/model_doc/llava_next
Introducing Idefics2: A Powerful 8B Vision-Language Model for the community, accessed July 20, 2025, https://huggingface.co/blog/idefics2
IDEFICS2: Multimodal Language Models for the Future - Paperspace Blog, accessed July 20, 2025, https://blog.paperspace.com/idefics2/
Hugging Face has released Idefics2, a multimodal model for the community - Data Phoenix, accessed July 20, 2025, https://dataphoenix.info/hugging-face-has-released-idefics2-a-multimodal-model-for-the-community/
Florence-2: Advancing Multiple Vision Tasks with a Single VLM Model - Medium, accessed July 20, 2025, https://medium.com/data-science/florence-2-mastering-multiple-vision-tasks-with-a-single-vlm-model-435d251976d0
Florence-2 is a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. - GitHub, accessed July 20, 2025, https://github.com/anyantudre/Florence-2-Vision-Language-Model
Florence-2: Vision-language Model - Roboflow Blog, accessed July 20, 2025, https://blog.roboflow.com/florence-2/
How Much VRAM Do You Need for LLMs? - Hyperstack, accessed July 20, 2025, https://www.hyperstack.cloud/blog/case-study/how-much-vram-do-you-need-for-llms
General recommended VRAM Guidelines for LLMs - DEV Community, accessed July 20, 2025, https://dev.to/simplr_sh/general-recommended-vram-guidelines-for-llms-4ef3
LLaMA 7B GPU Memory Requirement - Transformers - Hugging Face Forums, accessed July 20, 2025, https://discuss.huggingface.co/t/llama-7b-gpu-memory-requirement/34323
Calculating GPU memory for serving LLMs Substratus Blog, accessed July 20, 2025, https://www.substratus.ai/blog/calculating-gpu-memory-for-llm

Quantization Demystified: GGUF, GPTQ, AWQ

by Okan Yenigün

Python in Plain English, accessed July 20, 2025, https://python.plainenglish.io/quantization-demystified-gguf-gptq-awq-94796bd0ae27

Quantization in LLMs: Why Does It Matter? - Dataiku blog, accessed July 20, 2025, https://blog.dataiku.com/quantization-in-llms-why-does-it-matter
We ran over half a million evaluations on quantized LLMs-here’s what we found, accessed July 20, 2025, https://developers.redhat.com/articles/2024/10/17/we-ran-over-half-million-evaluations-quantized-llms
Which Quantization Method Is Best for You?: GGUF, GPTQ, or AWQ - E2E Networks, accessed July 20, 2025, https://www.e2enetworks.com/blog/which-quantization-method-is-best-for-you-gguf-gptq-or-awq
For those who don’t know what different model formats (GGUF, GPTQ, AWQ, EXL2, etc.) mean ↓ : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1ayd4xr/for_those_who_dont_know_what_different_model/

LLM Quantization

GPTQ

QAT

AWQ

GGUF

GGML

PTQ

by Siddharth vij

Medium, accessed July 20, 2025, https://medium.com/@siddharth.vij10/llm-quantization-gptq-qat-awq-gguf-ggml-ptq-2e172cd1b3b5

Exploring Bits-and-Bytes, AWQ, GPTQ, EXL2, and GGUF Quantization Techniques with Practical Examples

by kirouane Ayoub

GoPenAI, accessed July 20, 2025, https://blog.gopenai.com/exploring-bits-and-bytes-awq-gptq-exl2-and-gguf-quantization-techniques-with-practical-examples-74d590063d34

In-depth guide to fine-tuning LLMs with LoRA and QLoRA - Mercity AI, accessed July 20, 2025, https://www.mercity.ai/blog-post/guide-to-fine-tuning-llms-with-lora-and-qlora
Finetuning LLMs using LoRA - Anirban Sen - Medium, accessed July 20, 2025, https://anirbansen2709.medium.com/finetuning-llms-using-lora-77fb02cbbc48
LoRA: Demystifying Low-Rank Adaptation for Large Language Models - Medium, accessed July 20, 2025, https://medium.com/@jeevan.sreerama_44589/lora-demystifying-low-rank-adaptation-for-large-language-models-0cbc827b6b13

Efficient Fine-Tuning with LoRA for LLMs

Databricks Blog, accessed July 20, 2025, https://www.databricks.com/blog/efficient-fine-tuning-lora-guide-llms

The Ultimate Guide to Fine-Tune LLaMA 3, With LLM Evaluations - Confident AI, accessed July 20, 2025, https://www.confident-ai.com/blog/the-ultimate-guide-to-fine-tune-llama-2-with-llm-evaluations
How much VRAM do I need for LLM model fine-tuning? Modal Blog, accessed July 20, 2025, https://modal.com/blog/how-much-vram-need-fine-tuning
Function calling in LLM agents - Symflower, accessed July 20, 2025, https://symflower.com/en/company/blog/2025/function-calling-llm-agents/
Best LLMs for Coding (May 2025 Report) - PromptLayer, accessed July 20, 2025, https://blog.promptlayer.com/best-llms-for-coding/
The 11 best open-source LLMs for 2025 - n8n Blog, accessed July 20, 2025, https://blog.n8n.io/open-source-llm/
What is a ReAct Agent? IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/react-agent
ReAct - Prompt Engineering Guide, accessed July 20, 2025, https://www.promptingguide.ai/techniques/react
ReACT Agent Model - Klu.ai, accessed July 20, 2025, https://klu.ai/glossary/react-agent-model
Building ReAct Agents from Scratch: A Hands-On Guide using Gemini - Medium, accessed July 20, 2025, https://medium.com/google-cloud/building-react-agents-from-scratch-a-hands-on-guide-using-gemini-ffe4621d90ae
Open LLM Leaderboard - Hugging Face, accessed July 20, 2025, https://huggingface.co/open-llm-leaderboard
Leaderboards and Evaluations - Hugging Face, accessed July 20, 2025, https://huggingface.co/docs/leaderboards/index
Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2025.naacl-industry.22.pdf
Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2024.acl-long.177/
Open LLM Leaderboard 2025 - Vellum AI, accessed July 20, 2025, https://www.vellum.ai/open-llm-leaderboard
End of the Open LLM Leaderboard : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1janir5/end_of_the_open_llm_leaderboard/
LLM Evals and Benchmarking – hackerllama - GitHub Pages, accessed July 20, 2025, https://osanseviero.github.io/hackerllama/blog/posts/llm_evals/
Qwen2 Technical Report - arXiv, accessed July 20, 2025, https://arxiv.org/html/2407.10671v1
Berkeley Function Calling Leaderboard V3 (aka Berkeley Tool Calling Leaderboard V3) - Gorilla, accessed July 20, 2025, https://gorilla.cs.berkeley.edu/leaderboard.html
Understanding Social Biases in Large Language Models - MDPI, accessed July 20, 2025, https://www.mdpi.com/2673-2688/6/5/106
Revisiting the Trolley Problem for AI: Biases and Stereotypes in Large Language Models and their Impact on Ethical Decision, accessed July 20, 2025, https://ojs.aaai.org/index.php/AAAI-SS/article/download/35590/37745/39661
Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.14560v2
Direct Preference Optimization: Your Language Model is Secretly a Reward Model - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2305.18290
Red Teaming AI Alignment, accessed July 20, 2025, https://alignmentsurvey.com/materials/assurance/redteam/
Our responsible approach to Meta AI and Meta Llama 3, accessed July 20, 2025, https://ai.meta.com/blog/meta-llama-3-meta-ai-responsibility/
Uncensored LLM Models: A Complete Guide to Unfiltered AI Language Models, accessed July 20, 2025, https://docs.jarvislabs.ai/blog/llm_uncensored
What’s the most powerful uncensored LLM? : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1ep0ha2/whats_the_most_powerful_uncensored_llm/
Censored vs Uncensored LLM Models: A Comprehensive Analysis - AI Agency, accessed July 20, 2025, https://www.aiagency.net.za/censored-vs-uncensored-llm-models/
The Dark Side of Gen AI [Uncensored Large Language Models] - CybelAngel, accessed July 20, 2025, https://cybelangel.com/gen-ai-uncensored-llms/
Fine tuning and it’s effects on model safety - Hugging Face Forums, accessed July 20, 2025, https://discuss.huggingface.co/t/fine-tuning-and-its-effects-on-model-safety/163736
eviden.com, accessed July 20, 2025, https://eviden.com/insights/blogs/llms-and-the-effect-on-the-environment/#:~:text=The%20immense%20computational%20resources%20required,multiple%20cars%20over%20their%20lifetimes.
Comparing the Titans of AI: ChatGPT, Claude, Llama, Groq, Gemma, and Mistral, accessed July 20, 2025, https://www.alliancetek.com/blog/post/2025/03/27/ai-model-battle-chatgpt-claude-llama-groq-gemma-mistral.aspx
Moats or Myths? How OpenAI, Anthropic and Google Plan to Stay on Top - VKTR.com, accessed July 20, 2025, https://www.vktr.com/ai-market/moats-or-myths-how-openai-anthropic-and-google-plan-to-stay-on-top/
OpenAI has started to form a “moat” - by Rihard Jarc - UncoverAlpha, accessed July 20, 2025, https://www.uncoveralpha.com/p/openai-has-started-to-form-a-moat
How OpenAI is building its moat - TechTalks, accessed July 20, 2025, https://bdtechtalks.com/2025/03/17/openai-moat/
Open Source vs. Closed Source in Language Models: Pros and Cons - DS Stream, accessed July 20, 2025, https://www.dsstream.com/post/open-source-vs-closed-source-in-language-models-pros-and-cons
The DeepSeek Effect: Impact of Foundation Model Commoditization on Agentic AI Adoption, accessed July 20, 2025, https://www.ema.co/blog/agentic-ai/the-deepseek-effect-impact-of-foundation-model-commoditization-on-agentic-ai-adoption

Aravind Srinivas:Will Foundation Models Commoditise & Diminishing Returns in Model Performance

E1161 - Recall, accessed July 20, 2025, https://www.getrecall.ai/summary/20vc-with-harry-stebbings/aravind-srinivaswill-foundation-models-commoditise-and-diminishing-returns-in-model-performanceore1161

Are AI Models Becoming Commodities? - Unite.AI, accessed July 20, 2025, https://www.unite.ai/are-ai-models-becoming-commodities/

Commoditizing the Complements: A Business Strategy Unfolding in the World of AI and Coding

by Gurpreet Singh

Medium, accessed July 20, 2025, https://medium.com/@gurpreetsl/commoditizing-the-complements-a-business-strategy-unfolding-in-the-world-of-ai-and-coding-906bebeb2ae2

Foundation Models are Entering their Data-Centric Era - Hazy Research, accessed July 20, 2025, https://hazyresearch.stanford.edu/blog/2022-10-11-datacentric-fms
Data Moat: Building Competitive Edge with Proprietary Data - Acceldata, accessed July 20, 2025, https://www.acceldata.io/blog/how-to-build-a-data-moat-a-strategic-guide-for-modern-enterprises

How FinTechs Can Win in the Era of Commoditization

SPD Technology, accessed July 20, 2025, https://spd.tech/fintech-development/beyond-transactions-how-fintechs-can-win-in-the-era-of-commoditization/

AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach - arXiv, accessed July 20, 2025, https://arxiv.org/html/2410.10896v1
Appendix (LAION-5B: An open large-scale dataset for training next generation image-text models) A Datasheet for LAION, accessed July 20, 2025, https://proceedings.neurips.cc/paper_files/paper/2022/file/a1859debfb3b59d094f3504d5ebb6c25-Supplemental-Datasets_and_Benchmarks.pdf
LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS, accessed July 20, 2025, https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/