Booil Jung

오픈 소스 거대 언어 모델의 모든 것

인공지능(AI) 분야, 특히 거대 언어 모델(Large Language Models, LLM)의 발전은 기술 산업의 지형을 근본적으로 바꾸고 있습니다. 초기에 OpenAI의 GPT-3와 같은 강력한 폐쇄형 모델이 시장을 주도하며 기술의 가능성을 제시했다면, 최근 몇 년간의 가장 중요한 변화는 오픈 소스 LLM의 폭발적인 성장과 확산입니다. 이는 단순히 기술적 대안의 등장을 넘어, AI 기술의 접근성, 혁신의 속도, 그리고 비즈니스 모델의 패러다임 자체를 재정의하고 있습니다. 본 보고서는 현재 존재하는 거의 모든 주요 오픈 소스 LLM을 망라하여 그 특징과 장단점을 심층적으로 분석하고, 이들이 가져온 기술적, 경제적, 윤리적 함의를 종합적으로 고찰하는 것을 목표로 합니다.

오픈 소스 LLM 생태계를 정확히 이해하기 위해서는 먼저 ‘오픈’이라는 용어가 내포하는 다양한 층위를 명확히 구분해야 합니다. 현재 통용되는 ‘오픈 소스 LLM’이라는 표현은 종종 기술적 현실과 라이선스의 복잡성을 단순화하여 오해를 낳을 수 있습니다. 이 스펙트럼은 완전한 개방성에서부터 전략적 제한에 이르기까지 다양하게 펼쳐져 있습니다.1

엄밀한 의미에서 진정한 오픈 소스(Open Source) LLM은 단순히 모델의 가중치(weights)를 공개하는 것을 넘어, 모델의 재현과 검증에 필요한 모든 구성 요소를 투명하게 공개하는 것을 의미합니다. 여기에는 다음 요소들이 포함됩니다:

  1. 소스 코드(Source Code): 모델 아키텍처, 학습 알고리즘, 추론 코드를 포함하는 인간이 읽고 수정할 수 있는 코드.1
  2. 모델 가중치(Model Weights): 학습을 통해 얻어진 파라미터 값으로, 모델의 지식을 담고 있는 핵심 요소.1
  3. 학습 데이터셋(Training Dataset): 모델을 처음부터 다시 학습시키는 데 사용된 원본 데이터 또는 그에 준하는 데이터셋. 이는 재현성과 편향 연구에 필수적입니다.3
  4. 학습 방법론(Training Methodology): 하이퍼파라미터, 최적화 기법, 학습 절차 등 모델을 재현하는 데 필요한 상세한 정보.1

반면, 오픈 가중치(Open Weight) 모델은 위 요소 중 모델 가중치는 공개하지만, 학습 데이터셋이나 구체적인 학습 방법론 등은 비공개로 유지하는 경우가 많습니다.1 현재 Llama 3, Mistral 등 시장을 주도하는 대부분의 ‘오픈 소스’ 모델이 실제로는 이 범주에 속합니다. 이 모델들은 사용자가 모델을 다운로드하여 직접 실행하고 파인튜닝할 수 있는 자유를 제공하지만, 모델을 처음부터 완전히 재현하는 것은 불가능합니다.

마지막으로 제한된 가중치(Restricted Weight) 또는 폐쇄형(Closed-Source) 모델은 가중치를 포함한 모든 핵심 요소를 비공개로 유지하고, 오직 API(Application Programming Interface)를 통해서만 모델의 기능에 접근할 수 있도록 허용합니다. OpenAI의 GPT-4, Anthropic의 Claude 등이 대표적인 예입니다.2

현재 오픈 소스 LLM 생태계의 복잡성은 라이선스 정책에서 명확히 드러납니다. Llama 3와 같은 모델은 ‘Meta Llama 3 Community License’라는 커스텀 라이선스를 채택하고 있는데, 이는 월간 활성 사용자(MAU)가 7억 명 이상인 기업의 경우 상업적 활용을 위해서는 별도의 라이선스 계약을 요구하는 등 제한을 두고 있습니다.6 이는 순수한 기술 개방이 아니라, 자사 플랫폼(예: Meta의 소셜 미디어)으로의 생태계 유도를 위한 ‘전략적 개방’에 가깝습니다. 즉, 모델 자체를 상품화하기보다는 모델을 통해 생성된 콘텐츠와 애플리케이션이 자사 생태계 내에서 유통되도록 유도하는 것입니다.8 따라서 ‘오픈 소스’라는 용어의 사용은 기술적 정확성보다는 마케팅 및 커뮤니티 형성의 측면이 강하며, 사용자는 라이선스와 공개 범위를 면밀히 검토해야 하는 숨겨진 복잡성이 존재합니다.

라이선스의 종류는 모델의 활용 범위와 생태계에 지대한 영향을 미칩니다. MIT나 Apache 2.0과 같은 허용적 라이선스(Permissive License)는 상업적 사용을 포함한 거의 모든 활동을 최소한의 제약으로 허용하여 기술의 광범위한 확산을 촉진합니다.10 반면, CC-BY-NC(Creative Commons Attribution-NonCommercial)와 같은 비상업적 라이선스는 연구나 개인 프로젝트에는 유용하지만, 이를 활용한 비즈니스 모델 구축에는 제약을 가합니다.10 따라서 개발자와 기업은 기술적 특성만큼이나 라이선스 조건을 신중하게 고려하여 모델을 선택해야 합니다.

오픈 소스 LLM의 등장은 AI 기술 발전의 방향을 바꾸어 놓은 중대한 사건입니다. 이는 소수의 거대 기업이 독점하던 최첨단 기술을 전 세계 개발자, 연구자, 스타트업에게 개방함으로써 기술 민주화를 실현하고 혁신의 속도를 가속화하는 기폭제가 되었습니다.

2020년 OpenAI의 GPT-3가 등장했을 때, 그 압도적인 성능은 경이로움과 동시에 기술 접근성에 대한 우려를 낳았습니다.11 강력한 AI 모델을 개발하고 운영하는 데 필요한 막대한 자본과 데이터는 소수의 빅테크 기업에게만 허락된 것처럼 보였습니다. 그러나 2023년 Meta가 Llama를 공개하면서 이러한 패러다임에 균열이 생기기 시작했습니다.11 Llama는 비록 비상업적 라이선스로 제한되었지만, GPT-3.5에 필적하는 성능을 보여주며 오픈 소스(정확히는 오픈 가중치) 모델의 잠재력을 입증했습니다. 이후 Llama 2, Llama 3가 연이어 공개되면서 오픈 소스 진영은 폐쇄형 모델과 대등하게 경쟁할 수 있는 강력한 대안으로 자리매김했습니다.13

이러한 개방성은 강력한 ‘생태계 효과’를 창출합니다. 오픈 소스 모델은 전 세계 수많은 개발자와 연구자로 구성된 커뮤니티의 집단 지성을 통해 빠르게 발전합니다.2 누구나 모델을 다운로드하여 특정 도메인에 맞게 파인튜닝하고, 그 결과를 다시 커뮤니티에 공유합니다. 이 과정에서 수많은 특화 모델이 파생되고, 버그가 신속하게 수정되며, 새로운 활용 사례가 끊임없이 발굴됩니다.5 이는 소수의 엔지니어가 개발을 주도하는 폐쇄형 모델의 중앙 집중식 방식과는 근본적으로 다른, 분산적이고 유기적인 혁신 모델입니다.

오픈 소스 LLM은 경제적 측면에서도 상당한 파급 효과를 가집니다. 가장 큰 장점은 비용 효율성입니다. 폐쇄형 모델이 API 호출 당 비용을 부과하는 것과 달리, 오픈 소스 모델은 초기 라이선스 비용 없이 자유롭게 사용할 수 있습니다.15 물론 모델을 자체 서버나 클라우드에 배포하고 운영하는 데 비용이 발생하지만, 대규모 트래픽을 처리하는 경우 API 사용료보다 총 소유 비용(TCO)이 훨씬 저렴할 수 있습니다.14

더 중요한 것은 데이터 보안과 통제권입니다. 금융, 의료, 법률 등 민감한 데이터를 다루는 기업들은 외부 API로 데이터를 전송하는 것에 대한 규제 및 보안상의 부담이 큽니다. 오픈 소스 모델을 사용하면 모든 데이터를 자체 인프라 내에서 처리(온프레미스 또는 프라이빗 클라우드)할 수 있어, 데이터 주권을 완벽하게 확보하고 규제 준수 문제를 해결할 수 있습니다.14 이러한 장점들은 AI 기술 도입의 문턱을 낮추어 더 많은 기업과 조직이 AI 혁신에 동참할 수 있는 기반을 마련해주고 있습니다.

현대 LLM 아키텍처의 발전은 ‘성능’과 ‘효율성’이라는 두 가지 핵심 과제를 동시에 해결하려는 노력의 역사입니다. 초기 LLM 경쟁이 단순히 파라미터 수를 늘리는 ‘규모의 경쟁’이었다면 17, 이제는 제한된 컴퓨팅 자원 내에서 어떻게 더 빠르고, 더 길고, 더 정확하게 처리할 수 있는가에 대한 ‘효율성의 경쟁’으로 전환되고 있습니다. 이러한 변화는 아키텍처의 모듈화와 기존 구성 요소의 최적화를 통해 이루어지고 있으며, 특히 오픈 소스 모델이 제한된 하드웨어에서도 경쟁력을 가질 수 있게 하는 핵심 동력이 되고 있습니다.

2017년 “Attention Is All You Need” 논문에서 제안된 트랜스포머(Transformer) 아키텍처는 지난 몇 년간 LLM의 발전을 이끌어온 절대적인 표준이었습니다.19 그러나 입력 시퀀스의 길이가 길어질수록 계산량이 제곱으로 증가하는 어텐션 메커니즘의 이차적 복잡도($O(N^2$)) 문제와 막대한 메모리 요구사항은 트랜스포머의 근본적인 한계로 지적되어 왔습니다.20 이에 따라 학계와 산업계에서는 트랜스포머를 대체하거나 보완할 차세대 아키텍처에 대한 연구가 활발히 진행되고 있습니다.

MoE는 모델의 전체 파라미터 수를 크게 늘리면서도 추론 시 계산 비용을 일정하게 유지할 수 있는 혁신적인 아키텍처입니다.22 이 구조는 거대한 단일 신경망 대신, 여러 개의 작은 전문화된 신경망, 즉 ‘전문가(Expert)’ 네트워크와 이 전문가들 중 어떤 것을 활성화할지 결정하는 ‘라우터(Router)’ 네트워크로 구성됩니다.24

입력 토큰이 들어오면 라우터는 각 토큰에 가장 적합하다고 판단되는 소수의 전문가(보통 1~2개)를 선택하여 활성화합니다. 해당 토큰은 선택된 전문가 네트워크에서만 처리되고, 나머지 수많은 전문가들은 비활성화 상태로 유지됩니다.26 이 ‘조건부 계산(Conditional Computation)’ 덕분에 모델은 수천억, 혹은 조 단위의 파라미터를 가질 수 있으면서도, 실제 추론에 사용되는 활성 파라미터(active parameters)의 수는 훨씬 작아 계산 효율성을 극대화할 수 있습니다.22

이러한 장점 덕분에 Mixtral, DeepSeek-V2, Qwen 1.5, Llama 4 등 다수의 고성능 오픈 소스 모델들이 MoE 아키텍처를 채택하고 있습니다.6 MoE 아키텍처의 성공은 LLM의 발전 방향이 단순히 더 큰 단일 모델(dense model)을 만드는 것이 아니라, 필요에 따라 특정 모듈을 활성화하는 지능형 시스템으로 진화하고 있음을 보여줍니다.

SSM은 순환 신경망(RNN)의 순차적 데이터 처리 능력과 트랜스포머의 병렬 학습 능력을 결합하려는 시도에서 출발한 새로운 아키텍처입니다.20 고전적인 제어 이론의 상태 공간 표현을 딥러닝에 접목한 SSM은 특히 긴 시퀀스(long-sequence) 데이터 처리에 강점을 보입니다.

SSM 기반 모델의 가장 큰 특징은 입력 시퀀스 길이에 따라 계산량이 선형적으로 증가(O(n))한다는 점입니다.28 이는 트랜스포머의 이차적 복잡도 문제를 근본적으로 해결할 수 있는 잠재력을 의미합니다. Mamba, Falcon Mamba 7B와 같은 모델들이 SSM 아키텍처를 기반으로 개발되었으며, 이론적으로 무한한 길이의 컨텍스트를 효율적으로 처리할 수 있어 큰 주목을 받고 있습니다.17 비록 SSM이 정말로 트랜스포머를 넘어서는 상태 추적 능력을 갖추었는지에 대한 이론적 논쟁은 계속되고 있지만 30, 긴 컨텍스트 처리와 계산 효율성 측면에서 트랜스포머의 강력한 대안으로 부상하고 있는 것은 분명합니다.

NeurIPS, ICLR과 같은 세계 최고 권위의 AI 학회에서는 트랜스포머의 한계를 극복하기 위한 다양한 차세대 아키텍처에 대한 논의가 매년 활발하게 이루어지고 있습니다.32 xLSTM, RWKV(Receptance Weighted Key Value)와 같은 새로운 모델들이 제안되며, 이는 효율성, 확장성, 그리고 장기 의존성(long-range dependency) 처리 능력 개선에 초점을 맞추고 있습니다.33 이러한 연구 동향은 LLM 아키텍처가 단일 패러다임에 머무르지 않고, 다양한 문제 해결을 위해 끊임없이 진화하고 있음을 보여줍니다.

차세대 아키텍처 탐색과 더불어, 기존 트랜스포머 구조 내에서 가장 비용이 많이 드는 어텐션 메커니즘을 최적화하려는 노력 또한 LLM 효율성 향상의 중요한 축을 담당하고 있습니다.

기존의 다중 헤드 어텐션(Multi-Head Attention, MHA)은 여러 개의 어텐션 ‘헤드’를 병렬로 사용하여 입력 시퀀스의 다양한 측면(예: 구문적 관계, 의미적 관계)을 동시에 포착하는 방식입니다.35 이는 모델의 표현력을 높이는 데 크게 기여했지만, 추론 과정에서 각 토큰의 Key와 Value 벡터를 모든 헤드에 대해 저장해야 하는 ‘KV 캐시’ 문제로 인해 막대한 메모리를 소모하는 단점이 있었습니다.36

이 문제를 해결하기 위해 제안된 것이 다중 쿼리 어텐션(Multi-Query Attention, MQA)입니다. MQA에서는 여러 개의 Query 헤드가 단 하나의 Key-Value 헤드 쌍을 공유합니다.35 이로써 KV 캐시의 크기를 헤드 수만큼 줄일 수 있어 추론 속도와 메모리 효율성을 크게 향상시킬 수 있었지만, 모델의 표현력이 감소하여 성능 저하를 유발할 수 있다는 단점이 있었습니다.36

그룹 쿼리 어텐션(Grouped-Query Attention, GQA)은 MHA의 높은 성능과 MQA의 높은 효율성 사이의 절충안으로 제시된 혁신적인 기법입니다.37 GQA는 전체 Query 헤드를 여러 그룹으로 나누고, 각 그룹 내의 Query 헤드들이 하나의 Key-Value 헤드 쌍을 공유하도록 설계되었습니다.38

예를 들어, 32개의 Query 헤드가 있다면 MHA는 32개의 KV 헤드를, MQA는 1개의 KV 헤드를 사용합니다. 반면 GQA는 8개의 그룹으로 나누어 각 그룹이 1개의 KV 헤드를 공유하게 함으로써 총 8개의 KV 헤드만 사용합니다. 이 방식을 통해 GQA는 MHA에 근접하는 높은 성능을 유지하면서도 MQA 수준의 빠른 추론 속도와 낮은 메모리 사용량을 달성할 수 있습니다.35 이 뛰어난 균형 덕분에 Llama 2 70B, Mistral 7B, 그리고 Llama 3 시리즈 등 다수의 최신 고성능 모델들이 GQA를 핵심 아키텍처로 채택하고 있습니다.6

슬라이딩 윈도우 어텐션(Sliding Window Attention, SWA)은 Mistral 7B 모델에서 처음 도입되어 큰 주목을 받은 기법입니다.40 기존 어텐션이 시퀀스 내의 모든 토큰 쌍에 대해 계산을 수행하는 것과 달리, SWA는 각 토큰이 자신을 포함한 이전의 고정된 크기(window size,

W)의 토큰들에 대해서만 어텐션을 계산하도록 제한합니다.41

이 방식을 통해 어텐션 계산의 복잡도는 시퀀스 길이 n에 대해 $O(n^2)$에서 $O(n \times W)$로, 즉 선형적으로 감소합니다.21 비록 한 레이어에서는 제한된 범위의 토큰만 볼 수 있지만, 트랜스포머 레이어가 여러 겹 쌓이면서 정보가 점차 전파되어 결국에는 윈도우 크기보다 훨씬 먼 거리의 토큰 정보에도 간접적으로 접근할 수 있게 됩니다.42 또한, SWA는 필요한 KV 캐시의 크기를 고정된 윈도우 크기만큼으로 제한하는 ‘롤링 버퍼 캐시(Rolling Buffer Cache)’와 결합하여 메모리 사용량을 획기적으로 줄이면서도 긴 컨텍스트를 효과적으로 처리할 수 있게 해줍니다.40

오픈 소스 LLM 생태계는 몇몇 핵심적인 모델 패밀리를 중심으로 빠르게 확장 및 발전해 왔습니다. 이들 모델은 각기 다른 철학과 기술적 접근을 통해 생태계의 다양성을 형성하고 있으며, 개발자와 기업은 자신의 목적에 가장 부합하는 모델을 선택할 수 있는 폭넓은 기회를 갖게 되었습니다. 현재 시장은 단일 최강자가 지배하는 구도가 아니라, 범용성, 효율성, 특정 작업(코딩, 다국어, 추론 등)에 대한 전문성 등 다양한 차원에서 경쟁하는 다극화된 양상을 보이고 있습니다. 이는 사용자 입장에서 더 이상 ‘하나의 최고’ 모델을 찾는 것이 아니라, ‘특정 목적에 맞는 최적’의 모델을 선택하는 시대로의 전환을 의미합니다.

Meta의 Llama 시리즈는 오픈 소스 LLM 생태계의 성장을 견인한 가장 영향력 있는 모델군으로 평가받습니다. Llama의 등장은 오픈 소스 진영이 폐쇄형 모델과 본격적으로 경쟁할 수 있는 신호탄이었으며, 이후 Llama는 사실상 업계 표준에 가까운 위치를 차지하게 되었습니다.

프랑스 파리의 스타트업 Mistral AI는 ‘파라미터 대비 성능’이라는 새로운 경쟁의 장을 열며 LLM 시장에 큰 파장을 일으켰습니다. 이들은 단순히 모델의 크기를 키우기보다, 아키텍처 최적화를 통해 작은 모델로도 뛰어난 성능을 달성할 수 있음을 증명했습니다.

Google과 아랍에미리트(UAE)의 기술혁신연구소(TII)는 각각 막대한 자본과 연구 역량을 바탕으로 고품질의 오픈 소스 LLM을 시장에 선보였습니다.

중국의 기술 기업들 역시 글로벌 오픈 소스 LLM 경쟁에서 두각을 나타내고 있으며, 특히 다국어 처리와 코딩/수학 같은 논리적 추론 능력에서 강점을 보이고 있습니다.

상업적 기업들이 주도하는 오픈 가중치 모델 생태계와는 별개로, 비영리 연구 집단인 EleutherAI는 AI 기술의 완전한 투명성과 재현성을 목표로 활동하고 있습니다. 이들은 ‘진정한 오픈 소스’를 지향하며, 커뮤니티에 귀중한 자산을 제공해왔습니다.

이러한 노력은 상업적 이익보다는 순수한 연구와 기술 민주화에 초점을 맞추고 있으며, 오픈 소스 LLM 생태계의 건강한 발전을 위한 중요한 축을 담당하고 있습니다.


Table 1: 주요 오픈 소스 LLM 종합 비교

모델명 (Model) 개발사 (Developer) 파라미터 수 (Parameters) 아키텍처 특징 (Architecture) 컨텍스트 창 (Context Window) 라이선스 (License)
Llama 3.1 8B/70B Meta 8B, 70B Dense, GQA 128K Llama 3 Community License
Llama 3.1 405B Meta 405B Dense, GQA 128K Llama 3 Community License
Llama 4 Maverick Meta 17B (active), 400B (total) MoE, Multimodal 10M Custom (MAU > 700M 제한)
Mistral 7B Instruct Mistral AI 7B Dense, GQA, SWA 32K Apache 2.0
Mixtral 8x7B Instruct Mistral AI 12.9B (active), 46.7B (total) Sparse MoE (SMoE) 32K Apache 2.0
Mixtral 8x22B Instruct Mistral AI 39B (active), 141B (total) Sparse MoE (SMoE) 64K Apache 2.0
Gemma 2 9B/27B Instruct Google 9B, 27B Dense 8K Apache 2.0
Falcon 2 11B TII 11B Dense, Multilingual 8K Apache 2.0
Qwen 2.5 72B Instruct Alibaba 72B Dense, Multilingual 32K (128K with YaRN) Apache 2.0
DeepSeek-Coder V2 DeepSeek AI 16B (active), 236B (total) MoE, Code-specialized 128K MIT License
Phi-3-mini-128k-instruct Microsoft 3.8B Dense (SLM), Synthetic Data 128K MIT License

주: 파라미터 수는 모델의 instruction-tuned 버전을 기준으로 하며, 일부 값은 근사치일 수 있습니다. 라이선스는 변경될 수 있으므로 사용 전 반드시 공식 출처를 확인해야 합니다. 6

거대 언어 모델(LLM)의 경쟁이 파라미터 크기를 늘리는 방향으로 치닫는 동안, 반대편에서는 ‘작지만 강한’ 모델, 즉 소형 언어 모델(Small Language Models, SLM)이 새로운 가능성을 제시하며 부상하고 있습니다. SLM의 등장은 ‘하나의 모델이 모든 것을 해결한다’는 기존의 패러다임에서 벗어나, ‘최적의 도구를 적재적소에 사용한다’는 실용주의적 접근으로의 전환을 의미합니다. 모든 작업에 가장 큰 모델을 사용하는 것이 비효율적이라는 인식이 확산되면서, 개발자들은 작업의 복잡성과 요구사항에 따라 다양한 크기의 모델을 선택하는 ‘모델 포트폴리오’ 관리 시대로 진입하고 있습니다.

Microsoft의 Phi 시리즈는 SLM의 잠재력을 가장 잘 보여주는 대표적인 사례입니다. Phi는 “데이터의 품질이 모델의 크기보다 중요하다”는 철학을 바탕으로 개발되었습니다.49

글로벌 기업들이 개발한 LLM은 대부분 영어 중심의 데이터로 학습되기 때문에, 한국의 고유한 문화적 맥락, 사회적 뉘앙스, 최신 정보, 전문 용어를 정확하게 이해하고 생성하는 데 명백한 한계를 보입니다.65 이로 인해 부정확한 정보를 생성하는 ‘환각(Hallucination)’ 현상이 더 자주 발생할 수 있습니다. 이러한 문제를 해결하기 위해 국내 기업과 연구 기관들은 한국어 데이터에 집중적으로 학습시킨 특화 LLM을 개발하고, 이를 오픈 소스로 공개하며 국내 AI 생태계 발전에 기여하고 있습니다.

이러한 한국어 특화 LLM들은 글로벌 모델이 채우지 못하는 언어적, 문화적 간극을 메우며 국내 AI 기술의 자립과 생태계 발전에 중요한 역할을 하고 있습니다.


Table 2: 한국어 특화 LLM 성능 비교

모델명 (Model) 개발사 (Developer) 기반 모델 (Base Model) 파라미터 수 (Parameters) 라이선스 (License) 주요 특징 (Key Features)
Upstage SOLAR-10.7B Upstage Mistral 7B 10.7B Apache 2.0 Depth Up-scaling 기술 적용, 허깅페이스 리더보드 1위 달성, 경량 고효율, 온프레미스에 적합
Kakao Kanana 1.5 Kakao 자체 개발 2.1B, 8B Apache 2.0 에이전틱 AI 기능(코딩, 수학, 함수 호출) 강화, 우수한 한국어 이해도, 상업적 활용 용이
LG EXAONE 3.5 LG AI연구원 자체 개발 2.4B, 7.8B, 32B EXAONE AI Model License 1.1 - NC 온디바이스부터 고성능까지 다양한 크기 제공, 수학/코딩 능력 우수, 비상업적 연구용
Naver HyperCLOVA X-SEED Naver HyperCLOVA X 공개되지 않음 Custom (상업적 활용 가능) 한국어 및 한국 문화 이해도 탁월, 명령어 추종 기능 우수, 국내 AI 생태계 활성화 목적

주: 각 모델의 라이선스 및 사용 조건은 공개 시점에 따라 변경될 수 있으므로, 실제 사용 전 반드시 공식 문서를 통해 최신 정보를 확인해야 합니다. 65

언어 모델의 발전은 텍스트의 영역을 넘어 시각, 청각 등 인간의 다양한 감각 정보를 통합적으로 이해하고 처리하는 다중모달(Multimodal) AI로 확장되고 있습니다. 특히 텍스트와 이미지를 함께 이해하는 비전-언어 모델(Vision-Language Models, VLM)은 오픈 소스 진영에서도 가장 활발하게 연구되고 있는 분야 중 하나입니다. VLM의 발전은 ‘데이터 중심 AI’ 철학의 중요성을 다시 한번 입증하고 있습니다. 정교한 아키텍처 혁신만큼이나, 혹은 그 이상으로 학습에 사용되는 데이터의 양, 질, 그리고 전략적인 구성 방식이 모델의 최종 성능을 결정하는 핵심 요소로 작용하고 있습니다.

VLM은 사용자가 이미지와 함께 텍스트로 질문을 던지면, 이미지를 이해하고 그에 맞는 텍스트 답변을 생성하는 모델입니다. 예를 들어, 음식 사진을 보여주며 “이 요리의 레시피를 알려줘”라고 질문하거나, 복잡한 도표를 보여주며 “이 차트의 핵심 인사이트를 요약해줘”라고 요청하는 것이 가능합니다.72

이처럼 VLM 분야의 발전은 미래의 AI가 텍스트를 넘어 인간처럼 보고, 읽고, 이해하는 방향으로 나아가고 있음을 보여줍니다. 특히, 고품질의 대규모 멀티모달 데이터셋을 구축하고 이를 효과적으로 활용하는 능력이 향후 VLM 경쟁의 승패를 가를 핵심 요소가 될 것으로 전망됩니다.

오픈 소스 LLM의 진정한 가치는 모델 자체의 성능을 넘어, 이를 실제 환경에서 ‘실행 가능하게’ 만들고, 특정 목적에 맞게 ‘커스터마이징’하며, 외부 세계와 ‘연결’하여 실질적인 문제를 해결하는 능력에 있습니다. 이러한 과정에는 하드웨어에 대한 이해, 모델 압축 기술, 효율적인 파인튜닝 기법, 그리고 에이전트 프레임워크에 대한 지식이 필수적입니다. 이 모든 요소들이 유기적으로 결합하여, 폐쇄형 API가 제공하기 어려운 깊이의 유연성과 통제력을 사용자에게 부여합니다.

강력한 오픈 소스 모델이 존재하더라도, 이를 구동할 하드웨어가 없다면 무용지물입니다. LLM을 실행하는 데 있어 가장 큰 병목은 그래픽 처리 장치(GPU)의 비디오 메모리(VRAM)입니다.83


Table 3: 모델 양자화 기법 비교

기법 (Technique) 주요 특징 (Key Features) 대상 하드웨어 (Target Hardware) 일반적인 비트 수 (Common Bit-rates) 장점 (Pros) 단점 (Cons)
GGUF llama.cpp에서 사용하는 포맷. 모델의 일부 레이어만 GPU에 올리는(offloading) 유연한 메모리 관리 가능. CPU, GPU (특히 Apple Silicon에 최적화) 2-bit ~ 8-bit CPU만으로도 구동 가능, 하드웨어 유연성 높음. 순수 GPU 환경에서는 GPTQ/AWQ 대비 속도가 느릴 수 있음.
GPTQ 후-학습 양자화(PTQ) 기법. 2차 정보 근사를 통해 양자화 오류를 최소화하여 정확도를 보존. NVIDIA/AMD GPU 2-bit, 3-bit, 4-bit, 8-bit 빠른 추론 속도, 높은 압축률에도 비교적 정확도 손실이 적음. 양자화 과정이 상대적으로 느리고 복잡할 수 있음.
AWQ 활성화 인식 가중치 양자화. 모델의 성능에 중요한 ‘ salient’ 가중치를 식별하고 보호하여 정확도 손실을 최소화. NVIDIA/AMD GPU 4-bit 지시-튜닝된 모델에서 특히 우수한 성능을 보임, GPTQ보다 빠른 경우도 있음. 모든 모델 아키텍처에 최적화되어 있지는 않을 수 있음.

주: 각 양자화 기법의 성능은 모델 아키텍처, 하드웨어, 그리고 사용되는 소프트웨어 라이브러리에 따라 달라질 수 있습니다. [90, 91, 92, 93]


범용으로 사전 학습된 LLM은 특정 비즈니스나 도메인의 요구사항을 완벽하게 충족시키지 못하는 경우가 많습니다. 이때 필요한 것이 바로 ‘파인튜닝(Fine-tuning)’입니다. 하지만 수십억 개의 파라미터 전체를 재학습시키는 것은 막대한 계산 자원을 필요로 합니다.

최신 LLM은 단순히 텍스트를 생성하는 것을 넘어, 외부 도구와 상호작용하며 복잡한 목표를 자율적으로 수행하는 ‘AI 에이전트’로 진화하고 있습니다.

오픈 소스 LLM의 급속한 발전은 놀라운 가능성을 열어주었지만, 동시에 해결해야 할 복잡한 도전 과제와 윤리적 딜레마를 수면 위로 끌어올렸습니다. 모델의 성능을 어떻게 신뢰성 있게 평가할 것인가의 문제부터, 모델에 내재된 편향과 유해성, 그리고 기술의 자유로운 접근이 초래할 수 있는 책임의 문제에 이르기까지, 생태계의 지속 가능한 발전을 위해 반드시 짚고 넘어가야 할 쟁점들이 산재해 있습니다.

모델의 성능을 객관적으로 측정하고 비교하기 위해 다양한 벤치마크와 이를 종합한 리더보드가 활용됩니다. 허깅페이스의 Open LLM Leaderboard나 국내의 Open Ko-LLM Leaderboard는 개발자들이 자신의 모델 성능을 검증하고 다른 모델과 비교하는 중요한 기준으로 자리 잡았습니다.107

오픈 소스 AI의 ‘자유’는 필연적으로 ‘책임’의 문제를 동반합니다. 모델의 개방성이 높아질수록, 모델을 안전하고 윤리적으로 사용하는 것에 대한 책임은 모델을 개발한 소수의 기업에서 모델을 다운로드하여 사용하는 다수의 개인과 조직으로 이동하게 됩니다.

LLM의 발전은 눈부시지만, 그 이면에는 심각한 환경적 비용이 존재합니다.

오픈 소스 거대 언어 모델 생태계는 기술적 성숙과 시장의 재편이라는 두 가지 축을 중심으로 역동적인 미래를 맞이하고 있습니다. 최첨단 성능을 자랑하는 폐쇄형 모델과의 치열한 경쟁 속에서 오픈 소스 모델은 고유의 강점을 바탕으로 독자적인 영역을 구축하고 있으며, 이는 AI 산업 전체의 구조적 변화를 예고하고 있습니다. 기초 모델의 성능이 상향 평준화되면서 경쟁의 장은 ‘모델 개발’에서 ‘모델 활용’으로 이동하고 있으며, 이는 AI 민주화의 최종 단계로 볼 수 있습니다.

오픈 소스 LLM의 성능이 비약적으로 발전하면서, 최상위 폐쇄형 모델과의 성능 격차는 점차 줄어들고 있습니다. 한 기업 설문조사에 따르면, 다수의 기업이 오픈 소스 모델의 성능이 폐쇄형 모델과 대등해질 경우 적극적으로 전환할 의향이 있다고 밝혔습니다.14 이는 두 진영 간의 경쟁이 더욱 치열해질 것을 시사합니다.

오픈 소스 모델의 성능이 빠르게 상향 평준화되면서, LLM의 핵심 기술인 ‘기초 모델(Foundation Model)’ 자체는 점차 특별한 차별점을 갖기 어려운 ‘범용재(commodity)’가 되어가고 있습니다.133 Microsoft의 CEO 사티아 나델라가 지적했듯이, 모델 자체만으로는 더 이상 지속적인 경쟁 우위를 확보하기 어려운 시대가 오고 있습니다.135 이는 ‘상품의 보완재를 범용화하라’는 고전적인 비즈니스 전략과도 일맥상통합니다.136 클라우드 제공업체나 애플리케이션 기업 입장에서 LLM은 그들의 핵심 비즈니스를 보완하는 요소이며, 이들은 오픈 소스 모델을 적극 지원하여 LLM을 저렴하고 쉽게 사용할 수 있는 범용재로 만들고, 그 위에서 동작하는 자신들의 핵심 서비스에서 가치를 창출하려 합니다.

기술적 측면에서 LLM은 계속해서 진화할 것이며, 이는 AI의 능력과 활용 범위를 더욱 확장시킬 것입니다.

  1. Openness in Language Models: Open Source vs Open Weights vs Restricted Weights, accessed July 20, 2025, https://promptengineering.org/llm-open-source-vs-open-weights-vs-restricted-weights/
  2. Openness in language models: open source, open weights & restricted weights - ITLawCo, accessed July 20, 2025, https://itlawco.com/openness-in-language-models-open-source-open-weights-restricted-weights/
  3. www.agora.software, accessed July 20, 2025, https://www.agora.software/en/llm-open-source-open-weight-or-proprietary/#:~:text=While%20Open%20Weight%20LLMs%20may,be%20used%2C%20modified%20and%20distributed.
  4. Local LLM ≠ Open Source, so why do influencers use this phrase? : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/19a7mlx/local_llm_open_source_so_why_do_influencers_use/
  5. Open Source vs Closed Source LLMs: Everything You Need to Know (and How to Use Them!) by Rohan Mistry Medium, accessed July 20, 2025, https://medium.com/@rohanmistry231/open-source-vs-closed-source-llms-everything-you-need-to-know-and-how-to-use-them-bec324d47ba6
  6. Top 10 open source LLMs for 2025 - Instaclustr, accessed July 20, 2025, https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
  7. Top 8 Open‑Source LLMs to Watch in 2025 - JetRuby Agency, accessed July 20, 2025, https://jetruby.com/blog/top-8-open-source-llms-to-watch-in-2025/
  8. On the business, strategy, and impact of technology. - Stratechery by Ben Thompson, accessed July 20, 2025, https://stratechery.com/?utm_campaign=Jira%2B-%2BWebsite%2BVisits&utm_source=linkedin&utm_medium=paid&hsa_acc=509891554&hsa_cam=625489786&hsa_grp=193728796&hsa_ad=226537666&hsa_net=linkedin&hsa_ver=3&query-0-page=4
  9. An Interview with Meta CEO Mark Zuckerberg About AI and the Evolution of Social Media, accessed July 20, 2025, https://stratechery.com/2025/an-interview-with-meta-ceo-mark-zuckerberg-about-ai-and-the-evolution-of-social-media/
  10. The Paradox of Open Weights, but Closed Source : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1iw1xn7/the_paradox_of_open_weights_but_closed_source/
  11. 거대 언어 모델(LLM)이란 무엇인가요? - Databricks, accessed July 20, 2025, https://www.databricks.com/kr/glossary/large-language-models-llm
  12. [AI넷] [최고의 오픈 소스 대규모 언어 모델(LLM) 5가지] 빠르게 진화하는 인공지능(AI) 세계에서 대규모 언어 모델(Large Language Models)은 혁신을 주도하고 기술과 상호 작용하는 방식을 재구성하는 초석으로 부상했다. 이것은 AI 커뮤니티에서 파장을 일으키고 있으며 각각, accessed July 20, 2025, http://www.ainet.link/11684
  13. AI 기술 소개 #2. 거대 언어 모델(LLM) 개념 및 동향 소개 - HMG Developers, accessed July 20, 2025, https://developers.hyundaimotorgroup.com/blog/387
  14. Open-Source LLMs vs Closed: Unbiased Guide for Innovative Companies [2025], accessed July 20, 2025, https://hatchworks.com/blog/gen-ai/open-source-vs-closed-llms-guide/
  15. Open-Source vs Closed-Source LLM Software: Unveiling the Pros and Cons, accessed July 20, 2025, https://www.charterglobal.com/open-source-vs-closed-source-llm-software-pros-and-cons/
  16. 3 key features and benefits of small language models The Microsoft Cloud Blog, accessed July 20, 2025, https://www.microsoft.com/en-us/microsoft-cloud/blog/2024/09/25/3-key-features-and-benefits-of-small-language-models/
  17. 대형 언어 모델 - 위키백과, 우리 모두의 백과사전, accessed July 20, 2025, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%98%95%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8
  18. A Comprehensive Evaluation of Quantization Strategies for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.16775v1
  19. List of large language models - Wikipedia, accessed July 20, 2025, https://en.wikipedia.org/wiki/List_of_large_language_models
  20. [2503.18970] From S4 to Mamba: A Comprehensive Survey on Structured State Space Models - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2503.18970
  21. Sliding Window Attention Training for Efficient Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.18845v1
  22. Mixture of Experts in Large Language Models †: Corresponding author: Junhao Song (junhao.song23@imperial.ac.uk) - arXiv, accessed July 20, 2025, https://arxiv.org/html/2507.11181v1
  23. A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications - arXiv, accessed July 20, 2025, https://arxiv.org/html/2503.07137v1?utm_source=chatgpt.com
  24. A Deep Dive into Mixture of Experts (MoE) in LLMs atalupadhyay - WordPress.com, accessed July 20, 2025, https://atalupadhyay.wordpress.com/2025/02/11/a-deep-dive-into-mixture-of-experts-moe-in-llms/
  25. Understanding Mixture of Experts in Deep Learning - VE3, accessed July 20, 2025, https://www.ve3.global/understanding-mixture-of-experts-in-deep-learning/
  26. A Closer Look into Mixture-of-Experts in Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2406.18219v2
  27. 10 Open Source LLMs You Can Fine-Tune for Agentic Workflow in 2025 - Azumo, accessed July 20, 2025, https://azumo.com/artificial-intelligence/ai-insights/top-open-source-llms
  28. VL-Mamba: Exploring State Space Models for Multimodal Learning - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2403.13600
  29. Falcon LLM - Technology Innovation Institute (TII), accessed July 20, 2025, https://falconllm.tii.ae/
  30. The Illusion of State in State-Space Models : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1c64fbn/the_illusion_of_state_in_statespace_models/
  31. The Illusion of State in State-Space Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2404.08819v1
  32. NeurIPS 2024 Spotlight Posters, accessed July 20, 2025, https://neurips.cc/virtual/2024/events/spotlight-posters-2024
  33. ENLSP NeurIPS Workshop 2024 ENLSP highlights some fundamental problems in NLP and speech processing related to efficiency of the models, training and inference for the general ML and DL communities., accessed July 20, 2025, https://neurips2024-enlsp.github.io/
  34. SLLM@ICLR 2025, accessed July 20, 2025, https://www.sparsellm.org/
  35. Grouped Query Attention (GQA) vs. Multi Head Attention (MHA): LLM Inference Serving Acceleration - FriendliAI, accessed July 20, 2025, https://friendli.ai/blog/gqa-vs-mha
  36. What is grouped query attention (GQA)? - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/grouped-query-attention
  37. What is Grouped Query Attention (GQA)? - Klu.ai, accessed July 20, 2025, https://klu.ai/glossary/grouped-query-attention
  38. 거대 언어 모델(LLM) 찍먹하기: GPT, LLaMA을 중심으로 - 컴퓨터와 수학, 몽상 조금, accessed July 20, 2025, https://skyil.tistory.com/299
  39. What is GQA(Grouped Query Attention) in Llama 3 by Yashvardhan Singh Medium, accessed July 20, 2025, https://medium.com/@yashsingh.sep30/what-is-gqa-grouped-query-attention-in-llama-3-c4569ec19b63
  40. Mistral 7B: A Revolutionary Breakthrough in LLMs - Data Science Dojo, accessed July 20, 2025, https://datasciencedojo.com/blog/mistral-7b-emergence-in-llm/
  41. Sliding Window Attention: How Mistral works Hrishi - Typefully, accessed July 20, 2025, https://typefully.com/hrishioa/sliding-window-attention-how-mistral-works-jZnXRqh
  42. Mastering Mistral AI: From Sliding Window Attention to Efficient Inference by Ebad Sayed Jul, 2025 Medium, accessed July 20, 2025, https://medium.com/@sayedebad.777/mastering-mistral-ai-from-sliding-window-attention-to-efficient-inference-22d944384788
  43. The List of 11 Most Popular Open Source LLMs [2025] Lakera – Protecting AI teams that disrupt the world., accessed July 20, 2025, https://www.lakera.ai/blog/open-source-llms
  44. Build a chatbot by fine-tuning Llama 3 - Domino Data Lab, accessed July 20, 2025, https://domino.ai/platform/ai-hub/templates/build-chatbot-fine-tuning-llama3
  45. How to Fine-Tune Llama 3 for Customer Service Symbl.ai, accessed July 20, 2025, https://symbl.ai/developers/blog/how-to-fine-tune-llama-3-for-customer-service/
  46. Fine-tune Llama 3.1 Ultra-Efficiently with Unsloth - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/mlabonne/sft-llama3
  47. Best Open Source LLMs of 2025 - Klu.ai, accessed July 20, 2025, https://klu.ai/blog/open-source-llm-models
  48. What is Mistral AI: Open Source Models - Cody, accessed July 20, 2025, https://meetcody.ai/blog/what-is-mistral-ai-open-source-models/
  49. The Rise of Open-Source LLMs: A Game Changer for AI Innovation by Ibrahim Sajid Malick, accessed July 20, 2025, https://medium.com/@IbrahimMalick/the-rise-of-open-source-llms-a-game-changer-for-ai-innovation-bdb0e9885e61
  50. A List of Large Language Models - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/large-language-models-list
  51. Best 44 Large Language Models (LLMs) in 2025 - Exploding Topics, accessed July 20, 2025, https://explodingtopics.com/blog/list-of-llms
  52. EleutherAI/the-pile - GitHub, accessed July 20, 2025, https://github.com/EleutherAI/the-pile
  53. The Pile (dataset) - Wikipedia, accessed July 20, 2025, https://en.wikipedia.org/wiki/The_Pile_(dataset)
  54. Datasheet for the Pile - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2201.07311
  55. The Pile - EleutherAI, accessed July 20, 2025, https://pile.eleuther.ai/
  56. microsoft/Phi-3-mini-128k-instruct - Hugging Face, accessed July 20, 2025, https://huggingface.co/microsoft/Phi-3-mini-128k-instruct
  57. Phi-3 is a family of lightweight 3B (Mini) and 14B (Medium) state-of-the-art open models by Microsoft. - Ollama, accessed July 20, 2025, https://ollama.com/library/phi3
  58. Phi-3 Tutorial: Hands-On With Microsoft’s Smallest AI Model - DataCamp, accessed July 20, 2025, https://www.datacamp.com/tutorial/phi-3-tutorial
  59. What can we learn from Microsoft Phi-3’s training process? - Kili Technology, accessed July 20, 2025, https://kili-technology.com/large-language-models-llms/what-can-we-learn-from-microsoft-phi-3-s-training-process
  60. Papers Explained 130: Phi-3 - Ritvik Rastogi - Medium, accessed July 20, 2025, https://ritvik19.medium.com/papers-explained-130-phi-3-0dfc951dc404
  61. Phi-3 Vision: Microsoft’s Compact and Powerful Multimodal AI Model, accessed July 20, 2025, https://techcommunity.microsoft.com/blog/azure-ai-services-blog/phi-3-vision-%E2%80%93-catalyzing-multimodal-innovation/4170251
  62. The Big Benefits of Small Language Models in AI Development - ISG, accessed July 20, 2025, https://isg-one.com/articles/the-big-benefits-of-small-language-models
  63. Why Small Language Models Are Making Big Waves in AI - Kanerika, accessed July 20, 2025, https://kanerika.com/blogs/small-language-models/
  64. What are Small Language Models (SLM)? - IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/small-language-models
  65. 국내 LLM 모델들의 현황과 비교 - MSAP.ai, accessed July 20, 2025, https://www.msap.ai/blog-home/blog/korea-llm/
  66. Upstage SOLAR 10.7B v1.0 claims to beat Mixtral 8X7B and models up to 30B parameters. : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/18hga4p/upstage_solar_107b_v10_claims_to_beat_mixtral/
  67. Solar models from Upstage are now available in Amazon SageMaker JumpStart - AWS, accessed July 20, 2025, https://aws.amazon.com/blogs/machine-learning/solar-models-from-upstage-are-now-available-in-amazon-sagemaker-jumpstart/
  68. SOLAR-10.7B-v1.0 AI Model Details - AIModels.fyi, accessed July 20, 2025, https://www.aimodels.fyi/models/huggingFace/solar-107b-v10-upstage
  69. 카카오, 자체 개발 ‘Kanana’ 언어모델 4종 오픈소스 공개… 상업 라이선스 적용, accessed July 20, 2025, https://www.kakaocorp.com/page/detail/11566
  70. 더 똑똑해진 카카오의 언어모델 Kanana 1.5, 상업 활용 가능한 오픈소스 공개, accessed July 20, 2025, https://tech.kakao.com/posts/706
  71. 공개SW 활용 가이드 - 공개SW 가이드/보고서 - [기획브리핑] 국내 주요 …, accessed July 20, 2025, https://www.oss.kr/oss_guide/show/9246eca5-f639-484c-be09-797d76fc9582
  72. Best Open-Source Vision Language Models of 2025 - Labellerr, accessed July 20, 2025, https://www.labellerr.com/blog/top-open-source-vision-language-models/
  73. LLaVa and Visual Instruction Tuning Explained - Zilliz blog, accessed July 20, 2025, https://zilliz.com/blog/llava-visual-instruction-training
  74. Best Open Source Multimodal Vision Models in 2025 - Koyeb, accessed July 20, 2025, https://www.koyeb.com/blog/best-multimodal-vision-models-in-2025
  75. The Definitive Guide to LLaVA: Inferencing a Powerful Visual Assistant - LearnOpenCV, accessed July 20, 2025, https://learnopencv.com/llava-training-a-visual-assistant/
  76. LLaVA-NeXT - Hugging Face, accessed July 20, 2025, https://huggingface.co/docs/transformers/v4.39.1/model_doc/llava_next
  77. Introducing Idefics2: A Powerful 8B Vision-Language Model for the community, accessed July 20, 2025, https://huggingface.co/blog/idefics2
  78. IDEFICS2: Multimodal Language Models for the Future - Paperspace Blog, accessed July 20, 2025, https://blog.paperspace.com/idefics2/
  79. Hugging Face has released Idefics2, a multimodal model for the community - Data Phoenix, accessed July 20, 2025, https://dataphoenix.info/hugging-face-has-released-idefics2-a-multimodal-model-for-the-community/
  80. Florence-2: Advancing Multiple Vision Tasks with a Single VLM Model - Medium, accessed July 20, 2025, https://medium.com/data-science/florence-2-mastering-multiple-vision-tasks-with-a-single-vlm-model-435d251976d0
  81. Florence-2 is a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. - GitHub, accessed July 20, 2025, https://github.com/anyantudre/Florence-2-Vision-Language-Model
  82. Florence-2: Vision-language Model - Roboflow Blog, accessed July 20, 2025, https://blog.roboflow.com/florence-2/
  83. How Much VRAM Do You Need for LLMs? - Hyperstack, accessed July 20, 2025, https://www.hyperstack.cloud/blog/case-study/how-much-vram-do-you-need-for-llms
  84. General recommended VRAM Guidelines for LLMs - DEV Community, accessed July 20, 2025, https://dev.to/simplr_sh/general-recommended-vram-guidelines-for-llms-4ef3
  85. LLaMA 7B GPU Memory Requirement - Transformers - Hugging Face Forums, accessed July 20, 2025, https://discuss.huggingface.co/t/llama-7b-gpu-memory-requirement/34323
  86. Calculating GPU memory for serving LLMs Substratus Blog, accessed July 20, 2025, https://www.substratus.ai/blog/calculating-gpu-memory-for-llm
  87. Quantization Demystified: GGUF, GPTQ, AWQ by Okan Yenigün Python in Plain English, accessed July 20, 2025, https://python.plainenglish.io/quantization-demystified-gguf-gptq-awq-94796bd0ae27
  88. Quantization in LLMs: Why Does It Matter? - Dataiku blog, accessed July 20, 2025, https://blog.dataiku.com/quantization-in-llms-why-does-it-matter
  89. We ran over half a million evaluations on quantized LLMs-here’s what we found, accessed July 20, 2025, https://developers.redhat.com/articles/2024/10/17/we-ran-over-half-million-evaluations-quantized-llms
  90. Which Quantization Method Is Best for You?: GGUF, GPTQ, or AWQ - E2E Networks, accessed July 20, 2025, https://www.e2enetworks.com/blog/which-quantization-method-is-best-for-you-gguf-gptq-or-awq
  91. For those who don’t know what different model formats (GGUF, GPTQ, AWQ, EXL2, etc.) mean ↓ : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1ayd4xr/for_those_who_dont_know_what_different_model/
  92. LLM Quantization GPTQ QAT AWQ GGUF GGML PTQ by Siddharth vij Medium, accessed July 20, 2025, https://medium.com/@siddharth.vij10/llm-quantization-gptq-qat-awq-gguf-ggml-ptq-2e172cd1b3b5
  93. Exploring Bits-and-Bytes, AWQ, GPTQ, EXL2, and GGUF Quantization Techniques with Practical Examples by kirouane Ayoub GoPenAI, accessed July 20, 2025, https://blog.gopenai.com/exploring-bits-and-bytes-awq-gptq-exl2-and-gguf-quantization-techniques-with-practical-examples-74d590063d34
  94. In-depth guide to fine-tuning LLMs with LoRA and QLoRA - Mercity AI, accessed July 20, 2025, https://www.mercity.ai/blog-post/guide-to-fine-tuning-llms-with-lora-and-qlora
  95. Finetuning LLMs using LoRA - Anirban Sen - Medium, accessed July 20, 2025, https://anirbansen2709.medium.com/finetuning-llms-using-lora-77fb02cbbc48
  96. LoRA: Demystifying Low-Rank Adaptation for Large Language Models - Medium, accessed July 20, 2025, https://medium.com/@jeevan.sreerama_44589/lora-demystifying-low-rank-adaptation-for-large-language-models-0cbc827b6b13
  97. Efficient Fine-Tuning with LoRA for LLMs Databricks Blog, accessed July 20, 2025, https://www.databricks.com/blog/efficient-fine-tuning-lora-guide-llms
  98. The Ultimate Guide to Fine-Tune LLaMA 3, With LLM Evaluations - Confident AI, accessed July 20, 2025, https://www.confident-ai.com/blog/the-ultimate-guide-to-fine-tune-llama-2-with-llm-evaluations
  99. How much VRAM do I need for LLM model fine-tuning? Modal Blog, accessed July 20, 2025, https://modal.com/blog/how-much-vram-need-fine-tuning
  100. Function calling in LLM agents - Symflower, accessed July 20, 2025, https://symflower.com/en/company/blog/2025/function-calling-llm-agents/
  101. Best LLMs for Coding (May 2025 Report) - PromptLayer, accessed July 20, 2025, https://blog.promptlayer.com/best-llms-for-coding/
  102. The 11 best open-source LLMs for 2025 - n8n Blog, accessed July 20, 2025, https://blog.n8n.io/open-source-llm/
  103. What is a ReAct Agent? IBM, accessed July 20, 2025, https://www.ibm.com/think/topics/react-agent
  104. ReAct - Prompt Engineering Guide, accessed July 20, 2025, https://www.promptingguide.ai/techniques/react
  105. ReACT Agent Model - Klu.ai, accessed July 20, 2025, https://klu.ai/glossary/react-agent-model
  106. Building ReAct Agents from Scratch: A Hands-On Guide using Gemini - Medium, accessed July 20, 2025, https://medium.com/google-cloud/building-react-agents-from-scratch-a-hands-on-guide-using-gemini-ffe4621d90ae
  107. Open LLM Leaderboard - Hugging Face, accessed July 20, 2025, https://huggingface.co/open-llm-leaderboard
  108. Leaderboards and Evaluations - Hugging Face, accessed July 20, 2025, https://huggingface.co/docs/leaderboards/index
  109. Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2025.naacl-industry.22.pdf
  110. Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2024.acl-long.177/
  111. Open LLM Leaderboard 2025 - Vellum AI, accessed July 20, 2025, https://www.vellum.ai/open-llm-leaderboard
  112. End of the Open LLM Leaderboard : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1janir5/end_of_the_open_llm_leaderboard/
  113. LLM Evals and Benchmarking – hackerllama - GitHub Pages, accessed July 20, 2025, https://osanseviero.github.io/hackerllama/blog/posts/llm_evals/
  114. Qwen2 Technical Report - arXiv, accessed July 20, 2025, https://arxiv.org/html/2407.10671v1
  115. Berkeley Function Calling Leaderboard V3 (aka Berkeley Tool Calling Leaderboard V3) - Gorilla, accessed July 20, 2025, https://gorilla.cs.berkeley.edu/leaderboard.html
  116. Understanding Social Biases in Large Language Models - MDPI, accessed July 20, 2025, https://www.mdpi.com/2673-2688/6/5/106
  117. Revisiting the Trolley Problem for AI: Biases and Stereotypes in Large Language Models and their Impact on Ethical Decision, accessed July 20, 2025, https://ojs.aaai.org/index.php/AAAI-SS/article/download/35590/37745/39661
  118. Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.14560v2
  119. Direct Preference Optimization: Your Language Model is Secretly a Reward Model - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2305.18290
  120. Red Teaming AI Alignment, accessed July 20, 2025, https://alignmentsurvey.com/materials/assurance/redteam/
  121. Our responsible approach to Meta AI and Meta Llama 3, accessed July 20, 2025, https://ai.meta.com/blog/meta-llama-3-meta-ai-responsibility/
  122. Uncensored LLM Models: A Complete Guide to Unfiltered AI Language Models, accessed July 20, 2025, https://docs.jarvislabs.ai/blog/llm_uncensored
  123. What’s the most powerful uncensored LLM? : r/LocalLLaMA - Reddit, accessed July 20, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1ep0ha2/whats_the_most_powerful_uncensored_llm/
  124. Censored vs Uncensored LLM Models: A Comprehensive Analysis - AI Agency, accessed July 20, 2025, https://www.aiagency.net.za/censored-vs-uncensored-llm-models/
  125. The Dark Side of Gen AI [Uncensored Large Language Models] - CybelAngel, accessed July 20, 2025, https://cybelangel.com/gen-ai-uncensored-llms/
  126. Fine tuning and it’s effects on model safety - Hugging Face Forums, accessed July 20, 2025, https://discuss.huggingface.co/t/fine-tuning-and-its-effects-on-model-safety/163736
  127. eviden.com, accessed July 20, 2025, https://eviden.com/insights/blogs/llms-and-the-effect-on-the-environment/#:~:text=The%20immense%20computational%20resources%20required,multiple%20cars%20over%20their%20lifetimes.
  128. Comparing the Titans of AI: ChatGPT, Claude, Llama, Groq, Gemma, and Mistral, accessed July 20, 2025, https://www.alliancetek.com/blog/post/2025/03/27/ai-model-battle-chatgpt-claude-llama-groq-gemma-mistral.aspx
  129. Moats or Myths? How OpenAI, Anthropic and Google Plan to Stay on Top - VKTR.com, accessed July 20, 2025, https://www.vktr.com/ai-market/moats-or-myths-how-openai-anthropic-and-google-plan-to-stay-on-top/
  130. OpenAI has started to form a “moat” - by Rihard Jarc - UncoverAlpha, accessed July 20, 2025, https://www.uncoveralpha.com/p/openai-has-started-to-form-a-moat
  131. How OpenAI is building its moat - TechTalks, accessed July 20, 2025, https://bdtechtalks.com/2025/03/17/openai-moat/
  132. Open Source vs. Closed Source in Language Models: Pros and Cons - DS Stream, accessed July 20, 2025, https://www.dsstream.com/post/open-source-vs-closed-source-in-language-models-pros-and-cons
  133. The DeepSeek Effect: Impact of Foundation Model Commoditization on Agentic AI Adoption, accessed July 20, 2025, https://www.ema.co/blog/agentic-ai/the-deepseek-effect-impact-of-foundation-model-commoditization-on-agentic-ai-adoption
  134. Aravind Srinivas:Will Foundation Models Commoditise & Diminishing Returns in Model Performance E1161 - Recall, accessed July 20, 2025, https://www.getrecall.ai/summary/20vc-with-harry-stebbings/aravind-srinivaswill-foundation-models-commoditise-and-diminishing-returns-in-model-performanceore1161
  135. Are AI Models Becoming Commodities? - Unite.AI, accessed July 20, 2025, https://www.unite.ai/are-ai-models-becoming-commodities/
  136. Commoditizing the Complements: A Business Strategy Unfolding in the World of AI and Coding by Gurpreet Singh Medium, accessed July 20, 2025, https://medium.com/@gurpreetsl/commoditizing-the-complements-a-business-strategy-unfolding-in-the-world-of-ai-and-coding-906bebeb2ae2
  137. Foundation Models are Entering their Data-Centric Era - Hazy Research, accessed July 20, 2025, https://hazyresearch.stanford.edu/blog/2022-10-11-datacentric-fms
  138. Data Moat: Building Competitive Edge with Proprietary Data - Acceldata, accessed July 20, 2025, https://www.acceldata.io/blog/how-to-build-a-data-moat-a-strategic-guide-for-modern-enterprises
  139. How FinTechs Can Win in the Era of Commoditization SPD Technology, accessed July 20, 2025, https://spd.tech/fintech-development/beyond-transactions-how-fintechs-can-win-in-the-era-of-commoditization/
  140. AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach - arXiv, accessed July 20, 2025, https://arxiv.org/html/2410.10896v1
  141. Appendix (LAION-5B: An open large-scale dataset for training next generation image-text models) A Datasheet for LAION, accessed July 20, 2025, https://proceedings.neurips.cc/paper_files/paper/2022/file/a1859debfb3b59d094f3504d5ebb6c25-Supplemental-Datasets_and_Benchmarks.pdf
  142. LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS, accessed July 20, 2025, https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/