Booil Jung

대규모 언어 모델을 위한 모델 융합 기술

패러다임, 알고리즘 및 미래 전망

인공지능(AI), 특히 대규모 언어 모델(LLM) 분야에서 모델 융합(Model Merging)은 여러 개의 독립적으로 훈련되거나 미세 조정된 모델의 파라미터(가중치)를 결합하여 단일의 통합된 모델을 생성하는 기술로 정의된다.1 이 과정은 여러 모델의 예측 결과를 집계하는 앙상블(Ensemble) 방식과 달리, 모델의 가중치 공간(weight space)에서 직접 작동하여 물리적으로 새로운 단일 모델을 창조한다는 점에서 근본적인 차이를 보인다.3 모델 융합의 등장은 단순한 기술적 호기심을 넘어, 현대 AI 개발 환경의 경제적, 전략적 요구에 대한 필연적 귀결로 이해할 수 있다.

이 기술의 부상을 이끈 핵심 동기는 다음과 같이 요약된다.

결론적으로, 모델 융합의 부상은 거대 기술 기업 중심의 단일 거대 모델(monolithic model) 개발 방식에서 벗어나, 허깅페이스(Hugging Face)와 같은 플랫폼을 통해 확산된 수많은 오픈소스 전문가 모델들을 마치 “레고 블록”처럼 조합하여 새로운 가치를 창출하는 모듈식(modular) 개발 패러다임으로의 전환을 의미한다.16 이는 AI 산업의 경제적 제약에 대한 실용적인 해법이자, 모델 개발의 민주화를 촉진하는 핵심 기술이라 할 수 있다.

모델 융합의 개념을 명확히 이해하기 위해서는 종종 혼용되는 앙상블 학습(Ensemble Learning) 및 지식 증류(Knowledge Distillation)와의 차이점을 엄격하게 구분할 필요가 있다. 이 세 가지 패러다임은 모두 여러 모델의 지식을 활용한다는 공통점이 있지만, 그 작동 원리, 목표, 추론 비용 측면에서 뚜렷한 차이를 보인다.

최근에는 이러한 패러다임들의 경계가 점차 허물어지는 하이브리드 접근법도 등장하고 있다. 예를 들어, “Branch-Merge” 기법은 지식 증류를 통해 생성된 여러 전문가 학생 모델들을 다시 융합하는 방식으로, 두 패러다임의 장점을 모두 취한다.26 또한, 대규모 언어 모델이 특화된 소규모 언어 모델로부터 학습하는 “역전된(flipped)” 지식 증류 방식도 연구되고 있다.27

이러한 개념적 차이를 명확히 하기 위해 아래 표에 세 가지 패러다임을 비교하여 정리하였다.

표 1: 모델 결합 패러다임 비교

패러다임 핵심 메커니즘 최종 모델 수 일반적 목표 아키텍처 제약 추론 비용
모델 융합 추론 전, 파라미터(가중치) 결합 1개 역량 강화, 다기능성 확보 동일/유사 아키텍처 필요 단일 모델 비용
앙상블 학습 추론 중, 출력(예측) 집계 N개 (유지) 정확도 및 강건성 극대화 제약 없음 N개 모델 비용
지식 증류 교사-학생 간 지식 이전 (학습) 1개 (학생) 모델 압축, 효율화 제약 없음 단일 (소형) 모델 비용

표 1 데이터 출처: 3

모델 융합 기술은 크게 두 가지 접근 방식으로 나눌 수 있다. 하나는 모델의 가중치를 고차원 공간의 점으로 보고 이를 직접 보간하는 ‘가중치 공간(Weight-Space)’ 접근 방식이며, 다른 하나는 미세 조정을 통해 학습된 ‘능력’ 자체를 벡터로 간주하여 연산하는 ‘태스크 공간(Task-Space)’ 접근 방식이다.

이 접근법은 신경망의 파라미터들을 고차원 기하학적 공간에 위치한 점으로 간주하고, 이 점들 사이에서 최적의 중간 지점을 찾는 것을 목표로 한다. 이는 모델의 전체적인 특성을 부드럽게 혼합하는 방식이다.

가장 직관적이고 간단한 융합 방법은 둘 이상의 모델 가중치 행렬을 요소별로(element-wise) 평균 내는 것이다.1 이 방법은 “모델 수프(Model Soups)”라는 이름으로 널리 알려져 있으며, 수식으로는 \(W_\text{merged}=αW_1+(1−α)W_2\) 와 같이 표현할 수 있다.25

하지만 이러한 선형 평균 방식은 신경망의 복잡하고 비볼록(non-convex)적인 손실 지형(loss landscape)에서 근본적인 한계를 가진다. 두 개의 좋은 해(모델)를 잇는 직선 경로가 실제로는 매우 높은 손실 값을 갖는 영역을 통과할 수 있기 때문에, 단순 평균이 오히려 모든 부모 태스크의 성능을 저하시키는 “상쇄 효과(cancelling-out effect)”를 낳을 수 있다.7

구면 선형 보간법(Spherical Linear Interpolation, SLERP)은 선형 보간의 한계를 극복하기 위해 제안된 더 정교한 기법이다. SLERP는 모델 파라미터를 고차원 구(sphere) 위의 벡터로 간주하고, 두 벡터 사이의 최단 경로, 즉 대원 호(great-circle arc)를 따라 보간한다.1 이 방식은 선형 보간 시 발생할 수 있는 가중치 벡터의 크기(magnitude) 감소 문제를 방지하고, 모델 가중치의 기하학적 속성을 더 잘 보존한다.29

SLERP의 메커니즘은 가중치 벡터들을 단위 길이로 정규화(normalize)하고, 두 벡터 사이의 각도를 계산한 뒤, 이 각도를 따라 구면 경로상에서 보간을 수행하는 과정으로 이루어진다.2

SLERP는 두 모델 간의 “더 부드러운” 전환을 가능하게 하고 각 부모 모델의 고유한 특성을 더 잘 보존하기 때문에 종종 선형 평균보다 선호되며, 현재 가장 널리 사용되는 융합 방법 중 하나이다.7 그러나 표준 SLERP 알고리즘은 한 번에 두 개의 모델만 융합할 수 있다는 한계를 가진다. 여러 모델을 융합하기 위해서는 계층적으로 두 모델씩 짝을 지어 반복적으로 적용해야 한다.1

선형 평균에서 SLERP로의 발전은 모델 융합 연구가 가중치 공간의 기하학적 구조에 대한 깊은 이해를 바탕으로 진화하고 있음을 보여준다. 이는 단순히 ‘무엇을’ 평균낼 것인가의 문제를 넘어, ‘어떻게’ 평균낼 것인가가 성능에 결정적인 영향을 미친다는 인식을 반영한다. 즉, 단순 산술에서 기하학적으로 유의미한 보간으로의 패러다임 전환을 의미한다.

이 패러다임은 모델 전체를 융합하는 대신, 미세 조정을 통해 학습된 특정 ‘능력’ 또는 ‘기술’을 분리하여 이들을 조합한다는 혁신적인 개념을 제시한다. 이는 모델 편집(model editing)의 관점에서 융합을 바라보는 접근법이다.

“Editing Models with Task Arithmetic”이라는 기념비적인 논문에서 제안된 핵심 아이디어는 태스크 벡터(task vector, $\tau$)이다.15 태스크 벡터는 특정 태스크에 대해 미세 조정된 모델의 가중치($θ_\text{finetuned}$)에서 원래의 사전 훈련된 기반 모델의 가중치($θ_\text{pretrained}$)를 요소별로 뺀 값으로 정의된다: $\tau=θ_\text{finetuned}−θ_\text{pretrained}$.15 이 벡터는 해당 태스크를 학습함으로써 발생한 가중치 공간에서의 ‘변화 방향’을 나타내며, 곧 학습된 ‘능력’ 그 자체를 표상한다.

이러한 태스크 벡터들은 간단한 선형 대수 연산을 통해 조작될 수 있다.

흥미롭게도, 태스크 산술은 연합 학습에서 널리 사용되는 알고리즘인 연합 평균(Federated Averaging, FedAvg)의 1회 수행(one-shot)과 수학적으로 동일하다는 것이 밝혀졌다. 이 연결고리는 연합 학습 분야에서 축적된 방대한 이론적 연구 결과를 태스크 산술의 성능을 이해하고 개선하는 데 활용할 수 있는 길을 열어주었다.15

단순한 태스크 벡터 덧셈의 가장 큰 약점은 태스크 간섭(task interference) 또는 파라미터 충돌(parameter conflicts)이다. 이는 서로 다른 태스크가 동일한 파라미터에 대해 상충하는 업데이트(예: 한 태스크는 가중치를 증가시켜야 하고, 다른 태스크는 감소시켜야 하는 경우)를 요구할 때 발생한다.7 이러한 간섭을 해결하지 않고 무턱대고 더하면 성능 저하로 이어질 수 있다.8 이 문제를 해결하기 위해 여러 정교한 기법들이 제안되었다.

아래 표는 지금까지 논의된 핵심적인 모델 융합 기법들의 원리와 장단점을 요약한 것이다.

표 2: 주요 모델 융합 기법 요약

기법 핵심 원리 주요 장점 주요 단점 핵심 한계
모델 수프 모델 가중치의 선형/가중 평균 구현이 간단하고 계산 효율적 성능 저하 및 상쇄 효과 발생 가능 비볼록 손실 지형에 부적합
SLERP 가중치 벡터의 구면 선형 보간 기하학적 속성 보존, 부드러운 융합 계산이 더 복잡함 한 번에 두 모델만 융합 가능
태스크 산술 태스크 벡터의 산술 연산 (덧셈/뺄셈) 능력의 분리 및 조합 가능, 모델 편집 태스크 간섭 문제 발생 선형적 조합 가정의 한계
TIES-Merging 태스크 벡터의 가지치기, 부호 선택, 병합 태스크 간섭을 체계적으로 해결 과정이 복잡하고 하이퍼파라미터에 민감 최적의 임계값 설정이 어려움
DARE 태스크 벡터의 무작위 제거 및 재조정 간섭 완화에 효과적이고 구현이 비교적 간단 무작위성에 따른 성능 변동 가능성 높은 비율의 파라미터 제거에 대한 이론적 근거 부족

표 2 데이터 출처: 1

기초적인 정적 융합 방법을 넘어, 모델 융합 분야는 입력에 따라 동적으로 작동하거나 융합 과정 자체를 자동화하는 등 더욱 정교하고 진보된 전략으로 나아가고 있다. 이러한 첨단 기법들은 모델 융합의 한계를 극복하고 새로운 가능성을 열고 있다.

모든 전문가의 지식을 단일한 밀집(dense) 파라미터 집합에 강제로 통합하려는 시도는 필연적으로 태스크 간섭 문제를 야기한다. 이에 대한 해법으로, 전문가들의 지식을 어느 정도 분리된 상태로 유지하되 필요에 따라 선택적으로 활용하는 패러다임이 등장했다. 이것이 바로 전문가 혼합(Mixture-of-Experts, MoE) 기반의 융합 전략이다. 이 접근법은 여러 “전문가(experts)”(개별 모델, 레이어, 또는 특정 블록이 될 수 있음)와 입력에 따라 어떤 전문가를 활성화할지 결정하는 “게이팅 네트워크(gating network)” 또는 “라우터(router)”로 구성된 모델을 만든다.36

라우팅 기반 융합은 태스크 간섭 문제를 해결하기 위한 논리적 진화의 다음 단계라고 볼 수 있다. TIES와 같은 정적 방법으로 모든 입력에 대한 단일 최적의 타협점을 찾기 어렵다면, 융합 자체를 동적으로 만들어 입력에 따라 다른 전문가를 활용함으로써 충돌을 원천적으로 회피하는 것이다. 이는 “충돌하는 파라미터를 어떻게 잘 평균낼 것인가”의 문제에서 “충돌하지 않는 파라미터로 입력을 어떻게 잘 라우팅할 것인가”의 문제로 전환시킨, 더 우아하고 확장 가능한 해결책이다. 이는 모델 융합 기술이 모듈형 및 희소 AI 아키텍처라는 더 넓은 AI 트렌드와 수렴하고 있음을 보여준다.

최근 사카나 AI(Sakana AI)와 같은 연구 기관을 중심으로, 진화 알고리즘(evolutionary algorithms)을 사용하여 최적의 융합 전략을 자동으로 탐색하는 혁신적인 접근법이 제안되었다.47 이 방법은 현재 모델 융합의 주요 병목 현상인 인간의 직관과 수동적인 실험에 대한 의존성을 극복하는 것을 목표로 한다.50

이론적 논의를 넘어, 모델 융합 기술이 실제로 어떻게 활용되고 있으며 어떤 성과를 내고 있는지를 구체적인 사례를 통해 살펴본다. 오픈소스 생태계의 활성화부터 다양한 산업 분야에서의 적용에 이르기까지, 모델 융합은 이미 실질적인 가치를 창출하고 있다.

허깅페이스 허브(Hugging Face Hub)는 모델 융합 기술의 확산에 결정적인 역할을 하며, 수많은 오픈소스 융합 모델이 공유되고 경쟁하는 중심지가 되었다.16 실제로 오픈 LLM 리더보드(Open LLM Leaderboard)의 상위권에는 융합을 통해 탄생한 모델들이 다수 포진해 있으며, 이는 모델 융합의 실효성을 입증하는 강력한 증거이다.51

모델 융합은 특정 산업 분야의 문제를 해결하거나 서로 다른 도메인의 기술을 결합하는 데에도 활발히 사용되고 있다.

모델 융합 기술은 괄목할 만한 발전을 이루었지만, 여전히 해결해야 할 여러 도전 과제를 안고 있다. 이 섹션에서는 현재 기술의 한계를 비판적으로 고찰하고, 미래 연구가 나아가야 할 방향을 제시한다.

최근 연구들은 모델 융합의 효과가 일정하지 않으며, 사용되는 모델의 근본적인 특성에 따라 크게 달라진다는 점을 밝혀냈다. 이는 ‘스케일링 가설’로 요약될 수 있으며, 다음과 같은 핵심적인 발견들을 포함한다.12

이러한 발견들은 연구의 초점을 ‘어떤 알고리즘이 최적인가’에서 ‘어떤 특성을 가진 모델이 융합에 더 적합한가’로 이동시키고 있다. 즉, 더 나은 융합 알고리즘 개발과 함께, 융합에 용이한 ‘융합 친화적(merge-friendly)’ 기반 모델을 개발하는 것이 중요한 연구 방향이 될 수 있음을 시사한다.

현재 대부분의 가중치 기반 융합 기법(선형 평균, SLERP, 태스크 산술 등)은 부모 모델들이 동일한 아키텍처와 토크나이저를 가져야 한다는 근본적인 제약을 안고 있다.1 이는 가중치 행렬에 대한 요소별 연산을 전제로 하기 때문이다. 이 제약은 예를 들어 Llama 모델과 Mistral 모델처럼 서로 다른 아키텍처를 가진 모델들을 융합하는 것을 불가능하게 만들어, 기술의 활용 범위를 크게 제한한다.50 이 문제를 해결하기 위한 연구는 다음과 같은 방향으로 진행되고 있다.

모델 융합에서 가장 중요하지만 종종 간과되는 문제는 안전성이다. 융합 과정이 바람직하지 않은 행동을 전파하고 심지어 증폭시킬 수 있기 때문이다. 예를 들어, 잘 정렬된(aligned) 여러 모델 사이에 유해하거나 편향된 모델 하나를 순진하게 융합하면, 최종 모델 전체가 유해하게 오염될 수 있다(“썩은 사과 하나가 한 통의 사과를 망친다”).9 기존 융합 기법들은 대부분 성능 최적화에만 초점을 맞추고 안전성은 고려하지 않는다.

이러한 문제를 해결하기 위한 접근법은 다음과 같다.

모델 융합 분야는 여전히 많은 미해결 과제와 연구 기회를 남겨두고 있다.

아래 표는 모델 융합의 주요 도전 과제와 현재 연구되고 있는 완화 전략들을 정리한 것이다.

표 3: 모델 융합의 주요 도전 과제와 완화 전략

도전 과제 설명 주요 완화 접근법 / 연구 방향
태스크 간섭 서로 다른 태스크가 동일 파라미터에 대해 상충하는 업데이트를 요구하여 성능이 저하되는 문제. TIES-Merging, DARE 등 간섭 해결 알고리즘; 라우팅 기반 동적 융합 (MoE)
아키텍처 이질성 대부분의 기법이 동일 아키텍처를 요구하여, 서로 다른 구조의 모델 융합이 어려움. 아키텍처 변환, 가중치 정렬, 레이어 스태킹, 비제약적 융합 프레임워크 연구
안전성 및 정렬 유해하거나 편향된 모델이 융합될 경우, 최종 모델 전체가 오염될 수 있는 위험. 안전성 인지 융합, 데이터 기반 정렬, 태스크 벡터 뺄셈을 통한 독성 제거
확장성 융합하는 태스크 수가 많아질수록 개별 전문가 대비 성능 격차가 커지는 문제. 성능 저하를 최소화하는 대규모 다중 태스크 융합 알고리즘 개발
이론적 기반 부족 융합이 작동하는 원리에 대한 수학적, 이론적 이해가 부족하여 경험에 의존함. 손실 지형 분석, 연합 학습 이론과의 연계 등 이론적 토대 마련
해석 가능성 융합된 모델의 내부 의사결정 과정이 불투명하여 신뢰성 확보가 어려움. 융합 모델의 해석 가능성(Interpretability) 및 설명 가능성(Explainability) 향상 연구

표 3 데이터 출처: 1

별도로 학습된 AI 모델을 하나로 융합하는 기술은 단순한 기술적 실험을 넘어, 대규모 AI 모델 개발의 경제적, 전략적 현실에 대응하는 핵심 패러다임으로 자리 잡았다. 초기의 단순한 가중치 평균에서 시작하여, 가중치 공간의 기하학적 구조를 고려하는 SLERP, 학습된 ‘능력’ 자체를 연산하는 태스크 산술, 그리고 태스크 간섭 문제를 해결하기 위한 TIES-Merging과 DARE에 이르기까지, 모델 융합 기술은 빠르게 정교화되었다.

더 나아가, 이 분야는 정적인 융합을 넘어 입력에 따라 동적으로 전문가를 선택하는 라우팅 기반 융합(MoE)과, 인간의 개입 없이 최적의 융합법을 탐색하는 진화적 알고리즘으로 발전하며 그 지평을 넓히고 있다. 이러한 기술들은 오픈소스 생태계와 결합하여 비용 효율적으로 고성능의 맞춤형 모델을 제작하는 길을 열어주었으며, 금융, AIOps, 스마트 시티, 로보틱스 등 다양한 산업 분야에서 실질적인 가치를 창출하고 있다.

그러나 아키텍처 이질성, 안전성 정렬, 확장성과 같은 중대한 도전 과제들은 여전히 남아있다. 특히, 융합 모델의 안전성과 신뢰성을 확보하는 것은 이 기술이 사회적으로 중요한 시스템에 널리 채택되기 위한 필수 전제 조건이다. 미래 연구는 이러한 기술적 한계를 극복하고, 융합의 작동 원리에 대한 깊은 이론적 토대를 마련하며, 더 다양한 분야로의 응용을 모색하는 방향으로 나아갈 것이다. 모델 융합은 AI 개발의 민주화를 가속화하고, 기존 모델들의 집단 지성을 활용하여 우리가 상상하지 못했던 새로운 능력을 창출하는, 강력하고 유망한 미래 기술임이 분명하다.

  1. What is Model Merging? Techniques & Challenges - Deepchecks, accessed July 20, 2025, https://www.deepchecks.com/glossary/model-merging/
  2. SLM Model Weight Merging for Federated Multi-tenant Requirements, accessed July 20, 2025, https://techcommunity.microsoft.com/blog/azure-ai-services-blog/slm-model-weight-merging-for-federated-multi-tenant-requirements/4407315
  3. Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities - arXiv, accessed July 20, 2025, https://arxiv.org/html/2408.07666v4
  4. Introduction to Model Merging in AI - Flow AI, accessed July 20, 2025, https://www.flow-ai.com/blog/introduction-to-model-merging
  5. arxiv.org, accessed July 20, 2025, https://arxiv.org/html/2505.12082v2
  6. Large Language Models: A Survey - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.06196v3
  7. Supercharging Large Language Models through Model Merging by …, accessed July 20, 2025, https://medium.com/@jonathan.raia40/model-merge-and-its-methods-c9b3e7ba8d96
  8. An Introduction to Model Merging for LLMs NVIDIA Technical Blog, accessed July 20, 2025, https://developer.nvidia.com/blog/an-introduction-to-model-merging-for-llms/
  9. Model Merging and Safety Alignment: One Bad Model Spoils the Bunch - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2024.findings-emnlp.762.pdf
  10. Unconstrained Model Merging for Enhanced LLM Reasoning - arXiv, accessed July 20, 2025, https://arxiv.org/html/2410.13699v1
  11. Activation-Informed Merging of Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.02421v1
  12. What Matters for Model Merging at Scale? - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=9sbetmvNpW
  13. DATALESS KNOWLEDGE FUSION BY MERGING WEIGHTS OF LANGUAGE MODELS - OpenReview, accessed July 20, 2025, https://openreview.net/pdf?id=FCnohuR6AnM
  14. From Task-Specific Models to Unified Systems: A Review of Model Merging Approaches, accessed July 20, 2025, https://arxiv.org/html/2503.08998v1
  15. Task Arithmetic Through The Lens Of One-Shot Federated Learning - OpenReview, accessed July 20, 2025, https://openreview.net/pdf/2584a9b9ae45c6addd7c81d77604515bb011f7db.pdf
  16. Top 12 Open Source Models on HuggingFace in 2025 - Analytics Vidhya, accessed July 20, 2025, https://www.analyticsvidhya.com/blog/2024/12/top-open-source-models-on-hugging-face/
  17. Models - Hugging Face, accessed July 20, 2025, https://huggingface.co/models?other=LLM
  18. Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories …, accessed July 20, 2025, https://arxiv.org/abs/2408.07666
  19. Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities - SciSpace, accessed July 20, 2025, https://scispace.com/pdf/model-merging-in-llms-mllms-and-beyond-methods-theories-1st6jmr3pvbe.pdf
  20. FuseLLM: Fusion of large language models (LLMs) - SuperAnnotate, accessed July 20, 2025, https://www.superannotate.com/blog/fusellm
  21. Knowledge Fusion of Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2401.10491v1
  22. MergeKD: an empirical framework for combining knowledge distillation with model fusion using BERT model - ScholarSpace, accessed July 20, 2025, https://scholarspace.manoa.hawaii.edu/bitstreams/10658936-b565-48d5-b5a6-4b528f51aa36/download
  23. Everything You Need to Know about Knowledge Distillation - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/Kseniase/kd
  24. Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability - arXiv, accessed July 20, 2025, https://arxiv.org/html/2504.16056v1
  25. Merging Large Language Models (LLMs): A Guide to Combining AI for Better Performance, accessed July 20, 2025, https://medium.com/@danaasa/merging-large-language-models-llms-a-guide-to-combining-ai-for-better-performance-ff59dff59741
  26. arXiv:2503.04872v2 [cs.CL] 17 Mar 2025, accessed July 20, 2025, https://arxiv.org/pdf/2503.04872?
  27. Flipping Knowledge Distillation: Leveraging Small Models’ Expertise to Enhance LLMs in Text Matching - arXiv, accessed July 20, 2025, https://arxiv.org/html/2507.05617v1
  28. A Comprehensive Guide on Merging Language Models - Ionio, accessed July 20, 2025, https://www.ionio.ai/blog/merge-ai-models-using-mergekit
  29. Merge Large Language Models with mergekit - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/mlabonne/merge-models
  30. Task Arithmetic Papers With Code, accessed July 20, 2025, https://paperswithcode.com/task/task-arithmetic
  31. Task Arithmetic for Model Editing by Ayo Akinkugbe Jun, 2025 Medium, accessed July 20, 2025, https://ayoakin.medium.com/task-arithmetic-for-model-editing-ff71081b36d1
  32. Editing models with task arithmetic - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=6t0Kwf8-jrj
  33. [2212.04089] Editing Models with Task Arithmetic - ar5iv - arXiv, accessed July 20, 2025, https://ar5iv.labs.arxiv.org/html/2212.04089
  34. editing models with task arithmetic - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2212.04089.pdf?ref=blog.premai.io
  35. Editing Models with Task Arithmetic - The VITALab website, accessed July 20, 2025, https://vitalab.github.io/article/2024/05/09/task-arithmetic.html
  36. Merging Multi-Task Models via Weight-Ensembling Mixture of Experts - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.00433v2
  37. Merging Multi-Task Models via Weight-Ensembling Mixture of Experts - GitHub, accessed July 20, 2025, https://raw.githubusercontent.com/mlresearch/v235/main/assets/tang24e/tang24e.pdf
  38. Disentangling Task Interference within Neurons: Model Merging in Alignment with Neuronal Mechanisms - arXiv, accessed July 20, 2025, https://arxiv.org/html/2503.05320v1
  39. Papers Explained Review 13: Model Merging by Ritvik Rastogi - Medium, accessed July 20, 2025, https://ritvik19.medium.com/papers-explained-review-13-model-merging-d0db49797b90
  40. Mixture of LoRA Experts - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=uWvKBCYh4S
  41. Merging Multi-Task Models via Weight-Ensembling Mixture of Experts, accessed July 20, 2025, https://proceedings.mlr.press/v235/tang24e.html
  42. Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.04411v2
  43. Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing - arXiv, accessed July 20, 2025, https://www.arxiv.org/pdf/2502.04411
  44. (PDF) 1bit-Merging: Dynamic Quantized Merging for Large Language Models, accessed July 20, 2025, https://www.researchgate.net/publication/389090350_1bit-Merging_Dynamic_Quantized_Merging_for_Large_Language_Models
  45. 1bit-Merging: Dynamic Quantized Merging for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.10743v2
  46. 1bit-Merging: Dynamic Quantized Merging for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.10743v1
  47. [2403.13187] Evolutionary Optimization of Model Merging Recipes - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2403.13187
  48. Evolutionary Optimization of Model Merging Recipes Clio AI Research Insights, accessed July 20, 2025, https://www.clioapp.ai/research/model-merging-recipes
  49. Paper deep dive: Evolutionary Optimization of Model Merging Recipes - YouTube, accessed July 20, 2025, https://www.youtube.com/watch?v=BihyfzOidDI
  50. Tailoring Intelligence Part 2: Model merging by Daniel Porras Reyes Medium, accessed July 20, 2025, https://dpr648.medium.com/tailoring-intelligence-part-2-model-merging-a3d6a4af92d9
  51. Open LLM Leaderboard best models ❤️‍ - Hugging Face, accessed July 20, 2025, https://huggingface.co/collections/open-llm-leaderboard/open-llm-leaderboard-best-models-652d6c7965a4619fb5c27a03
  52. How I made my best LLM!! Top 50 model in Huggingface Leaderboard - YouTube, accessed July 20, 2025, https://www.youtube.com/watch?v=qoQowDbq8_Y
  53. Best Open Source LLMs of 2025 - Klu.ai, accessed July 20, 2025, https://klu.ai/blog/open-source-llm-models
  54. AIOps와 LLM의 만남: IT 운영 혁신을 이끄는 차세대 기술 융합 - 로미는내고양이, accessed July 20, 2025, https://romyismycat.tistory.com/entry/AIOps%EC%99%80-LLM%EC%9D%98-%EB%A7%8C%EB%82%A8-IT-%EC%9A%B4%EC%98%81-%ED%98%81%EC%8B%A0%EC%9D%84-%EC%9D%B4%EB%81%84%EB%8A%94-%EC%B0%A8%EC%84%B8%EB%8C%80-%EA%B8%B0%EC%88%A0-%EC%9C%B5%ED%95%A9
  55. 금융업 LLM 활용 사례 :: KB국민카드 - 스켈터랩스, accessed July 20, 2025, https://www.skelterlabs.com/blog/llm-usecase
  56. 인공지능 융합서비스 (AI+X) 표준화 동향 - TTA 한국 정보통신기술협회, accessed July 20, 2025, http://weekly.tta.or.kr/weekly/files/20233306093329_weekly.pdf
  57. 사물인터넷과 인공지능을 결합한 AIoT의 기술발전과 보안동향 - 이글루코퍼레이션, accessed July 20, 2025, https://www.igloo.co.kr/security-information/%EC%82%AC%EB%AC%BC%EC%9D%B8%ED%84%B0%EB%84%B7%EA%B3%BC-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EC%9D%84-%EA%B2%B0%ED%95%A9%ED%95%9C-aiot%EC%9D%98-%EA%B8%B0%EC%88%A0%EB%B0%9C%EC%A0%84%EA%B3%BC-%EB%B3%B4/
  58. 거대언어모델을 넘어 거대행동모델의 등장, LAM 시대 - 클루닉스, accessed July 20, 2025, https://clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=835
  59. 거대언어모델(LLM)과 로봇설비(RoboMaster)의 결합을 통한 지능형 자율구동 시스템 개발 아주대학교 대학혁신단, accessed July 20, 2025, https://www.ajou.ac.kr/ace/paran/meeting.do?mode=view&articleNo=328541&title=%EA%B1%B0%EB%8C%80%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8%28LLM%29%EA%B3%BC+%EB%A1%9C%EB%B4%87%EC%84%A4%EB%B9%84%28RoboMaster%29%EC%9D%98+%EA%B2%B0%ED%95%A9%EC%9D%84+%ED%86%B5%ED%95%9C+%EC%A7%80%EB%8A%A5%ED%98%95+%EC%9E%90%EC%9C%A8%EA%B5%AC%EB%8F%99+%EC%8B%9C%EC%8A%A4%ED%85%9C+%EA%B0%9C%EB%B0%9C
  60. Daily Papers - Hugging Face, accessed July 20, 2025, https://huggingface.co/papers?q=model%20merging
  61. AI 모델(AI Model)의 이해 - Databricks, accessed July 20, 2025, https://www.databricks.com/kr/glossary/ai-models
  62. Awesome-Model-Merging-Methods-Theories-Applications/README.md at main - GitHub, accessed July 20, 2025, https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications/blob/main/README.md
  63. [D] What are some open-ended problems in model merging of LLMs? - Reddit, accessed July 20, 2025, https://www.reddit.com/r/MachineLearning/comments/1ik6me0/d_what_are_some_openended_problems_in_model/
  64. EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications - GitHub, accessed July 20, 2025, https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications