대규모 언어 모델을 위한 모델 융합 기술
패러다임, 알고리즘 및 미래 전망
인공지능(AI), 특히 대규모 언어 모델(LLM) 분야에서 모델 융합(Model Merging)은 여러 개의 독립적으로 훈련되거나 미세 조정된 모델의 파라미터(가중치)를 결합하여 단일의 통합된 모델을 생성하는 기술로 정의된다.1 이 과정은 여러 모델의 예측 결과를 집계하는 앙상블(Ensemble) 방식과 달리, 모델의 가중치 공간(weight space)에서 직접 작동하여 물리적으로 새로운 단일 모델을 창조한다는 점에서 근본적인 차이를 보인다.3 모델 융합의 등장은 단순한 기술적 호기심을 넘어, 현대 AI 개발 환경의 경제적, 전략적 요구에 대한 필연적 귀결로 이해할 수 있다.
이 기술의 부상을 이끈 핵심 동기는 다음과 같이 요약된다.
- 비용 및 자원 효율성: 현대의 초거대 AI 모델을 처음부터 훈련하는 데에는 막대한 계산 자원과 비용이 소요된다.5 모델 융합은 이러한 막대한 비용을 들이지 않고도 기존에 존재하는 여러 전문가 모델의 능력을 결합하여 새로운 고성능 모델을 만들 수 있는 비용 효율적인 대안을 제시한다.4 특히, 특정 목적을 위해 미세 조정을 수행하고 남은 소위 “실패한 실험” 모델들을 폐기하지 않고 재활용하여 새로운 가치를 창출함으로써 실험 과정의 낭비를 줄일 수 있다.8
- 역량 강화 및 다기능성 확보: 모델 융합의 가장 주된 목표는 각 “부모” 모델이 가진 고유한 강점과 전문 지식을 상속받아, 이들을 모두 갖춘 더 강력한 단일 모델을 만드는 것이다.1 예를 들어, 수학적 추론에 능한 모델과 코딩에 특화된 모델을 융합함으로써 수학적 사고를 바탕으로 코드를 생성하는 것과 같은 창발적(emergent)이고 조합적인 능력을 갖춘 모델을 탄생시킬 수 있다.9 이는 단일 작업 모델을 다중 작업(multi-task) 모델로 전환하는 효과적인 방법론이다.4
- 정확도 및 강건성 향상: 서로 다른 데이터나 하이퍼파라미터로 훈련된 여러 모델의 가중치를 평균화하거나 보간(interpolation)함으로써, 융합된 모델은 특정 데이터셋에 대한 과적합(overfitting)을 완화하고 분포 외(out-of-distribution) 데이터에 대한 일반화 성능과 강건성(robustness)을 향상시킬 수 있다.1
- 분산형 모델 개발 지원: 모델 융합은 여러 팀이나 기관이 각자의 데이터를 사용하여 독립적으로 전문가 모델을 개발한 뒤, 원본 데이터에 접근할 필요 없이 이 모델들을 결합할 수 있는 개발 패러다임을 가능하게 한다.12 이는 데이터 프라이버시를 보호하면서 협업을 촉진하는 연합 학습(Federated Learning)의 원칙과도 일맥상통한다.13
결론적으로, 모델 융합의 부상은 거대 기술 기업 중심의 단일 거대 모델(monolithic model) 개발 방식에서 벗어나, 허깅페이스(Hugging Face)와 같은 플랫폼을 통해 확산된 수많은 오픈소스 전문가 모델들을 마치 “레고 블록”처럼 조합하여 새로운 가치를 창출하는 모듈식(modular) 개발 패러다임으로의 전환을 의미한다.16 이는 AI 산업의 경제적 제약에 대한 실용적인 해법이자, 모델 개발의 민주화를 촉진하는 핵심 기술이라 할 수 있다.
모델 융합의 개념을 명확히 이해하기 위해서는 종종 혼용되는 앙상블 학습(Ensemble Learning) 및 지식 증류(Knowledge Distillation)와의 차이점을 엄격하게 구분할 필요가 있다. 이 세 가지 패러다임은 모두 여러 모델의 지식을 활용한다는 공통점이 있지만, 그 작동 원리, 목표, 추론 비용 측면에서 뚜렷한 차이를 보인다.
- 모델 융합 vs. 앙상블 학습:
- 작동 메커니즘: 모델 융합은 추론(inference) 이전에 파라미터 수준(parameter-level)에서 작동한다. 즉, 여러 모델의 가중치 행렬을 직접 결합하여 물리적으로 하나의 새로운 모델을 생성한다. 반면, 앙상블 학습은 추론 과정에서 출력 수준(output-level)에서 작동하며, 여러 개의 독립된 모델을 동시에 실행하여 각 모델의 예측 결과를 종합(예: 투표, 평균)하여 최종 결정을 내린다.3
- 추론 비용: 모델 융합은 최종적으로 단일 모델만 사용하므로, 추론 비용은 단일 모델과 동일하다. 앙상블은 구성 모델 전부를 병렬적으로 실행해야 하므로, 모델 수에 비례하여 계산 및 메모리 사용량이 크게 증가한다.4
- 모델 융합 vs. 지식 증류:
- 작동 메커니즘: 모델 융합은 보통 동일한 아키텍처를 가진 동등한(peer) 모델들을 결합하여 지식을 종합한다. 반면, 지식 증류는 거대한 “교사(teacher)” 모델의 지식을 더 작은 “학생(student)” 모델에게 이전하는 계층적 프로세스이다.20 학생 모델은 교사 모델의 출력(소프트 타겟)이나 내부 표현을 모방하도록 학습한다.
- 주요 목표: 모델 융합의 목표는 일반적으로 개별 부모 모델보다 더 뛰어난 성능을 가진 모델을 만드는 것이다. 지식 증류의 전통적인 목표는 모델 압축(model compression)으로, 교사 모델의 성능을 근사하면서도 더 작고 효율적인 학생 모델을 만드는 데 있다.21
- 아키텍처 제약: 가중치 기반의 모델 융합은 일반적으로 부모 모델들이 동일하거나 매우 유사한 아키텍처를 가져야 한다는 제약이 있다.1 반면 지식 증류는 지식 이전이 출력/로짓(logit) 수준에서 일어나므로 학생 모델이 교사 모델과 완전히 다른 아키텍처를 가질 수 있어 더 유연하다.22
최근에는 이러한 패러다임들의 경계가 점차 허물어지는 하이브리드 접근법도 등장하고 있다. 예를 들어, “Branch-Merge” 기법은 지식 증류를 통해 생성된 여러 전문가 학생 모델들을 다시 융합하는 방식으로, 두 패러다임의 장점을 모두 취한다.26 또한, 대규모 언어 모델이 특화된 소규모 언어 모델로부터 학습하는 “역전된(flipped)” 지식 증류 방식도 연구되고 있다.27
이러한 개념적 차이를 명확히 하기 위해 아래 표에 세 가지 패러다임을 비교하여 정리하였다.
표 1: 모델 결합 패러다임 비교
| 패러다임 |
핵심 메커니즘 |
최종 모델 수 |
일반적 목표 |
아키텍처 제약 |
추론 비용 |
| 모델 융합 |
추론 전, 파라미터(가중치) 결합 |
1개 |
역량 강화, 다기능성 확보 |
동일/유사 아키텍처 필요 |
단일 모델 비용 |
| 앙상블 학습 |
추론 중, 출력(예측) 집계 |
N개 (유지) |
정확도 및 강건성 극대화 |
제약 없음 |
N개 모델 비용 |
| 지식 증류 |
교사-학생 간 지식 이전 (학습) |
1개 (학생) |
모델 압축, 효율화 |
제약 없음 |
단일 (소형) 모델 비용 |
표 1 데이터 출처: 3
모델 융합 기술은 크게 두 가지 접근 방식으로 나눌 수 있다. 하나는 모델의 가중치를 고차원 공간의 점으로 보고 이를 직접 보간하는 ‘가중치 공간(Weight-Space)’ 접근 방식이며, 다른 하나는 미세 조정을 통해 학습된 ‘능력’ 자체를 벡터로 간주하여 연산하는 ‘태스크 공간(Task-Space)’ 접근 방식이다.
이 접근법은 신경망의 파라미터들을 고차원 기하학적 공간에 위치한 점으로 간주하고, 이 점들 사이에서 최적의 중간 지점을 찾는 것을 목표로 한다. 이는 모델의 전체적인 특성을 부드럽게 혼합하는 방식이다.
가장 직관적이고 간단한 융합 방법은 둘 이상의 모델 가중치 행렬을 요소별로(element-wise) 평균 내는 것이다.1 이 방법은 “모델 수프(Model Soups)”라는 이름으로 널리 알려져 있으며, 수식으로는
\(W_\text{merged}=αW_1+(1−α)W_2\)
와 같이 표현할 수 있다.25
- 균등/단순 수프 (Uniform/Naive Soup): 모든 모델의 성능을 고려하지 않고 동일한 가중치로 평균을 내는 방식이다.8 구현은 간단하지만, 성능이 낮은 모델이 포함될 경우 전체 융합 모델의 성능을 저하시킬 수 있는 위험이 있다.7
- 탐욕적 수프 (Greedy Soup): 이 단점을 보완하기 위해 제안된 방식으로, 먼저 검증 데이터셋(validation set)을 기준으로 모델들의 성능 순위를 매긴다. 그 후, 가장 성능이 좋은 모델부터 시작하여 차순위 모델과 순차적으로 융합을 시도한다. 만약 융합된 모델의 성능이 이전보다 향상되면 해당 융합을 채택하고, 그렇지 않으면 해당 모델을 건너뛰고 다음 모델과 융합을 시도한다. 이 과정을 반복함으로써 최종 융합 모델이 적어도 개별 모델 중 가장 성능이 좋은 모델 이상의 성능을 갖도록 보장한다.8
하지만 이러한 선형 평균 방식은 신경망의 복잡하고 비볼록(non-convex)적인 손실 지형(loss landscape)에서 근본적인 한계를 가진다. 두 개의 좋은 해(모델)를 잇는 직선 경로가 실제로는 매우 높은 손실 값을 갖는 영역을 통과할 수 있기 때문에, 단순 평균이 오히려 모든 부모 태스크의 성능을 저하시키는 “상쇄 효과(cancelling-out effect)”를 낳을 수 있다.7
구면 선형 보간법(Spherical Linear Interpolation, SLERP)은 선형 보간의 한계를 극복하기 위해 제안된 더 정교한 기법이다. SLERP는 모델 파라미터를 고차원 구(sphere) 위의 벡터로 간주하고, 두 벡터 사이의 최단 경로, 즉 대원 호(great-circle arc)를 따라 보간한다.1 이 방식은 선형 보간 시 발생할 수 있는 가중치 벡터의 크기(magnitude) 감소 문제를 방지하고, 모델 가중치의 기하학적 속성을 더 잘 보존한다.29
SLERP의 메커니즘은 가중치 벡터들을 단위 길이로 정규화(normalize)하고, 두 벡터 사이의 각도를 계산한 뒤, 이 각도를 따라 구면 경로상에서 보간을 수행하는 과정으로 이루어진다.2
SLERP는 두 모델 간의 “더 부드러운” 전환을 가능하게 하고 각 부모 모델의 고유한 특성을 더 잘 보존하기 때문에 종종 선형 평균보다 선호되며, 현재 가장 널리 사용되는 융합 방법 중 하나이다.7 그러나 표준 SLERP 알고리즘은 한 번에 두 개의 모델만 융합할 수 있다는 한계를 가진다. 여러 모델을 융합하기 위해서는 계층적으로 두 모델씩 짝을 지어 반복적으로 적용해야 한다.1
선형 평균에서 SLERP로의 발전은 모델 융합 연구가 가중치 공간의 기하학적 구조에 대한 깊은 이해를 바탕으로 진화하고 있음을 보여준다. 이는 단순히 ‘무엇을’ 평균낼 것인가의 문제를 넘어, ‘어떻게’ 평균낼 것인가가 성능에 결정적인 영향을 미친다는 인식을 반영한다. 즉, 단순 산술에서 기하학적으로 유의미한 보간으로의 패러다임 전환을 의미한다.
이 패러다임은 모델 전체를 융합하는 대신, 미세 조정을 통해 학습된 특정 ‘능력’ 또는 ‘기술’을 분리하여 이들을 조합한다는 혁신적인 개념을 제시한다. 이는 모델 편집(model editing)의 관점에서 융합을 바라보는 접근법이다.
“Editing Models with Task Arithmetic”이라는 기념비적인 논문에서 제안된 핵심 아이디어는 태스크 벡터(task vector, $\tau$)이다.15 태스크 벡터는 특정 태스크에 대해 미세 조정된 모델의 가중치($θ_\text{finetuned}$)에서 원래의 사전 훈련된 기반 모델의 가중치($θ_\text{pretrained}$)를 요소별로 뺀 값으로 정의된다: $\tau=θ_\text{finetuned}−θ_\text{pretrained}$.15 이 벡터는 해당 태스크를 학습함으로써 발생한 가중치 공간에서의 ‘변화 방향’을 나타내며, 곧 학습된 ‘능력’ 그 자체를 표상한다.
이러한 태스크 벡터들은 간단한 선형 대수 연산을 통해 조작될 수 있다.
- 덧셈 ($θ_\text{pretrained}+\tau_A+\tau_B$): 여러 태스크 벡터를 더하여 다양한 능력을 갖춘 다중 작업 모델을 생성한다.15
- 뺄셈 ($θ_\text{pretrained}−\tau_A$): 특정 태스크를 “잊게(unlearn)” 하거나, 독성(toxicity)과 같은 바람직하지 않은 행동을 완화하는 데 사용된다.33
- 유추 ($θ_\text{pretrained}+\tau_A−\tau_B+\tau_C$): “A와 B의 관계는 C와 D의 관계와 같다”는 유추 관계가 성립할 때, A, B, C의 태스크 벡터를 조합하여 D 태스크에 대한 데이터 없이도 D 태스크의 성능을 향상시킬 수 있다.32
흥미롭게도, 태스크 산술은 연합 학습에서 널리 사용되는 알고리즘인 연합 평균(Federated Averaging, FedAvg)의 1회 수행(one-shot)과 수학적으로 동일하다는 것이 밝혀졌다. 이 연결고리는 연합 학습 분야에서 축적된 방대한 이론적 연구 결과를 태스크 산술의 성능을 이해하고 개선하는 데 활용할 수 있는 길을 열어주었다.15
단순한 태스크 벡터 덧셈의 가장 큰 약점은 태스크 간섭(task interference) 또는 파라미터 충돌(parameter conflicts)이다. 이는 서로 다른 태스크가 동일한 파라미터에 대해 상충하는 업데이트(예: 한 태스크는 가중치를 증가시켜야 하고, 다른 태스크는 감소시켜야 하는 경우)를 요구할 때 발생한다.7 이러한 간섭을 해결하지 않고 무턱대고 더하면 성능 저하로 이어질 수 있다.8 이 문제를 해결하기 위해 여러 정교한 기법들이 제안되었다.
- TIES-Merging (Trim, Elect Sign, & Merge): 태스크 간섭을 해결하기 위해 특별히 설계된 방법이다.1 이름에서 알 수 있듯이 세 단계로 작동한다.
- Trim (가지치기): 각 태스크 벡터에서 변화량이 가장 큰(가장 중요한) 상위 k%의 가중치만 남기고 나머지는 0으로 만든다. 이를 통해 벡터를 희소(sparse)하게 만들어 핵심적인 파라미터에만 집중한다.7
- Elect Sign (부호 선택): 모든 가지치기된 벡터들을 대상으로, 각 파라미터 위치에서 양수 부호와 음수 부호 중 어느 쪽의 누적 변화량(cumulative magnitude)이 더 큰지를 계산하여 지배적인 부호를 선택한다. 이를 통해 부호 충돌을 해결한다.7
- Disjoint Merge (분리 병합): 선택된 지배적 부호와 일치하는 가중치 값들만 모아 평균을 내어 최종 융합 벡터를 생성한다.39
- DARE (Drop and Rescale): 간섭 완화를 위한 또 다른 접근법이다. DARE는 변화량의 크기를 기준으로 가지치기하는 대신, 태스크 벡터의 델타 파라미터 중 높은 비율(예: 90~99%)을 무작위로 제거(0으로 설정)한다. 그 후, 모델 출력의 기댓값을 보존하기 위해 남아있는 파라미터들의 스케일을 조정(rescale)한다. 이처럼 극단적인 희소화 기법이 놀랍게도 효과적으로 간섭을 완화하는 것으로 나타났다.1
아래 표는 지금까지 논의된 핵심적인 모델 융합 기법들의 원리와 장단점을 요약한 것이다.
표 2: 주요 모델 융합 기법 요약
| 기법 |
핵심 원리 |
주요 장점 |
주요 단점 |
핵심 한계 |
| 모델 수프 |
모델 가중치의 선형/가중 평균 |
구현이 간단하고 계산 효율적 |
성능 저하 및 상쇄 효과 발생 가능 |
비볼록 손실 지형에 부적합 |
| SLERP |
가중치 벡터의 구면 선형 보간 |
기하학적 속성 보존, 부드러운 융합 |
계산이 더 복잡함 |
한 번에 두 모델만 융합 가능 |
| 태스크 산술 |
태스크 벡터의 산술 연산 (덧셈/뺄셈) |
능력의 분리 및 조합 가능, 모델 편집 |
태스크 간섭 문제 발생 |
선형적 조합 가정의 한계 |
| TIES-Merging |
태스크 벡터의 가지치기, 부호 선택, 병합 |
태스크 간섭을 체계적으로 해결 |
과정이 복잡하고 하이퍼파라미터에 민감 |
최적의 임계값 설정이 어려움 |
| DARE |
태스크 벡터의 무작위 제거 및 재조정 |
간섭 완화에 효과적이고 구현이 비교적 간단 |
무작위성에 따른 성능 변동 가능성 |
높은 비율의 파라미터 제거에 대한 이론적 근거 부족 |
표 2 데이터 출처: 1
기초적인 정적 융합 방법을 넘어, 모델 융합 분야는 입력에 따라 동적으로 작동하거나 융합 과정 자체를 자동화하는 등 더욱 정교하고 진보된 전략으로 나아가고 있다. 이러한 첨단 기법들은 모델 융합의 한계를 극복하고 새로운 가능성을 열고 있다.
모든 전문가의 지식을 단일한 밀집(dense) 파라미터 집합에 강제로 통합하려는 시도는 필연적으로 태스크 간섭 문제를 야기한다. 이에 대한 해법으로, 전문가들의 지식을 어느 정도 분리된 상태로 유지하되 필요에 따라 선택적으로 활용하는 패러다임이 등장했다. 이것이 바로 전문가 혼합(Mixture-of-Experts, MoE) 기반의 융합 전략이다. 이 접근법은 여러 “전문가(experts)”(개별 모델, 레이어, 또는 특정 블록이 될 수 있음)와 입력에 따라 어떤 전문가를 활성화할지 결정하는 “게이팅 네트워크(gating network)” 또는 “라우터(router)”로 구성된 모델을 만든다.36
- WEMoE (Weight-Ensembling MoE): 주로 비전 트랜스포머(Vision Transformer)를 위해 제안된 기법이다. 대부분의 파라미터는 평균화하여 융합하되, 트랜스포머의 MLP 레이어는 MoE 모듈로 확장한다. 이 MoE 모듈은 입력 데이터에 따라 융합된 기반 모델의 공유 지식과 각 전문가의 태스크별 특수 지식을 동적으로 통합하여, 태스크 간섭 문제에 대한 더 유연한 해결책을 제공한다.36
- MoLE (Mixture of LoRA Experts): MoE 개념을 경량 미세 조정 기법인 LoRA(Low-Rank Adaptation) 어댑터에 적용한 것이다. 여러 LoRA 가중치를 직접 융합하면 최적의 성능을 내기 어려울 수 있으므로, MoLE는 각 LoRA 어댑터를 독립적인 전문가로 유지하고, 어떤 전문가 조합을 사용할지를 학습 가능한 게이팅 메커니즘을 통해 동적으로 결정한다.40
- Mediator: 적응형 레이어별 라우팅 접근법이다. 이 방법은 먼저 모델의 각 레이어별로 파라미터 충돌 수준이 높은지 낮은지를 정량적으로 분석한다. 충돌 수준이 낮은 레이어들은 단순 평균하여 공통 지식을 효율적으로 확보하고, 충돌 수준이 높은 레이어들은 개별 전문가로 취급하여 추론 시 동적으로 라우팅한다. 이 하이브리드 방식은 효율성과 성능 사이의 균형을 맞춘다.42
라우팅 기반 융합은 태스크 간섭 문제를 해결하기 위한 논리적 진화의 다음 단계라고 볼 수 있다. TIES와 같은 정적 방법으로 모든 입력에 대한 단일 최적의 타협점을 찾기 어렵다면, 융합 자체를 동적으로 만들어 입력에 따라 다른 전문가를 활용함으로써 충돌을 원천적으로 회피하는 것이다. 이는 “충돌하는 파라미터를 어떻게 잘 평균낼 것인가”의 문제에서 “충돌하지 않는 파라미터로 입력을 어떻게 잘 라우팅할 것인가”의 문제로 전환시킨, 더 우아하고 확장 가능한 해결책이다. 이는 모델 융합 기술이 모듈형 및 희소 AI 아키텍처라는 더 넓은 AI 트렌드와 수렴하고 있음을 보여준다.
최근 사카나 AI(Sakana AI)와 같은 연구 기관을 중심으로, 진화 알고리즘(evolutionary algorithms)을 사용하여 최적의 융합 전략을 자동으로 탐색하는 혁신적인 접근법이 제안되었다.47 이 방법은 현재 모델 융합의 주요 병목 현상인 인간의 직관과 수동적인 실험에 대한 의존성을 극복하는 것을 목표로 한다.50
- 메커니즘: 진화 과정은 다양한 레이어 조합과 융합 파라미터를 가진 후보 융합 모델들의 ‘개체군(population)’을 생성하는 것으로 시작한다. 이 모델들은 특정 벤치마크 점수와 같은 ‘적합도 함수(fitness function)’에 따라 평가되며, 가장 우수한 성능을 보인 “부모” 모델들이 선택되어 다음 세대의 모델들을 “생성(reproduce)”한다. 이 과정을 반복함으로써, 인간이 설계하기 어려운 방대한 융합 조합의 탐색 공간을 자동으로 탐험하게 된다.48
- 파라미터 공간과 데이터 흐름 공간: 이 접근법의 중요한 혁신은 단지 파라미터 공간(어떤 가중치를 어떻게 융합할지)에서만 최적화를 수행하는 것이 아니라, 데이터 흐름 공간(입력이 어떤 레이어 순서로 처리될지, 심지어 다른 모델의 레이어를 교차하여 통과하는 것까지 포함)에서도 최적화를 진행한다는 점이다.47 이를 통해 인간 전문가가 상상하기 어려운 새롭고 성능이 뛰어난 하이브리드 아키텍처를 발견할 수 있다. 예를 들어, 일본어 LLM과 수학 LLM을 융합하여 수학적 추론이 가능한 일본어 모델을 자동으로 생성하는 데 성공했다.47
- 의의: 진화적 모델 융합은 기반 모델의 자동화된 구성(automated composition of foundation models)이라는 새로운 패러다임으로의 전환을 예고한다. 이는 고성능 모델 개발을 더욱 민주화하고 효율화하여, 더 적은 자원으로도 혁신적인 모델을 만들 수 있는 가능성을 열어준다.47
이론적 논의를 넘어, 모델 융합 기술이 실제로 어떻게 활용되고 있으며 어떤 성과를 내고 있는지를 구체적인 사례를 통해 살펴본다. 오픈소스 생태계의 활성화부터 다양한 산업 분야에서의 적용에 이르기까지, 모델 융합은 이미 실질적인 가치를 창출하고 있다.
허깅페이스 허브(Hugging Face Hub)는 모델 융합 기술의 확산에 결정적인 역할을 하며, 수많은 오픈소스 융합 모델이 공유되고 경쟁하는 중심지가 되었다.16 실제로 오픈 LLM 리더보드(Open LLM Leaderboard)의 상위권에는 융합을 통해 탄생한 모델들이 다수 포진해 있으며, 이는 모델 융합의 실효성을 입증하는 강력한 증거이다.51
-
주요 융합 모델 사례: 리더보드에 등재된 모델들의 이름을 통해 사용된 융합 기법을 유추해볼 수 있다. 모델 이름에 merged, slerp, TIES, NeuralPipe와 같은 키워드가 포함된 경우가 대표적이다.29 예를 들어,
mlabonne/NeuralPipe-7B-slerp 모델은 OpenPipe/mistral-ft-optimized-1218 모델과 mlabonne/NeuralHermes-2.5-Mistral-7B 모델을 SLERP 방식으로 융합했음을 명확히 보여준다.29
CombinHorizon/zetasepic-abliteratedV2-Qwen2.5-32B-Inst-BaseMerge-TIES 모델은 TIES 융합을 사용했음을 알 수 있다.51
-
핵심 도구 mergekit: 이러한 생태계의 활성화 뒤에는 mergekit이라는 오픈소스 라이브러리가 있다. 이 라이브러리는 SLERP, TIES, DARE, 그리고 서로 다른 모델의 레이어를 쌓는 방식인 패스스루(passthrough) 등 다양한 융합 기법을 사용하기 쉬운 형태로 제공하여, 개발자들이 복잡한 구현 없이도 모델 융합을 실험하고 활용할 수 있도록 지원한다.8
모델 융합은 특정 산업 분야의 문제를 해결하거나 서로 다른 도메인의 기술을 결합하는 데에도 활발히 사용되고 있다.
-
IT 운영을 위한 AI (AIOps): 한 글로벌 전자상거래 기업은 모니터링 솔루션인 데이터독(Datadog)에 LLM을 결합(일종의 모델 융합)하여, 시스템 장애 해결 평균 시간(MTTR)을 60% 단축하고, 트래픽 예측 정확도를 85% 향상시키는 성과를 거두었다.54
-
고객 서비스 및 금융: 국내 KB국민카드는 약 150여 개의 마케팅 이벤트에 대한 고객 문의에 응대하기 위해 검색 증강 생성(RAG) 방식과 GPT-3를 융합한 챗봇 서비스를 도입했다. 이를 통해 고객 경험을 개선하고 상담사의 단순 반복 업무를 줄여 업무 효율성을 높였다.55
-
스마트 시티 및 사물 인터넷 (IoT): 스마트 시티 플랫폼은 모델 융합 기술의 핵심 적용 분야 중 하나이다. 교통, 에너지, 환경 등 서로 다른 도시 데이터를 수집하고, AI 모델을 통해 이를 융합 및 분석하여 통합된 지능형 서비스를 제공한다.56 단순한 사물 인터넷(IoT)을 넘어, 수집된 데이터를 AI가 분석하여 자율적인 의사결정을 내리는 지능형 사물 인터넷(AIoT)으로의 발전 역시 모델 융합 기술에 크게 의존한다.57
-
멀티모달리티 (Multimodality): 텍스트, 이미지, 음성 등 여러 종류의 데이터를 동시에 이해하고 처리하는 멀티모달 모델을 만드는 데 모델 융합은 핵심적인 역할을 한다. OpenAI의 GPT-4V나 구글의 제미니(Gemini)와 같은 대규모 멀티모달 모델(LMM)은 시각과 언어 능력을 융합한 대표적인 사례이다.58 메타(Meta)의
Llama-3.2-11B-Vision-Instruct 모델 역시 사전 훈련된 언어 모델에 시각 어댑터를 통합하여 멀티모달 능력을 구현했다.16
-
로보틱스: LLM의 언어 이해 및 추론 능력을 로봇 제어 시스템과 융합함으로써, 재난 구조 현장과 같이 복잡하고 위험한 환경에서 로봇이 스스로 상황을 분석하고 인간과 유사한 수준의 의사결정을 내리는 지능형 자율 구동 시스템을 개발하는 연구가 진행 중이다.59
모델 융합 기술은 괄목할 만한 발전을 이루었지만, 여전히 해결해야 할 여러 도전 과제를 안고 있다. 이 섹션에서는 현재 기술의 한계를 비판적으로 고찰하고, 미래 연구가 나아가야 할 방향을 제시한다.
최근 연구들은 모델 융합의 효과가 일정하지 않으며, 사용되는 모델의 근본적인 특성에 따라 크게 달라진다는 점을 밝혀냈다. 이는 ‘스케일링 가설’로 요약될 수 있으며, 다음과 같은 핵심적인 발견들을 포함한다.12
- 강력한 기반 모델의 중요성: 융합은 성능이 뛰어난, 즉 제로샷(zero-shot) 성능이 우수한 강력한 기반 모델로부터 미세 조정된 전문가 모델들을 대상으로 할 때 훨씬 더 효과적이다.12 이는 부모 모델의 품질이 융합 결과의 상한선을 결정하는 중요한 요인임을 시사한다.
- 모델 크기의 영향: 모델의 크기가 클수록 융합이 더 “쉽고” 더 큰 성능 향상을 가져온다.12 이는 대형 모델이 가진 풍부한 파라미터 공간이 여러 태스크의 지식을 수용하고 통합하는 데 더 유리하기 때문일 수 있다.
- 알고리즘의 수렴 현상: 흥미롭게도, 모델 규모가 커질수록 SLERP, TIES 등 서로 다른 융합 기법들 간의 성능 차이가 줄어드는 경향이 관찰되었다.12 이는 대규모 모델에서는 융합 알고리즘의 미세한 차이보다 융합 대상이 되는 모델 자체의 품질이 더 중요해짐을 의미할 수 있다.
- 일반화 성능 향상: 모델 융합은 일관되게 일반화 성능을 향상시키는 경향을 보이며, 특히 대형 모델의 경우 여러 태스크의 데이터를 모두 모아 처음부터 다중 작업으로 학습시킨 모델보다도 더 나은 일반화 성능을 보이기도 한다.12
이러한 발견들은 연구의 초점을 ‘어떤 알고리즘이 최적인가’에서 ‘어떤 특성을 가진 모델이 융합에 더 적합한가’로 이동시키고 있다. 즉, 더 나은 융합 알고리즘 개발과 함께, 융합에 용이한 ‘융합 친화적(merge-friendly)’ 기반 모델을 개발하는 것이 중요한 연구 방향이 될 수 있음을 시사한다.
현재 대부분의 가중치 기반 융합 기법(선형 평균, SLERP, 태스크 산술 등)은 부모 모델들이 동일한 아키텍처와 토크나이저를 가져야 한다는 근본적인 제약을 안고 있다.1 이는 가중치 행렬에 대한 요소별 연산을 전제로 하기 때문이다. 이 제약은 예를 들어 Llama 모델과 Mistral 모델처럼 서로 다른 아키텍처를 가진 모델들을 융합하는 것을 불가능하게 만들어, 기술의 활용 범위를 크게 제한한다.50 이 문제를 해결하기 위한 연구는 다음과 같은 방향으로 진행되고 있다.
- 아키텍처 변환: 융합 이전에 이질적인 모델들을 공통의 아키텍처로 변환하는 전처리 단계를 도입하는 연구이다. 지식 증류를 통해 모든 모델의 지식을 공통된 학생 모델로 옮기거나, 레이어를 추가 또는 제거하여 구조를 맞추는 방식이 포함된다.3
- 가중치 정렬 및 순열 변경: 융합 전에 한 모델의 뉴런 순서를 재배열(permute)하여 다른 모델의 해당 뉴런과 기능적으로 정렬시키는 방법이다. 이를 통해 두 모델을 손실 지형의 동일한 “분지(basin)”에 위치시킨 후 융합하여 성능 저하를 막는다.3
- 프랑켄머지 / 레이어 스태킹: 서로 다른 모델의 레이어들을 이어 붙여 새로운 하이브리드 아키텍처를 만드는 실험적인 방법이다. 동일 구조의 필요성을 우회하지만, 결과가 매우 예측 불가능하고 불안정할 수 있다.4
- 비제약적 융합 프레임워크: 최근에는 아키텍처나 모델 크기에 제약을 받지 않는 융합 프레임워크를 개발하려는 연구가 시작되었으며, 특히 추론 능력 결합에서 유망한 결과를 보이고 있다.10
모델 융합에서 가장 중요하지만 종종 간과되는 문제는 안전성이다. 융합 과정이 바람직하지 않은 행동을 전파하고 심지어 증폭시킬 수 있기 때문이다. 예를 들어, 잘 정렬된(aligned) 여러 모델 사이에 유해하거나 편향된 모델 하나를 순진하게 융합하면, 최종 모델 전체가 유해하게 오염될 수 있다(“썩은 사과 하나가 한 통의 사과를 망친다”).9 기존 융합 기법들은 대부분 성능 최적화에만 초점을 맞추고 안전성은 고려하지 않는다.
이러한 문제를 해결하기 위한 접근법은 다음과 같다.
- 안전성 인지 융합 (Safety-Aware Merging): ‘안전 정렬’ 자체를 하나의 독립된 기술이나 태스크 벡터로 간주하고, 융합 과정에서 이를 명시적으로 최적화하는 목표에 포함시키는 것이다.9
- 데이터 기반 정렬: 안전성과 관련된 합성 데이터를 생성하고, 이를 데이터 기반 융합 기법의 최적화 과정에 포함시켜 최종 모델이 안전한 방향으로 유도되도록 한다.9
- 독성 제거 및 망각: 태스크 벡터 뺄셈을 활용하여, 융합 전이나 융합 과정에서 모델이 가진 유해한 행동을 능동적으로 “잊게” 하거나 제거한다.33
모델 융합 분야는 여전히 많은 미해결 과제와 연구 기회를 남겨두고 있다.
- 이론적 기반 확립: 현재 모델 융합 연구는 대부분 경험적(empirical)이다. 왜, 그리고 언제 모델 융합이 효과적으로 작동하는지에 대한 이론적 이해는 아직 부족하다. 더 엄격한 수학적 프레임워크를 개발하는 것이 중요한 미래 연구 방향이다.15
- 성능 격차 및 확장성: 융합하는 태스크의 수가 증가할수록, 융합 모델과 개별 전문가 모델 간의 성능 격차가 벌어지는 경향이 있다. 수십, 수백 개의 태스크를 심각한 성능 저하 없이 융합할 수 있는 새로운 방법론이 필요하다.19
- 메모리 및 계산 비용: 훈련보다 저렴하지만, 초거대 모델들을 융합하는 것은 여전히 막대한 메모리 비용을 유발할 수 있다. 더 메모리 효율적인 알고리즘 개발이 필수적이다.19
- 학제 간 응용 확장: LLM을 넘어 비디오 생성, 연속 학습(catastrophic forgetting 완화), 적대적 학습(공격 및 방어 목적) 등 더 다양한 머신러닝 하위 분야로 융합 기술을 확장하는 연구가 필요하다.18
- 신뢰 및 해석 가능성: 융합된 모델은 종종 그 내부 작동 방식을 이해하기 어려운 복잡한 “블랙박스”가 된다. 중요 애플리케이션에 융합 모델을 안전하게 적용하기 위해서는, 융합 모델의 의사결정 과정을 더 해석 가능하고 신뢰할 수 있게 만드는 연구가 필수적이다.1
아래 표는 모델 융합의 주요 도전 과제와 현재 연구되고 있는 완화 전략들을 정리한 것이다.
표 3: 모델 융합의 주요 도전 과제와 완화 전략
| 도전 과제 |
설명 |
주요 완화 접근법 / 연구 방향 |
| 태스크 간섭 |
서로 다른 태스크가 동일 파라미터에 대해 상충하는 업데이트를 요구하여 성능이 저하되는 문제. |
TIES-Merging, DARE 등 간섭 해결 알고리즘; 라우팅 기반 동적 융합 (MoE) |
| 아키텍처 이질성 |
대부분의 기법이 동일 아키텍처를 요구하여, 서로 다른 구조의 모델 융합이 어려움. |
아키텍처 변환, 가중치 정렬, 레이어 스태킹, 비제약적 융합 프레임워크 연구 |
| 안전성 및 정렬 |
유해하거나 편향된 모델이 융합될 경우, 최종 모델 전체가 오염될 수 있는 위험. |
안전성 인지 융합, 데이터 기반 정렬, 태스크 벡터 뺄셈을 통한 독성 제거 |
| 확장성 |
융합하는 태스크 수가 많아질수록 개별 전문가 대비 성능 격차가 커지는 문제. |
성능 저하를 최소화하는 대규모 다중 태스크 융합 알고리즘 개발 |
| 이론적 기반 부족 |
융합이 작동하는 원리에 대한 수학적, 이론적 이해가 부족하여 경험에 의존함. |
손실 지형 분석, 연합 학습 이론과의 연계 등 이론적 토대 마련 |
| 해석 가능성 |
융합된 모델의 내부 의사결정 과정이 불투명하여 신뢰성 확보가 어려움. |
융합 모델의 해석 가능성(Interpretability) 및 설명 가능성(Explainability) 향상 연구 |
표 3 데이터 출처: 1
별도로 학습된 AI 모델을 하나로 융합하는 기술은 단순한 기술적 실험을 넘어, 대규모 AI 모델 개발의 경제적, 전략적 현실에 대응하는 핵심 패러다임으로 자리 잡았다. 초기의 단순한 가중치 평균에서 시작하여, 가중치 공간의 기하학적 구조를 고려하는 SLERP, 학습된 ‘능력’ 자체를 연산하는 태스크 산술, 그리고 태스크 간섭 문제를 해결하기 위한 TIES-Merging과 DARE에 이르기까지, 모델 융합 기술은 빠르게 정교화되었다.
더 나아가, 이 분야는 정적인 융합을 넘어 입력에 따라 동적으로 전문가를 선택하는 라우팅 기반 융합(MoE)과, 인간의 개입 없이 최적의 융합법을 탐색하는 진화적 알고리즘으로 발전하며 그 지평을 넓히고 있다. 이러한 기술들은 오픈소스 생태계와 결합하여 비용 효율적으로 고성능의 맞춤형 모델을 제작하는 길을 열어주었으며, 금융, AIOps, 스마트 시티, 로보틱스 등 다양한 산업 분야에서 실질적인 가치를 창출하고 있다.
그러나 아키텍처 이질성, 안전성 정렬, 확장성과 같은 중대한 도전 과제들은 여전히 남아있다. 특히, 융합 모델의 안전성과 신뢰성을 확보하는 것은 이 기술이 사회적으로 중요한 시스템에 널리 채택되기 위한 필수 전제 조건이다. 미래 연구는 이러한 기술적 한계를 극복하고, 융합의 작동 원리에 대한 깊은 이론적 토대를 마련하며, 더 다양한 분야로의 응용을 모색하는 방향으로 나아갈 것이다. 모델 융합은 AI 개발의 민주화를 가속화하고, 기존 모델들의 집단 지성을 활용하여 우리가 상상하지 못했던 새로운 능력을 창출하는, 강력하고 유망한 미래 기술임이 분명하다.
- What is Model Merging? Techniques & Challenges - Deepchecks, accessed July 20, 2025, https://www.deepchecks.com/glossary/model-merging/
- SLM Model Weight Merging for Federated Multi-tenant Requirements, accessed July 20, 2025, https://techcommunity.microsoft.com/blog/azure-ai-services-blog/slm-model-weight-merging-for-federated-multi-tenant-requirements/4407315
- Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities - arXiv, accessed July 20, 2025, https://arxiv.org/html/2408.07666v4
- Introduction to Model Merging in AI - Flow AI, accessed July 20, 2025, https://www.flow-ai.com/blog/introduction-to-model-merging
- arxiv.org, accessed July 20, 2025, https://arxiv.org/html/2505.12082v2
- Large Language Models: A Survey - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.06196v3
-
| Supercharging Large Language Models through Model Merging |
by …, accessed July 20, 2025, https://medium.com/@jonathan.raia40/model-merge-and-its-methods-c9b3e7ba8d96 |
-
| An Introduction to Model Merging for LLMs |
NVIDIA Technical Blog, accessed July 20, 2025, https://developer.nvidia.com/blog/an-introduction-to-model-merging-for-llms/ |
- Model Merging and Safety Alignment: One Bad Model Spoils the Bunch - ACL Anthology, accessed July 20, 2025, https://aclanthology.org/2024.findings-emnlp.762.pdf
- Unconstrained Model Merging for Enhanced LLM Reasoning - arXiv, accessed July 20, 2025, https://arxiv.org/html/2410.13699v1
- Activation-Informed Merging of Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.02421v1
- What Matters for Model Merging at Scale? - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=9sbetmvNpW
- DATALESS KNOWLEDGE FUSION BY MERGING WEIGHTS OF LANGUAGE MODELS - OpenReview, accessed July 20, 2025, https://openreview.net/pdf?id=FCnohuR6AnM
- From Task-Specific Models to Unified Systems: A Review of Model Merging Approaches, accessed July 20, 2025, https://arxiv.org/html/2503.08998v1
- Task Arithmetic Through The Lens Of One-Shot Federated Learning - OpenReview, accessed July 20, 2025, https://openreview.net/pdf/2584a9b9ae45c6addd7c81d77604515bb011f7db.pdf
- Top 12 Open Source Models on HuggingFace in 2025 - Analytics Vidhya, accessed July 20, 2025, https://www.analyticsvidhya.com/blog/2024/12/top-open-source-models-on-hugging-face/
- Models - Hugging Face, accessed July 20, 2025, https://huggingface.co/models?other=LLM
- Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories …, accessed July 20, 2025, https://arxiv.org/abs/2408.07666
- Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities - SciSpace, accessed July 20, 2025, https://scispace.com/pdf/model-merging-in-llms-mllms-and-beyond-methods-theories-1st6jmr3pvbe.pdf
- FuseLLM: Fusion of large language models (LLMs) - SuperAnnotate, accessed July 20, 2025, https://www.superannotate.com/blog/fusellm
- Knowledge Fusion of Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2401.10491v1
- MergeKD: an empirical framework for combining knowledge distillation with model fusion using BERT model - ScholarSpace, accessed July 20, 2025, https://scholarspace.manoa.hawaii.edu/bitstreams/10658936-b565-48d5-b5a6-4b528f51aa36/download
- Everything You Need to Know about Knowledge Distillation - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/Kseniase/kd
- Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability - arXiv, accessed July 20, 2025, https://arxiv.org/html/2504.16056v1
- Merging Large Language Models (LLMs): A Guide to Combining AI for Better Performance, accessed July 20, 2025, https://medium.com/@danaasa/merging-large-language-models-llms-a-guide-to-combining-ai-for-better-performance-ff59dff59741
- arXiv:2503.04872v2 [cs.CL] 17 Mar 2025, accessed July 20, 2025, https://arxiv.org/pdf/2503.04872?
- Flipping Knowledge Distillation: Leveraging Small Models’ Expertise to Enhance LLMs in Text Matching - arXiv, accessed July 20, 2025, https://arxiv.org/html/2507.05617v1
- A Comprehensive Guide on Merging Language Models - Ionio, accessed July 20, 2025, https://www.ionio.ai/blog/merge-ai-models-using-mergekit
- Merge Large Language Models with mergekit - Hugging Face, accessed July 20, 2025, https://huggingface.co/blog/mlabonne/merge-models
-
| Task Arithmetic |
Papers With Code, accessed July 20, 2025, https://paperswithcode.com/task/task-arithmetic |
-
| Task Arithmetic for Model Editing |
by Ayo Akinkugbe |
Jun, 2025 |
Medium, accessed July 20, 2025, https://ayoakin.medium.com/task-arithmetic-for-model-editing-ff71081b36d1 |
- Editing models with task arithmetic - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=6t0Kwf8-jrj
- [2212.04089] Editing Models with Task Arithmetic - ar5iv - arXiv, accessed July 20, 2025, https://ar5iv.labs.arxiv.org/html/2212.04089
- editing models with task arithmetic - arXiv, accessed July 20, 2025, https://arxiv.org/pdf/2212.04089.pdf?ref=blog.premai.io
- Editing Models with Task Arithmetic - The VITALab website, accessed July 20, 2025, https://vitalab.github.io/article/2024/05/09/task-arithmetic.html
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts - arXiv, accessed July 20, 2025, https://arxiv.org/html/2402.00433v2
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts - GitHub, accessed July 20, 2025, https://raw.githubusercontent.com/mlresearch/v235/main/assets/tang24e/tang24e.pdf
- Disentangling Task Interference within Neurons: Model Merging in Alignment with Neuronal Mechanisms - arXiv, accessed July 20, 2025, https://arxiv.org/html/2503.05320v1
-
| Papers Explained Review 13: Model Merging |
by Ritvik Rastogi - Medium, accessed July 20, 2025, https://ritvik19.medium.com/papers-explained-review-13-model-merging-d0db49797b90 |
- Mixture of LoRA Experts - OpenReview, accessed July 20, 2025, https://openreview.net/forum?id=uWvKBCYh4S
- Merging Multi-Task Models via Weight-Ensembling Mixture of Experts, accessed July 20, 2025, https://proceedings.mlr.press/v235/tang24e.html
- Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.04411v2
- Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing - arXiv, accessed July 20, 2025, https://www.arxiv.org/pdf/2502.04411
- (PDF) 1bit-Merging: Dynamic Quantized Merging for Large Language Models, accessed July 20, 2025, https://www.researchgate.net/publication/389090350_1bit-Merging_Dynamic_Quantized_Merging_for_Large_Language_Models
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.10743v2
- 1bit-Merging: Dynamic Quantized Merging for Large Language Models - arXiv, accessed July 20, 2025, https://arxiv.org/html/2502.10743v1
- [2403.13187] Evolutionary Optimization of Model Merging Recipes - arXiv, accessed July 20, 2025, https://arxiv.org/abs/2403.13187
-
| Evolutionary Optimization of Model Merging Recipes |
Clio AI Research Insights, accessed July 20, 2025, https://www.clioapp.ai/research/model-merging-recipes |
- Paper deep dive: Evolutionary Optimization of Model Merging Recipes - YouTube, accessed July 20, 2025, https://www.youtube.com/watch?v=BihyfzOidDI
-
| Tailoring Intelligence Part 2: Model merging |
by Daniel Porras Reyes |
Medium, accessed July 20, 2025, https://dpr648.medium.com/tailoring-intelligence-part-2-model-merging-a3d6a4af92d9 |
- Open LLM Leaderboard best models ❤️ - Hugging Face, accessed July 20, 2025, https://huggingface.co/collections/open-llm-leaderboard/open-llm-leaderboard-best-models-652d6c7965a4619fb5c27a03
-
| How I made my best LLM!! |
Top 50 model in Huggingface Leaderboard - YouTube, accessed July 20, 2025, https://www.youtube.com/watch?v=qoQowDbq8_Y |
- Best Open Source LLMs of 2025 - Klu.ai, accessed July 20, 2025, https://klu.ai/blog/open-source-llm-models
- AIOps와 LLM의 만남: IT 운영 혁신을 이끄는 차세대 기술 융합 - 로미는내고양이, accessed July 20, 2025, https://romyismycat.tistory.com/entry/AIOps%EC%99%80-LLM%EC%9D%98-%EB%A7%8C%EB%82%A8-IT-%EC%9A%B4%EC%98%81-%ED%98%81%EC%8B%A0%EC%9D%84-%EC%9D%B4%EB%81%84%EB%8A%94-%EC%B0%A8%EC%84%B8%EB%8C%80-%EA%B8%B0%EC%88%A0-%EC%9C%B5%ED%95%A9
- 금융업 LLM 활용 사례 :: KB국민카드 - 스켈터랩스, accessed July 20, 2025, https://www.skelterlabs.com/blog/llm-usecase
- 인공지능 융합서비스 (AI+X) 표준화 동향 - TTA 한국 정보통신기술협회, accessed July 20, 2025, http://weekly.tta.or.kr/weekly/files/20233306093329_weekly.pdf
- 사물인터넷과 인공지능을 결합한 AIoT의 기술발전과 보안동향 - 이글루코퍼레이션, accessed July 20, 2025, https://www.igloo.co.kr/security-information/%EC%82%AC%EB%AC%BC%EC%9D%B8%ED%84%B0%EB%84%B7%EA%B3%BC-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EC%9D%84-%EA%B2%B0%ED%95%A9%ED%95%9C-aiot%EC%9D%98-%EA%B8%B0%EC%88%A0%EB%B0%9C%EC%A0%84%EA%B3%BC-%EB%B3%B4/
- 거대언어모델을 넘어 거대행동모델의 등장, LAM 시대 - 클루닉스, accessed July 20, 2025, https://clunix.com/insight/it_trends.php?boardid=ittrend&mode=view&idx=835
-
- Daily Papers - Hugging Face, accessed July 20, 2025, https://huggingface.co/papers?q=model%20merging
- AI 모델(AI Model)의 이해 - Databricks, accessed July 20, 2025, https://www.databricks.com/kr/glossary/ai-models
- Awesome-Model-Merging-Methods-Theories-Applications/README.md at main - GitHub, accessed July 20, 2025, https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications/blob/main/README.md
- [D] What are some open-ended problems in model merging of LLMs? - Reddit, accessed July 20, 2025, https://www.reddit.com/r/MachineLearning/comments/1ik6me0/d_what_are_some_openended_problems_in_model/
- EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications - GitHub, accessed July 20, 2025, https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications