Booil Jung

Mixture-of-Experts (MoE) 아키텍처

인공지능, 특히 대규모 언어 모델(LLM) 분야의 발전은 모델의 규모와 능력 사이의 깊은 상관관계를 드러냈습니다. 그러나 모델의 매개변수 수를 늘리는 전통적인 방식은 막대한 계산 비용과 에너지 소비라는 한계에 부딪혔습니다. 이러한 배경 속에서 Mixture-of-Experts (MoE) 아키텍처는 모델의 용량을 확장하면서도 계산 효율성을 유지하는 혁신적인 패러다임으로 부상했습니다. 이 보고서는 MoE 아키텍처의 근본적인 원리부터 역사적 발전, 핵심 구성 요소, 주요 모델, 기술적 과제, 그리고 미래 전망에 이르기까지 모든 측면을 심층적으로 고찰하는 것을 목표로 합니다.

MoE 아키텍처의 등장을 이해하기 위해서는 먼저 전통적인 밀집(dense) 모델이 가진 내재적 한계를 인식해야 합니다. GPT-3와 같은 초기 대규모 모델들은 ‘밀집’ 아키텍처를 기반으로 합니다.1 이는 모델이 입력된 모든 토큰(token)을 처리할 때마다 모델의 모든 매개변수(parameter)를 활성화하고 계산에 사용한다는 것을 의미합니다.2 이러한 접근 방식은 모델의 크기, 즉 매개변수의 수가 계산 비용(FLOPs, Floating Point Operations per Second)과 직접적으로 비례하는 구조를 만듭니다.4 따라서 모델의 성능을 높이기 위해 매개변수 수를 늘리면 훈련 시간, 추론 지연 시간, 그리고 에너지 소비가 기하급수적으로 증가하는 문제가 발생합니다.2 이 문제는 더 크고 유능한 모델을 개발하려는 AI 연구의 근본적인 병목 현상으로 작용했습니다.

이러한 밀집 모델의 확장 방식은 단순히 기술적인 문제를 넘어 경제적인 장벽을 형성했습니다. 거대한 모델을 훈련하고 서비스하는 데 필요한 막대한 하드웨어, 시간, 전력 비용은 소수의 거대 기업만이 감당할 수 있는 수준이었습니다.2 AI 기술의 발전이 지속 불가능한 비용 증가와 직결된다는 이 딜레마는 새로운 접근법의 필요성을 시사했습니다. MoE는 이러한 경제적, 기술적 한계를 극복하기 위한 대안으로 등장했습니다. 이는 ‘무차별적 확장(brute-force scaling)’에서 ‘지능적 확장(intelligent scaling)’으로의 전환을 의미하며, 모델이 가진 ‘지식의 총량’(총 매개변수)과 ‘사고의 비용’(활성 매개변수)을 분리함으로써 AI 스케일링의 새로운 길을 열었습니다.1

MoE는 ‘조건부 계산(conditional computation)’이라는 패러다임 전환을 통해 밀집 모델의 한계를 극복합니다.7 조건부 계산의 핵심 아이디어는 모든 입력에 대해 모델 전체를 사용하는 대신, 각 입력에 가장 관련성이 높은 일부만 선택적으로 활성화하는 것입니다.5 이를 ‘희소 활성화(sparse activation)’라고 부르며, MoE 효율성의 근간을 이룹니다.3

이 구조 덕분에 MoE 모델은 수십억, 심지어 수조 개의 “엄청난 수의 매개변수”를 가질 수 있으면서도, 각 토큰을 처리하는 데 드는 실제 계산 비용은 일정하게 유지할 수 있습니다.13 즉, 모델의 전체 용량(total parameters)과 계산 비용(active parameters)을 분리하는 데 성공한 것입니다. 이로 인해 MoE 모델은 거대한 지식 기반을 갖추면서도 훨씬 작은 밀집 모델과 유사한 속도로 추론을 수행할 수 있습니다.

MoE의 작동 방식을 직관적으로 이해하기 위해 ‘전문가 컨설턴트 팀’이라는 비유가 널리 사용됩니다.5 복잡한 문제에 직면했을 때, 모든 분야를 어설프게 아는 한 명의 ‘일반 전문가(generalist)’에게 묻는 것보다, 각 분야의 최고 ‘전문가(specialist)’들에게 자문을 구하는 것이 더 효율적이고 정확합니다. MoE는 이 원리를 모방합니다.

이 비유에서 각 ‘전문가’는 특정 데이터 유형이나 문제 영역(예: 수학, 문학 번역, 코드 생성)에 특화된 작은 신경망(expert network)에 해당합니다.5 그리고 이 전문가 팀을 지휘하는 ‘관리자’ 또는 ‘교통정리 담당자’ 역할은 ‘게이팅 네트워크(gating network)’ 또는 ‘라우터(router)’가 수행합니다.2 게이팅 네트워크는 입력된 데이터를 분석하여 어떤 전문가가 해당 작업을 가장 잘 처리할지 지능적으로 판단하고, 해당 전문가에게 작업을 전달합니다. 이러한 구조는 전문성, 효율성, 그리고 확장성이라는 MoE의 핵심적인 장점을 효과적으로 설명합니다.10

MoE의 개념은 1991년 Robert Jacobs, Geoffrey Hinton, Michael Jordan, Steven Nowlan이 발표한 기념비적인 논문 “Adaptive Mixtures of Local Experts”에서 처음 제안되었습니다.2 이들의 초기 동기는 신경망 내에서 여러 하위 작업(subtask)을 동시에 학습할 때 발생하는 간섭(interference) 현상을 줄이는 것이었습니다.20 이를 해결하기 위해 전체 문제를 여러 하위 문제로 나누고, 각 하위 문제를 전담하는 별도의 ‘전문가 네트워크’와 어떤 전문가를 사용할지 결정하는 ‘게이팅 네트워크’로 구성된 시스템을 제안했습니다.20

초기 아이디어는 여러 전문가의 출력을 선형적으로 결합하는 방식이었습니다. 그러나 이 방식은 각 전문가가 다른 전문가들이 남긴 잔여 오차(residual error)를 보완하기 위해 ‘협력’하는 방향으로 학습되어, 결국 하나의 입력에 대해 다수의 전문가가 관여하는 비효율적인 결과를 낳았습니다.20

이 문제를 해결한 결정적인 혁신은 오차 함수를 재정의하여 전문가들 사이에 ‘경쟁’을 유도한 것이었습니다. 게이팅 네트워크가 확률적으로 단 하나의 전문가를 선택하도록(‘one-out-of-n’ 선택) 시스템을 변경함으로써, 전문가들은 더 이상 협력할 필요 없이 각자 주어진 입력에 대해 완전한 출력을 생성해야 하는 상황에 놓였습니다.20 이 경쟁적 학습 환경은 각 전문가가 데이터의 특정 부분집합에 대해 고도로 특화된 ‘지역 전문가(local expert)’가 되도록 촉진했으며, 이는 현대 MoE 모델에서 볼 수 있는 전문가 전문화의 이론적 토대를 마련했습니다.

1991년에 개념이 정립되었음에도 불구하고, MoE는 수십 년간 주류 기술로 부상하지 못했습니다. 이는 알고리즘 및 성능상의 중대한 도전 과제들 때문이었습니다.8 2017년, Noam Shazeer 등이 발표한 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”는 이 정체기를 끝내는 전환점이 되었습니다. 이 연구는 현대 딥러닝 모델(당시에는 순환 신경망, RNN)에 쉽게 통합할 수 있는 범용 ‘희소 게이팅 MoE 계층(Sparsely-Gated MoE Layer)’을 제안했습니다.8

이 논문의 핵심 기여는 현대적인 GPU 클러스터 환경에서 계산 오버헤드를 최소화하면서 모델 용량을 1000배 이상 확장할 수 있음을 실증적으로 보여준 것입니다.8 이로써 MoE는 마침내 대규모 조건부 계산의 잠재력을 현실화하며 AI 연구의 중심으로 부상하게 되었습니다.

1991년의 개념 정립과 2017년의 실용적 구현 사이의 26년이라는 긴 시간은 MoE의 성공이 단순히 알고리즘의 진보만으로 이루어진 것이 아님을 시사합니다. 이는 하드웨어 및 시스템 엔지니어링의 발전과 알고리즘이 함께 진화한 결과물입니다. 1991년의 논문은 전문가, 게이팅 네트워크, 경쟁적 학습 목표라는 완벽한 개념적 프레임워크를 제시했지만 20, 당시의 하드웨어로는 계산 비용, 통신 병목 현상, 훈련 불안정성과 같은 문제들을 해결할 수 없었습니다.8 GPU와 TPU 같은 강력한 병렬 프로세서와 고대역폭 상호연결(interconnect) 기술의 등장은 전문가를 여러 장치에 분산시키고 토큰을 라우팅하는 복잡한 작업을 실현 가능하게 만들었습니다.8 2017년 Shazeer 등의 연구는 단순한 알고리즘 제안을 넘어, 이러한 현대 하드웨어의 특성을 고려한 ‘시스템 인식적(system-aware)’ 구현이었습니다. 그들은 네트워크 대역폭 병목 현상을 명시적으로 다루고 MoE 계층을 현대 하드웨어에서 효율적으로 작동하도록 설계했습니다. 이는 AI 분야에서 알고리즘의 혁신이 종종 하드웨어의 발전을 기다려야 한다는 패턴을 다시 한번 확인시켜 주며, 알고리즘과 시스템의 공진화(co-evolution)가 기술 발전의 핵심 동력임을 보여주는 중요한 사례입니다.

MoE 패러다임의 기본 원리를 이해한 후, 이제 그 구체적인 아키텍처를 해부하고, 이 기술을 정의한 주요 모델들을 분석하며, 전통적인 밀집 아키텍처와의 비교를 통해 그 장단점을 명확히 할 필요가 있습니다. 이 장에서는 MoE의 내부 작동 방식부터 시작하여, 구글의 스위치 트랜스포머와 미스트랄 AI의 믹스트랄과 같은 랜드마크 모델들을 심층적으로 살펴봅니다.

MoE 아키텍처의 ‘전문가(experts)’는 일반적으로 트랜스포머(Transformer) 모델의 표준 피드포워드 네트워크(Feed-Forward Network, FFN) 블록을 대체하는 작은 신경망들입니다.1 각 전문가는 독립적인 가중치(weights)를 가지지만, 보통 동일한 구조(예: 다층 퍼셉트론, MLP)를 공유합니다.10 이 전문가들의 목표는 훈련 과정에서 데이터의 특정 유형, 패턴, 또는 하위 작업에 대해 유기적으로 전문성을 발달시키는 것입니다.15 예를 들어, 어떤 전문가는 수학적 구문을 처리하는 데 능숙해지고, 다른 전문가는 특정 언어의 문법 구조를 파악하는 데 특화될 수 있습니다.5

‘게이팅 네트워크(gating network)’ 또는 ‘라우터(router)’는 MoE 시스템의 핵심적인 조율자 역할을 하는 경량 신경망입니다.5 게이팅 네트워크는 각 입력 토큰의 표현(representation)을 입력으로 받아, 사용 가능한 모든 전문가에 대한 확률 분포를 출력합니다. 이 과정은 일반적으로 소프트맥스(softmax) 함수를 통해 이루어지며, 출력된 확률 값은 라우터가 특정 전문가가 현재 토큰을 처리하기에 얼마나 적합하다고 판단하는지를 나타냅니다.10 이 라우터의 결정에 따라 토큰은 가장 적합한 전문가에게 동적으로 전달됩니다.

현대의 MoE 구현은 모든 전문가의 출력을 가중 합산하는 ‘밀집 MoE(dense MoE)’ 방식 대신, ‘희소 활성화(sparse activation)’ 방식을 채택합니다.10 이는 게이팅 네트워크가 가장 높은 점수를 받은 상위

k개의 전문가(‘top-k’)만을 선택하여 활성화하는 것을 의미합니다.2

최종적으로 MoE 계층의 출력은 선택된 top-k 전문가들의 출력에 각각의 게이트 값을 곱하여 합산한 결과가 됩니다.10 이 희소 활성화 메커니즘이 바로 MoE가 거대한 모델 용량을 유지하면서도 계산 효율성을 달성하는 비결입니다.

MoE와 밀집 모델의 가장 근본적인 차이는 매개변수 사용 방식에 있습니다. N개의 매개변수를 가진 밀집 모델은 모든 토큰에 대해 N개의 매개변수 전체를 사용합니다. 반면, MoE 모델은 훨씬 더 많은 총 매개변수(예: Mixtral 8x7B의 467억 개)를 가질 수 있지만, 각 토큰을 처리할 때는 그중 일부인 ‘활성 매개변수’(예: Mixtral의 129억 개)만을 사용합니다.17 이는 MoE 모델이 매우 큰 모델의 ‘지식’을 가지면서도 훨씬 작은 모델의 ‘추론 속도’와 ‘계산 비용(FLOPs)’을 가질 수 있음을 의미합니다.1

이러한 구조적 차이는 대규모 언어 모델을 평가하고 비교하는 방식을 근본적으로 바꾸었습니다. 과거에는 모델의 능력이 단순히 밀집 매개변수의 수(예: GPT-2의 15억 개 대 GPT-3의 175억 개)와 강하게 연관되어 있었습니다. 그러나 Mixtral 8x7B (총 467억, 활성 129억)와 같은 MoE 모델이 훨씬 더 큰 밀집 모델인 Llama 2 70B를 다수의 벤치마크에서 능가하는 성능을 보여주면서 17, 이러한 단순 비교는 더 이상 유효하지 않게 되었습니다. 이제 모델을 평가할 때는 “Mixtral은 47B 모델인가, 13B 모델인가?”와 같은 더 미묘한 질문을 던져야 합니다. 정답은 둘 다이면서 둘 다 아니라는 것입니다. Mixtral은 약 47B 모델의 ‘지식 용량’을 가지지만, 약 13B 모델의 ‘추론 비용’을 가집니다.32 이로 인해 업계는 ‘희소성’, ‘활성 매개변수’, ‘라우팅 전략(예: 8x7B, top-2 라우팅)’과 같은 새로운 기술 용어를 사용하여 모델을 보다 정교하게 설명하고 평가하게 되었습니다. 이러한 변화는 연구자들의 공정한 비교뿐만 아니라, 기업이 비용 대비 성능을 고려하여 어떤 모델을 배포할지 결정하는 데에도 중요한 영향을 미치고 있습니다.35

MoE 모델은 밀집 모델과 다른 스케일링 궤적을 보입니다. 동일한 계산 예산 하에서 MoE 모델은 훨씬 빠른 사전 훈련 속도 향상(스위치 트랜스포머의 경우 T5 대비 최대 7배)을 달성할 수 있습니다.13 하지만 여기에는 중요한 트레이드오프가 존재합니다. 바로 메모리 오버헤드입니다. 추론 시에는 매개변수의 일부만 활성화되지만, 모든 전문가의 전체 매개변수 집합이 VRAM에 로드되어야 합니다.3 따라서 MoE는 FLOPs 효율적이지만 메모리 집약적인 아키텍처라고 할 수 있습니다.

순수한 MoE 시스템이 가진 통신 오버헤드 문제를 완화하기 위해 하이브리드 아키텍처가 등장했습니다. 스노우플레이크(Snowflake)의 Arctic 모델이 대표적인 예로, 이 모델은 밀집 트랜스포머 모델과 잔차 연결(residual connection) 방식의 MoE 컴포넌트를 결합합니다.4 밀집 부분이 일부 계산을 로컬에서 처리하여 전체적인 통신 부담을 줄이는 동안, MoE 부분은 거대한 확장 가능 용량을 제공합니다. 이는 순수 밀집 모델과 순수 희소 모델 사이의 실용적인 엔지니어링 절충안을 제시합니다.4

2021년에 발표된 “Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity” 논문은 MoE 분야에 큰 획을 그었습니다.14 이 논문의 핵심 혁신은 복잡한 top-k 라우팅 알고리즘을 단순한 $k=1$ ‘스위치(Switch)’ 계층으로 대체한 것입니다.25 이 사소해 보이는 변경은 상당한 이점을 가져왔습니다. 라우팅 계산량을 줄이고, 전문가당 필요한 배치 크기를 절반으로 감소시켰으며, 전반적인 성능과 안정성을 향상시켰습니다.30

스위치 트랜스포머는 1조 개가 넘는 매개변수를 가진 모델을 성공적으로 훈련시킨 최초의 사례입니다.37 이는 데이터 병렬 처리, 모델 병렬 처리, 그리고 스위치 계층이 가능하게 한 새로운 전문가 병렬 처리를 효율적으로 결합함으로써 달성되었습니다.25 이 논문은 당시 최첨단 밀집 모델이었던 T5-XXL 모델에 비해 4배의 속도 향상을 보였다고 보고했습니다.14

스위치 트랜스포머는 동일한 계산 자원을 사용하면서도 T5-Base 및 T5-Large 모델 대비 최대 7배의 사전 훈련 속도 향상을 입증했습니다.13 특히, 저자들은 희소 모델 훈련의 고질적인 불안정성을 해결하기 위한 핵심적인 기법들을 도입했습니다 25:

미스트랄 AI(Mistral AI)의 믹스트랄(Mixtral) 시리즈는 고성능 MoE 모델을 오픈소스 커뮤니티에 제공하며 큰 반향을 일으켰습니다. 믹스트랄의 아키텍처는 디코더-온리(decoder-only) 트랜스포머를 기반으로 하며, 각 FFN 계층이 8개의 전문가로 구성된 MoE 계층으로 대체됩니다.17 라우팅 전략으로는 top-2를 사용하여 각 토큰이 두 개의 전문가에 의해 처리됩니다.31

믹스트랄이 허용적인 아파치 2.0(Apache 2.0) 라이선스로 출시된 것은 AI 생태계에 중요한 사건이었습니다.31 이로 인해 GPT-3.5와 같은 강력한 폐쇄형 모델에 필적하거나 이를 능가하는 성능을 가진 모델에 대한 접근이 민주화되었습니다.34 이는 오픈소스 MoE 기술을 기반으로 한 수많은 혁신, 연구, 상업적 애플리케이션의 물결을 일으켰으며 5, 데이터브릭스(Databricks)와 같은 경쟁사들이 DBRX와 같은 자체 오픈 MoE 모델을 출시하도록 자극했습니다.36

모델명 총 매개변수 활성 매개변수 전문가 수 Top-k 아키텍처 유형 MMLU HumanEval GSM8k
Switch-C (Google) 1.6T N/A (단일 경로) 2048 1 희소 N/A N/A N/A
Mixtral 8x7B (Mistral AI) 46.7B 12.9B 8 2 희소 70.6 40.2 61.1
Mixtral 8x22B (Mistral AI) 141B 39B 8 2 희소 77.7 55.5 90.8
DBRX (Databricks) 132B 36B 16 4 희소 73.7 70.1 72.8
Arctic (Snowflake) 480B 17B 128 2 하이브리드 N/A 54.9 65.8

주: 벤치마크 점수는 모델의 Instruct 또는 Chat 버전을 기준으로 하며, 논문 및 공개 자료에서 보고된 값입니다. 4

이 표는 MoE 모델의 핵심적인 특성을 한눈에 비교할 수 있게 해줍니다. ‘총 매개변수’와 ‘활성 매개변수’의 극명한 차이는 MoE의 가치를 시각적으로 보여줍니다. 또한, Mixtral의 ‘8개 전문가/top-2’와 DBRX의 ‘16개 전문가/top-4’ 같은 라우팅 전략의 차이는 모델 품질과 복잡성 사이의 다양한 설계 철학을 드러냅니다. 벤치마크 점수는 이러한 아키텍처 선택이 실제 성능에 어떻게 반영되는지를 구체적으로 보여주는 정량적 지표 역할을 합니다.

MoE 아키텍처의 개념과 주요 모델을 이해했다면, 다음 단계는 이 모델들을 실제로 작동시키는 데 따르는 복잡한 현실을 파고드는 것입니다. 이 장에서는 MoE 모델이 직면하는 핵심적인 기술적 과제들과, 연구 커뮤니티가 이를 해결하기 위해 개발한 독창적인 해결책들을 집중적으로 다룹니다.

이상적인 MoE 시스템에서는 모든 전문가에게 토큰이 균등하게 분배됩니다. 하지만 실제 훈련 과정에서 게이팅 네트워크는 종종 소수의 ‘인기 있는’ 전문가를 선호하는 경향을 보입니다.3 이는 선호되는 전문가가 더 빠르게 훈련되고, 그 결과 더 유능해져서 다시 더 많이 선택되는 자기 강화 순환(self-reinforcing cycle)을 만듭니다. 이로 인해 일부 전문가는 과도하게 사용되는 반면, 다른 전문가들은 거의 사용되지 않고 유휴 상태로 남아있게 됩니다(‘모드 붕괴’, mode collapse). 이는 모델의 용량을 낭비하고 전반적인 성능을 저하시키는 심각한 문제입니다.3

이 문제를 해결하기 위한 가장 일반적인 방법은 주 훈련 목표에 ‘보조 손실 함수(auxiliary loss function)’를 추가하여 불균형한 라우팅에 페널티를 부과하는 것입니다.2

또 다른 부하 분산 메커니즘은 각 전문가가 처리할 수 있는 토큰의 최대 개수, 즉 ‘용량(capacity)’을 미리 설정하는 것입니다.7 만약 특정 전문가에게 용량을 초과하는 토큰이 라우팅되면, 초과된 ‘오버플로(overflow)’ 토큰들은 해당 전문가에 의해 처리되지 않고 탈락(drop)됩니다. 이 토큰들의 정보는 잔차 연결(residual connection)을 통해 다음 계층으로 전달되므로, 정보가 완전히 소실되지는 않지만 해당 MoE 계층의 전문가 연산은 건너뛰게 됩니다.41 이는 전문가의 과부하를 막는 강력한 제약 조건으로 작용하지만, 토큰 탈락으로 인한 정보 손실의 위험이 있습니다. 일반적으로 용량 계수(capacity factor)를 1.0보다 약간 큰 값(예: 1.25)으로 설정하여, 라우팅의 약간의 불균형을 흡수하고 토큰 탈락을 최소화하는 버퍼를 둡니다.41

대규모 MoE 모델을 훈련할 때는 병렬 처리를 위해 전문가들을 여러 장치(예: GPU)에 분산시킵니다.2 이때 GPU-1에 있는 토큰이 GPU-2에 위치한 전문가에게 라우팅되면, 해당 토큰의 표현(representation)은 네트워크를 통해 전송되어야 합니다. 모든 GPU가 다른 모든 GPU에게 토큰을 보내야 할 수 있기 때문에, 이 과정에서 막대한 규모의

All-to-All 통신 패턴이 발생합니다.48 이 통신은 각 MoE 계층에서 순방향 전파(토큰 전송)와 역방향 전파(그래디언트 반환) 시 두 번 발생하며, 전체 훈련 시간의 45% 이상을 차지하는 심각한 성능 병목 현상을 유발합니다.51

이 All-to-All 통신 병목 현상은 현대 MoE의 문제가 더 이상 단순한 신경망 알고리즘의 문제가 아니라, 고전적인 고성능 컴퓨팅(High-Performance Computing, HPC) 문제의 영역으로 넘어갔음을 명확히 보여줍니다. All-to-All 집합 통신(collective communication)은 3D FFT와 같은 전통적인 HPC 워크로드에서도 잘 알려진 어려운 과제입니다.48 MoE 모델이 확장되면서, 여러 장치에 분산된 전문가들 사이의 토큰 셔플링은 정확히 이러한 HPC 스타일의 병목 현상을 재현했습니다.48 결과적으로, 이를 해결하기 위해 개발되고 있는 솔루션들 역시 ML 커뮤니티뿐만 아니라 HPC 분야에서 직접 가져온 것들입니다. 토폴로지 인식 라우팅, 집합 통신 알고리즘 최적화, 통신과 계산의 중첩 등이 그 예입니다.46 DeepSpeed-MoE와 같은 시스템은 본질적으로 MoE 워크로드에 맞춤화된 전문 HPC 프레임워크라고 할 수 있습니다.54 이는 딥러닝과 HPC 분야의 융합을 의미하며, 차세대 AI 모델을 구축하기 위해서는 ML 과학자뿐만 아니라 네트워크 토폴로지, 통신 프로토콜, 분산 시스템을 근본적으로 이해하는 시스템 엔지니어와 HPC 전문가가 필수적이라는 점을 시사합니다.

다양한 기법들이 알고리즘 변경과 시스템 인식을 결합하여 통신 문제를 해결합니다.

각 토큰이 선호하는 전문가를 선택하는 표준적인 top-k 게이팅 방식, 즉 ‘토큰 선택(token-choice)’ 라우팅은 부하 분산 문제의 근본적인 원인입니다. 이는 토큰이 전문가에게 ‘밀어넣어지는(push)’ 모델로, 특정 전문가에게 토큰이 몰리는 혼잡 현상을 유발할 수 있습니다.59

GLaM과 EC-DiT 같은 모델에서 사용된 ‘전문가 선택(expert-choice)’ 라우팅은 이 과정을 뒤집습니다.59 토큰이 전문가를 선택하는 대신, 각 전문가가 전체 배치에서 처리하고 싶은 상위

k개의 토큰을 ‘끌어오는(pull)’ 방식입니다. 이 방식의 가장 큰 장점은 각 전문가가 고정된 수의 토큰을 처리하도록 보장함으로써 부하 분산 문제를 본질적으로 해결한다는 것입니다. 이로 인해 보조 부하 분산 손실 함수가 필요 없어져 훈련이 더 안정될 수 있습니다.46

제 10장: 수치 안정성 및 그래디언트 흐름

주어진 토큰에 대해 일부 전문가만 활성화되기 때문에, 역방향 전파 시 그래디언트는 선택된 전문가와 해당 토큰에 대한 라우터의 결정에만 전달됩니다. 이러한 ‘희소 업데이트’는 훈련 불안정성을 유발할 수 있으며, 라우터가 자신이 선택하지 않은 전문가에 대한 피드백을 받지 못하기 때문에 효과적인 학습을 어렵게 만듭니다.44

스위치 트랜스포머 사례 연구에서 논의된 바와 같이, 안정적인 훈련을 위해 몇 가지 기법이 필수적입니다 25:

방대한 매개변수를 가진 MoE 모델은 규모가 작은 다운스트림 데이터셋에 대해 미세 조정할 때 과적합에 매우 취약합니다.41 이에 대한 주된 해결책은 강력한 정규화(regularization)입니다. 스위치 트랜스포머 논문에서는 전문가 계층 내에서만 드롭아웃 비율을 높이는 ‘전문가 드롭아웃’이 간단하면서도 효과적인 해결책임을 발견했습니다.41

과제 핵심 문제 설명 알고리즘적 해결책 시스템 수준 해결책
부하 불균형 게이팅 네트워크가 소수의 ‘인기’ 전문가에게 토큰을 편중시켜 용량 낭비 및 전문화 저해 3 보조 부하 분산 손실 (L_aux, z-loss) 46, 전문가 선택 라우팅 61, 직교성 손실 47 전문가 용량 제한 25, 배치 우선 순위 라우팅 (BPR) 46
통신 오버헤드 분산 훈련 시 전문가 간 토큰 교환으로 인한 All-to-All 통신 병목 현상 51 통신 압축 (LSH, 저정밀도) 51, 하이브리드 아키텍처 (PR-MoE) 55 DeepSpeed-MoE, MegaScale-MoE 51, 통신-계산 중첩, 토폴로지 인식 라우팅 46
훈련 불안정성 희소 업데이트와 라우터의 이산적 결정으로 인한 수치적 불안정성 및 그래디언트 소실/폭발 39 선택적 정밀도 (혼합 정밀도) 39, 작은 가중치 초기화 41, 라우터 z-loss 46 최적화된 분산 훈련 프레임워크 사용 51
과적합 방대한 매개변수로 인해 작은 데이터셋에 미세 조정 시 성능 저하 41 전문가 드롭아웃 41, 정규화 기법 강화 -
해석 가능성 전문가의 기능과 라우팅 결정의 근거를 이해하기 어려움 47 직교성 손실 등 전문화 강화 기법 47, 라우팅 패턴 및 공-활성화 행렬 분석 66 해석 가능성을 위한 시각화 도구 및 프레임워크 개발 45

이 표는 3부에서 논의된 복잡하고 상호 연관된 문제와 해결책을 구조적으로 요약합니다. ‘알고리즘적’ 해결책과 ‘시스템 수준’ 해결책을 구분함으로써, MoE의 과제를 해결하기 위해서는 소프트웨어/모델 설계와 하드웨어/시스템 엔지니어링을 아우르는 다각적인 접근이 필요하다는 핵심을 강조합니다.

MoE 아키텍처의 기술적 깊이를 탐색한 후, 이제 시야를 넓혀 이 기술이 실제로 어디에 사용되고 있는지, 그 내부 작동을 어떻게 이해할 수 있는지, 그리고 앞으로 어떤 방향으로 나아갈지를 조망할 시간입니다. 이 마지막 장에서는 언어 모델을 넘어선 MoE의 다양한 응용 분야를 살펴보고, 전문가 전문화의 미스터리를 파헤치며, MoE 기술의 미래 궤적을 전망합니다.

MoE의 유연성은 언어 모델에만 국한되지 않습니다. 컴퓨터 비전 분야에서도 MoE는 중요한 역할을 하기 시작했으며, 그 대표적인 예가 V-MoE(Vision Transformer with MoE)입니다.69

MoE의 모듈성과 유연성은 다른 여러 분야에서도 그 가치를 인정받고 있습니다.5 대표적인 예는 다음과 같습니다.

MoE의 핵심적인 매력 중 하나는 해석 가능성에 대한 기대였습니다. 각 전문가가 ‘수학 전문가’, ‘역사 전문가’처럼 인간이 이해하기 쉬운 명확한 기능을 가질 것이라는 희망이 있었습니다.16 그러나 실제 연구 결과는 이보다 훨씬 복잡한 현실을 보여줍니다. 전문가들은 명확하게 구분되는 기능 대신, 여러 개념을 동시에 인코딩하는 ‘다의성(polysemanticity)’을 보이며, 전문화는 여러 전문가에 걸쳐 분산되는 경향이 있습니다.27 전문화는 언어적 패턴, 주제, 심지어 시퀀스 내 토큰의 위치와 같은 미묘한 특성을 기반으로 나타납니다.67

이러한 ‘해석 가능성의 격차’는 MoE 연구의 중요한 방향을 제시했습니다. 초기에는 단순히 전문가 팀 비유에 기반한 기대를 가졌지만, 경험적 분석 결과 전문가의 기능이 복잡하고 분산된 형태로 나타난다는 것이 밝혀졌습니다. 이로 인해 연구자들은 라우팅 패턴 분석, 공-활성화 행렬, 어텐션과 전문가 선택 간의 상호작용 분석 등 새로운 동적 분석 도구를 개발하게 되었습니다.66 이를 통해 전문화가 미리 정의된 것이 아니라 복잡한 시스템의 창발적 속성(emergent property)이라는 깊은 이해에 도달했습니다. 더 나아가, 이는 단순히 전문화를 관찰하는 것을 넘어, 직교성 손실과 같은 목적 함수를 통해 전문화를 능동적으로 ‘강제’할 수 있는지에 대한 새로운 연구 방향을 열었습니다.47 결국, MoE의 동적인 특성이 제기하는 도전 과제들은 LLM 해석 가능성 연구 분야 전체를 정적인 가중치 분석에서 동적인 정보 흐름 분석으로 나아가게 하는 촉매제가 되고 있습니다.

전문가들의 행동을 이해하기 위해 연구자들은 라우팅 결정을 분석합니다.45

전문성이 약하거나 중복되는 문제를 해결하기 위해, 이를 명시적으로 유도하는 기법들이 연구되고 있습니다. 대표적으로 훈련 목표에 ‘직교성 손실(orthogonality loss)’을 추가하여 전문가들의 표현(representation)이 서로 멀어지도록 강제함으로써, 각기 다른 기능을 학습하도록 유도하는 방법이 있습니다.47

고성능 오픈소스 MoE 모델의 등장은 AI 시장의 경쟁 구도를 바꾸고 있습니다.

이러한 경쟁은 기술 혁신을 가속화하고 있으며, 사용자들에게 폐쇄형 모델에 대한 강력하고 자유로운 대안을 제공하고 있습니다.5

이 보고서에서 분석한 여러 연구 자료들은 MoE의 미래에 대한 몇 가지 공통된 방향을 제시합니다.

Mixture-of-Experts 아키텍처는 학계의 틈새 개념에서 출발하여 현대 인공지능의 핵심 기둥 중 하나로 자리 잡았습니다. 이는 모델 용량을 확장하기 위한 지속 가능한 경로를 제공하며, 밀집 모델의 막대한 계산 비용이라는 장벽을 허물었습니다. MoE는 단순한 효율성 향상을 넘어, 모델의 전문화, 유연성, 확장성을 새로운 차원으로 끌어올렸습니다. 앞으로 MoE는 더욱 강력하고 효율적이며 궁극적으로 더 지능적인 시스템을 구현하는 데 핵심적인 역할을 할 것이며, 미래의 범용 인공지능(AGI) 아키텍처의 중요한 구성 요소가 될 잠재력을 지니고 있습니다.16 이 기술에 대한 지속적인 연구와 개발은 인공지능의 새로운 지평을 열어갈 것입니다.

  1. MoE (Mixture of Expert) Explained: How Sparse Models Are Changing Deep Learning, accessed July 16, 2025, https://medium.com/@riteshpcs1994/moe-mixture-of-expert-explained-how-sparse-models-are-changing-deep-learning-f91eb796d913
  2. Mixture of Experts LLMs: Key Concepts Explained - neptune.ai, accessed July 16, 2025, https://neptune.ai/blog/mixture-of-experts-llms
  3. Mixture-of-Experts (MoE) LLMs: The Future of Efficient AI Models - SaM Solutions, accessed July 16, 2025, https://sam-solutions.com/blog/moe-llm-architecture/
  4. MoE vs Dense vs Hybrid LLM architectures hybridMoe – Weights & Biases - Wandb, accessed July 16, 2025, https://wandb.ai/zaiinn440/hybridMoe/reports/MoE-vs-Dense-vs-Hybrid-LLM-architectures–Vmlldzo3NzYwNzAw
  5. Mixture of Experts (MoE) Architecture: A Deep Dive and Comparison of Top Open-Source Offerings, accessed July 16, 2025, https://www.architectureandgovernance.com/applications-technology/mixture-of-experts-moe-architecture-a-deep-dive-and-comparison-of-top-open-source-offerings/
  6. A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications - arXiv, accessed July 16, 2025, https://arxiv.org/html/2503.07137v1
  7. A Brief Introduction to Mixtures-of-Experts - Transcendent AI, accessed July 16, 2025, https://www.transcendent-ai.com/post/a-brief-introduction-to-mixtures-of-experts
  8. OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER, accessed July 16, 2025, https://www.cs.toronto.edu/~hinton/absps/Outrageously.pdf
  9. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer - arXiv, accessed July 16, 2025, https://arxiv.org/abs/1701.06538
  10. MoE (Mixture of Experts) for Dummies: A Beginner’s Guide - Michiel Horstman, accessed July 16, 2025, https://michielh.medium.com/moe-mixture-of-experts-for-dummies-d1a7e14c1846
  11. Mixture of Experts (MoE) Explained - Ultralytics, accessed July 16, 2025, https://www.ultralytics.com/glossary/mixture-of-experts-moe
  12. What is Mixture of Experts (MoE)? How it Works and Use Cases - Zilliz Learn, accessed July 16, 2025, https://zilliz.com/learn/what-is-mixture-of-experts
  13. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, accessed July 16, 2025, https://www.researchgate.net/publication/348403003_Switch_Transformers_Scaling_to_Trillion_Parameter_Models_with_Simple_and_Efficient_Sparsity
  14. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, accessed July 16, 2025, https://arxiv.org/abs/2101.03961
  15. What Is Mixture of Experts (MoE)? How It Works, Use Cases & More …, accessed July 16, 2025, https://www.datacamp.com/blog/mixture-of-experts-moe
  16. Understanding Mixture-of-Experts (MoE) Architecture in AI by Diwakar Kumar Medium, accessed July 16, 2025, https://medium.com/@diwakarkumar_18755/understanding-mixture-of-experts-moe-architecture-in-ai-224e3b3b9243
  17. LLM Mixture of Experts Explained - TensorOps, accessed July 16, 2025, https://www.tensorops.ai/post/what-is-mixture-of-experts-llm
  18. medium.com, accessed July 16, 2025, https://medium.com/mlworks/mixture-of-experts-explained-the-next-evolution-in-ai-architecture-305902959bce#:~:text=A%20bit%20of%20history%20on,network%20through%20gating%20during%20inference.
  19. What is Mixture of Experts (MOE): Architecture, Models, and Applications by Tahir Medium, accessed July 16, 2025, https://medium.com/@tahirbalarabe2/what-is-mixture-of-experts-moe-architecture-models-and-applications-ca86f8beb58c
  20. Adaptive Mixtures of Local Experts - Department of Computer …, accessed July 16, 2025, https://www.cs.toronto.edu/~fritz/absps/jjnh91.pdf
  21. (PDF) Adaptive Mixtures of Local Experts - ResearchGate, accessed July 16, 2025, https://www.researchgate.net/publication/233806999_Adaptive_Mixtures_of_Local_Experts
  22. Topic 1: What is Mixture-of-Experts (MoE)? - Turing Post, accessed July 16, 2025, https://www.turingpost.com/p/moe
  23. The Evolution of Mixture Of Experts: From Basics To Breakthroughs Towards AI, accessed July 16, 2025, https://towardsai.net/p/machine-learning/the-evolution-of-mixture-of-experts-from-basics-to-breakthroughs
  24. The Evolution of MoE: A Review from Basics to Breakthroughs - OpenReview, accessed July 16, 2025, https://openreview.net/pdf/4cf5e9e598c59a7784467ce4fd1c2579d1be93b9.pdf
  25. Switch Transformers: Scaling to Trillion Parameter Models with …, accessed July 16, 2025, https://jmlr.org/papers/volume23/21-0998/21-0998.pdf
  26. Papers Explained 95: Mixtral 8x7B by Ritvik Rastogi - Medium, accessed July 16, 2025, https://ritvik19.medium.com/papers-explained-95-mixtral-8x7b-9e9f40ebb745
  27. A Closer Look into Mixture-of-Experts in Large Language Models - arXiv, accessed July 16, 2025, https://arxiv.org/html/2406.18219v2
  28. Mobile V-MoEs Scaling Down Vision Transformers via Sparse Mixture-of-Experts, accessed July 16, 2025, https://zhangtemplar.github.io/mobile-vmoe/
  29. Demystifying Mixture of Experts (MoE): The future for deep GenAI systems - Pangeanic Blog, accessed July 16, 2025, https://blog.pangeanic.com/demystifying-mixture-of-experts-moe-the-future-for-deep-genai-systems
  30. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity – Related Work – Interesting papers - Alastair Reid, accessed July 16, 2025, https://alastairreid.github.io/RelatedWork/papers/fedus:arxiv:2021/
  31. Mixtral of Experts - arXiv, accessed July 16, 2025, http://arxiv.org/pdf/2401.04088
  32. Moe for LLMs : r/ollama - Reddit, accessed July 16, 2025, https://www.reddit.com/r/ollama/comments/1iwc049/moe_for_llms/
  33. MoE vs AI Dense Models: How Do They Compare in Inference? Epoch AI, accessed July 16, 2025, https://epoch.ai/gradient-updates/moe-vs-dense-models-inference
  34. [2401.04088] Mixtral of Experts - arXiv, accessed July 16, 2025, https://arxiv.org/abs/2401.04088
  35. Mixtral 8x7B: A game-changing AI model by Mistral AI SuperAnnotate, accessed July 16, 2025, https://www.superannotate.com/blog/mistral-ai-mixtral-of-experts
  36. DBRX 101: Overview of Databricks 132B Parameter Open LLM - Chaos Genius, accessed July 16, 2025, https://www.chaosgenius.io/blog/dbrx/
  37. Scaling to Trillion Parameter Models With Switch Transformers by Zia Babar - Medium, accessed July 16, 2025, https://medium.com/@zbabar/scaling-to-trillion-parameter-models-with-switch-transformers-88ca5fb95e5c
  38. The Rise of Mixture of Experts: Transforming Large Language Models - Gloqo AI, accessed July 16, 2025, https://www.gloqo.ai/insights/mixture_of_experts_moe_vs_dense_llms/
  39. SWITCH TRANSFORMERS: SCALING TO TRILLION PARAMETER MODELS WITH SIMPLE AND EFFICIENT SPARSITY USING DEEP LEARNING - IJCRT, accessed July 16, 2025, https://ijcrt.org/papers/IJCRT2205440.pdf
  40. google/switch-large-128 - Hugging Face, accessed July 16, 2025, https://huggingface.co/google/switch-large-128
  41. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity - cs.Princeton, accessed July 16, 2025, https://www.cs.princeton.edu/courses/archive/fall22/cos597G/lectures/lec16.pdf
  42. mistralai/Mixtral-8x7B-v0.1 - Hugging Face, accessed July 16, 2025, https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
  43. What is a Mixture of Experts LLM (MoE)? by Mehul Gupta Data Science in Your Pocket, accessed July 16, 2025, https://medium.com/data-science-in-your-pocket/what-is-a-mixture-of-experts-llm-moe-8bf98846df41
  44. Improving Deep Learning Performance with Mixture of Experts and Sparse Activation, accessed July 16, 2025, https://www.preprints.org/manuscript/202503.0611/v1
  45. Mixture of Experts in LLMs - Al-banna Tutorials, accessed July 16, 2025, https://albanna-tutorials.com/moe.html
  46. A Survey on Mixture of Experts in Large Language Models - arXiv, accessed July 16, 2025, https://arxiv.org/pdf/2407.06204
  47. Advancing Expert Specialization for Better MoE - arXiv, accessed July 16, 2025, https://arxiv.org/html/2505.22323v1
  48. Efficient all-to-all Collective Communication Schedules for Direct-connect Topologies - University of Washington, accessed July 16, 2025, https://homes.cs.washington.edu/~arvind/papers/all2all-dc.pdf
  49. The all-to-all communication illustration of an MoE model with two… - ResearchGate, accessed July 16, 2025, https://www.researchgate.net/figure/The-all-to-all-communication-illustration-of-an-MoE-model-with-two-experts-in-a_fig2_360961205
  50. Lancet: Accelerating MoE Training via Whole Graph Computation- Communication Overlapping, accessed July 16, 2025, https://mlsys.org/media/mlsys-2024/Slides/2649.pdf
  51. MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production - arXiv, accessed July 16, 2025, https://arxiv.org/html/2505.11432v1
  52. LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing - NIPS, accessed July 16, 2025, https://proceedings.neurips.cc/paper_files/paper/2024/file/61674667d642ae52f6bb281bea90ee29-Paper-Conference.pdf
  53. MoNTA: Accelerating Mixture-of-Experts Training with Network-Traffic-Aware Parallel Optimization - arXiv, accessed July 16, 2025, https://arxiv.org/html/2411.00662v1
  54. DeepSpeed-MOE Advancing Mixture-of-Experts Inference - BytePlus, accessed July 16, 2025, https://www.byteplus.com/en/topic/465227
  55. DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale - Proceedings of Machine Learning Research, accessed July 16, 2025, https://proceedings.mlr.press/v162/rajbhandari22a/rajbhandari22a.pdf
  56. Training Overview and Features - DeepSpeed, accessed July 16, 2025, https://www.deepspeed.ai/training/
  57. [2201.05596] DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale - ar5iv, accessed July 16, 2025, https://ar5iv.labs.arxiv.org/html/2201.05596
  58. Brief Review - DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale - Sik-Ho Tsang, accessed July 16, 2025, https://sh-tsang.medium.com/brief-review-deepspeed-moe-advancing-mixture-of-experts-inference-and-training-to-power-2c1350c7ff47
  59. EC-DiT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing - arXiv, accessed July 16, 2025, https://arxiv.org/html/2410.02098v5
  60. Autonomy-of-Experts Models - arXiv, accessed July 16, 2025, https://arxiv.org/html/2501.13074v1
  61. A Survey of Mixture of Experts Models: Architectures and Applications in Business and Finance - Preprints.org, accessed July 16, 2025, https://www.preprints.org/manuscript/202505.1603/v1
  62. Omni-Router: Sharing Routing Decisions in Sparse Mixture-of-Experts for Speech Recognition - arXiv, accessed July 16, 2025, https://arxiv.org/html/2507.05724v1
  63. Dense Backpropagation Improves Routing for Sparsely-Gated Mixture-of-Experts OpenReview, accessed July 16, 2025, https://openreview.net/forum?id=huy8g3iKy0
  64. Numerical stability - Wikipedia, accessed July 16, 2025, https://en.wikipedia.org/wiki/Numerical_stability
  65. 5.4. Numerical Stability and Initialization - Dive into Deep Learning, accessed July 16, 2025, http://d2l.ai/chapter_multilayer-perceptrons/numerical-stability-and-init.html
  66. Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis - arXiv, accessed July 16, 2025, https://arxiv.org/html/2505.24593v1
  67. FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models - arXiv, accessed July 16, 2025, https://arxiv.org/html/2505.20225v1
  68. Fusing LLM Capabilities with Routing Data - arXiv, accessed July 16, 2025, https://arxiv.org/html/2507.10540v1
  69. Scaling Vision with Sparse Mixture of Experts - Google Research, accessed July 16, 2025, https://research.google/blog/scaling-vision-with-sparse-mixture-of-experts/
  70. Scaling Vision with Sparse Mixture of Experts - NIPS, accessed July 16, 2025, https://papers.neurips.cc/paper_files/paper/2021/file/48237d9f2dea8c74c2a72126cf63d933-Paper.pdf
  71. google-research/vmoe - GitHub, accessed July 16, 2025, https://github.com/google-research/vmoe
  72. AdaMV-MoE: Adaptive Multi-Task Vision Mixture-of-Experts - CVF Open Access, accessed July 16, 2025, https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_AdaMV-MoE_Adaptive_Multi-Task_Vision_Mixture-of-Experts_ICCV_2023_paper.pdf
  73. [2203.07413] Switch Trajectory Transformer with Distributional Value Approximation for Multi-Task Reinforcement Learning - arXiv, accessed July 16, 2025, https://arxiv.org/abs/2203.07413
  74. A Survey of Mixture of Experts Models: Architectures and Applications in Business and Finance Sciety, accessed July 16, 2025, https://sciety.org/articles/activity/10.20944/preprints202505.1603.v1
  75. AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach - arXiv, accessed July 16, 2025, https://arxiv.org/html/2410.10896v1
  76. [2402.12550] Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization - arXiv, accessed July 16, 2025, https://arxiv.org/abs/2402.12550
  77. Mixture of Experts Made Intrinsically Interpretable - arXiv, accessed July 16, 2025, https://arxiv.org/html/2503.07639v1
  78. A Visual Guide to Mixture of Experts (MoE) in LLMs - YouTube, accessed July 16, 2025, https://www.youtube.com/watch?v=sOPDGQjFcuM
  79. M³ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design OpenReview, accessed July 16, 2025, https://openreview.net/forum?id=cFOhdl1cyU-
  80. [2501.16352] Mixture of Experts (MoE): A Big Data Perspective - arXiv, accessed July 16, 2025, https://arxiv.org/abs/2501.16352