What is Mixture of Experts（混合專家）?

將每個輸入路由到專業化子網路子集的神經網路架構，在不成比例增加計算成本下實現更大模型容量。

Definition

混合專家（MoE）是一種模型架構，其中網路被分為多個專業化的子網路（稱為專家），以及一個閘控機制（路由器）來選擇哪些專家處理每個輸入 token。MoE 模型不是每個參數都對每個輸入啟用，而是每次前向傳遞只啟用其總參數的一小部分——通常是 8 個或 16 個專家中的 2 個。這種稀疏啟用模式允許 MoE 模型擁有大得多的總參數數量（從而具有更大的知識容量），同時將每個 token 的計算成本保持在與小得多的密集模型相當的水平。

最著名的 MoE 語言模型是 Mistral AI 的 Mixtral 8x7B，它在每個 Transformer 層中包含 8 個專家前饋網路。對於每個 token，路由器選擇前 2 個專家，這意味著模型 47B 總參數中只有約 13B 在每個 token 上是活躍的。這使 Mixtral 擁有 47B 模型的知識容量和 13B 模型的推論速度——一個極具吸引力的折衷。

MoE 架構自 1990 年代以來就已被探索，但隨著現代 LLM 的規模才獲得實際意義。Google 的 Switch Transformer 和 GLaM 模型證明了 MoE 可以擴展到數兆參數，而 Mixtral 等開源實作證明 MoE 模型可以匹配或超越相似計算成本的密集模型。該架構現已被前沿實驗室廣泛採用，GPT-4 據傳使用了 MoE 設計。

Why It Matters

隨著語言模型規模擴大，密集架構的計算成本變得令人望而卻步。將密集模型的參數數量翻倍大致會使訓練和推論成本都翻倍。MoE 打破了這種關係，允許參數數量獨立於計算成本進行擴展。這使得構建具有巨大知識容量的模型成為可能——這對多語言、多領域應用很重要——而不需要成比例增加的龐大 GPU 叢集進行推論。

對於實踐者而言，MoE 模型在推論時提供了更好的品質性價比。Mixtral 8x7B 模型在許多基準測試上優於 Llama 2 70B，同時運行成本顯著更低。這種成本效能優勢使 MoE 模型對於推論成本直接影響盈利能力的生產部署特別具有吸引力。

How It Works

在每個 MoE Transformer 層中，標準前饋網路（FFN）被 N 個平行的專家 FFN 和一個閘控網路取代。閘控網路以每個 token 的隱藏狀態作為輸入，並輸出 N 個專家上的機率分佈。具有最高閘控分數的前 k 個專家（通常 k=2）被選中，它們的輸出根據閘控分數作為加權總和進行組合。

訓練 MoE 模型需要仔細的負載平衡，以防止專家崩潰——一種路由器學會將所有 token 發送到少數專家而其餘專家保持未訓練狀態的失敗模式。輔助負載平衡損失鼓勵路由器將 token 均勻分佈到各專家。在推論期間，高效的 MoE 實作使用專門的核心將 token 路由到被選中的專家，而不浪費計算在未啟用的專家上，實現接近等效大小密集模型的線性加速。

Example Use Case

一個多語言內容平台部署 Mixtral 8x7B 來處理 12 種語言的客戶查詢。MoE 架構在訓練期間自然發展出語言專業化的專家——某些專家主要對羅曼語系語言啟用，其他專家則對日耳曼語系或亞洲語系語言啟用。這種隱含的專業化在保持相當推論成本的同時提供了比密集 13B 模型更好的多語言效能，而 47B 的總參數量確保了所有支援語言足夠的知識容量。