What is Mixture of Experts(混合專家)?

    將每個輸入路由到專業化子網路子集的神經網路架構,在不成比例增加計算成本下實現更大模型容量。

    Definition

    混合專家(MoE)是一種模型架構,其中網路被分為多個專業化的子網路(稱為專家),以及一個閘控機制(路由器)來選擇哪些專家處理每個輸入 token。MoE 模型不是每個參數都對每個輸入啟用,而是每次前向傳遞只啟用其總參數的一小部分——通常是 8 個或 16 個專家中的 2 個。這種稀疏啟用模式允許 MoE 模型擁有大得多的總參數數量(從而具有更大的知識容量),同時將每個 token 的計算成本保持在與小得多的密集模型相當的水平。

    最著名的 MoE 語言模型是 Mistral AI 的 Mixtral 8x7B,它在每個 Transformer 層中包含 8 個專家前饋網路。對於每個 token,路由器選擇前 2 個專家,這意味著模型 47B 總參數中只有約 13B 在每個 token 上是活躍的。這使 Mixtral 擁有 47B 模型的知識容量和 13B 模型的推論速度——一個極具吸引力的折衷。

    MoE 架構自 1990 年代以來就已被探索,但隨著現代 LLM 的規模才獲得實際意義。Google 的 Switch Transformer 和 GLaM 模型證明了 MoE 可以擴展到數兆參數,而 Mixtral 等開源實作證明 MoE 模型可以匹配或超越相似計算成本的密集模型。該架構現已被前沿實驗室廣泛採用,GPT-4 據傳使用了 MoE 設計。

    Why It Matters

    隨著語言模型規模擴大,密集架構的計算成本變得令人望而卻步。將密集模型的參數數量翻倍大致會使訓練和推論成本都翻倍。MoE 打破了這種關係,允許參數數量獨立於計算成本進行擴展。這使得構建具有巨大知識容量的模型成為可能——這對多語言、多領域應用很重要——而不需要成比例增加的龐大 GPU 叢集進行推論。

    對於實踐者而言,MoE 模型在推論時提供了更好的品質性價比。Mixtral 8x7B 模型在許多基準測試上優於 Llama 2 70B,同時運行成本顯著更低。這種成本效能優勢使 MoE 模型對於推論成本直接影響盈利能力的生產部署特別具有吸引力。

    How It Works

    在每個 MoE Transformer 層中,標準前饋網路(FFN)被 N 個平行的專家 FFN 和一個閘控網路取代。閘控網路以每個 token 的隱藏狀態作為輸入,並輸出 N 個專家上的機率分佈。具有最高閘控分數的前 k 個專家(通常 k=2)被選中,它們的輸出根據閘控分數作為加權總和進行組合。

    訓練 MoE 模型需要仔細的負載平衡,以防止專家崩潰——一種路由器學會將所有 token 發送到少數專家而其餘專家保持未訓練狀態的失敗模式。輔助負載平衡損失鼓勵路由器將 token 均勻分佈到各專家。在推論期間,高效的 MoE 實作使用專門的核心將 token 路由到被選中的專家,而不浪費計算在未啟用的專家上,實現接近等效大小密集模型的線性加速。

    Example Use Case

    一個多語言內容平台部署 Mixtral 8x7B 來處理 12 種語言的客戶查詢。MoE 架構在訓練期間自然發展出語言專業化的專家——某些專家主要對羅曼語系語言啟用,其他專家則對日耳曼語系或亞洲語系語言啟用。這種隱含的專業化在保持相當推論成本的同時提供了比密集 13B 模型更好的多語言效能,而 47B 的總參數量確保了所有支援語言足夠的知識容量。

    Key Takeaways

    • MoE 模型使用路由器僅啟用每個輸入的專家子網路子集,降低計算成本。
    • 每個 token 的總參數量可以是活躍參數量的 3-8 倍。
    • 在同等計算預算下,MoE 實現了比密集模型更好的品質性價比。
    • 訓練期間的負載平衡防止某些專家未被使用的專家崩潰。
    • Mixtral 8x7B 等模型展示了 MoE 在開源 LLM 部署中的可行性。

    How Ertas Helps

    Ertas Studio 支援微調 Mixtral 等 MoE 架構模型,針對較大的總參數量進行了優化的記憶體管理。MoE 微調運行產生的 GGUF 匯出檔案保持稀疏路由結構,以實現高效的本地推論。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.