Back to blog
    2026 年的混合專家:從 Mixtral 到 DeepSeek V4
    moemixture-of-expertsarchitecturedeepseekkimimistralqwen

    2026 年的混合專家:從 Mixtral 到 DeepSeek V4

    MoE 已成為 2026 年旗艦開放權重模型的預設架構——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS、Mistral Small 4 全都採用。本文說明原因、設計選擇如何演進,以及這對生產部署代表什麼。

    EErtas Team·

    兩年前,混合專家(MoE)還是少數前沿實驗室在試探性探索的實驗性架構選擇。Mixtral 8x7B 之所以成為新聞,正是因為它不尋常。到了 2026 年 4 月,MoE 已成為旗艦開放權重模型的預設架構。目前開放權重頂層的每一款模型——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS-120B、Mistral Small 4、Qwen 3.5-397B-A17B——都採用 MoE 架構。70B 以上的純稠密模型愈來愈是例外,而非常態。

    本文涵蓋哪些東西改變了、架構選擇如何演進,以及這個轉變對 2026 年做生產部署決策的團隊代表什麼。

    基本概念(給 MoE 的新讀者)

    標準的 transformer 層對每個 token 套用相同的前饋計算。一個 70B 參數的稠密模型,對它處理的每個 token 都使用全部 70B 參數——對任一給定 token,多數參數其實無關,但架構仍會啟用全部。

    混合專家層把單一前饋區塊換成多個並行的「專家」加上一個小型路由網路。對每個 token,路由器決定哪些專家(通常是數十或數百中的 1-8 個)處理它,且只有那些專家被啟用。該層的總參數量是所有專家的總和,但任一單一 token 的啟用參數量小得多。

    實務效果是:一個 1T 參數的 MoE 模型搭配 32B 啟用參數,其推論成本相當於 32B 稠密模型——token 產生吞吐量、GPU 利用率、延遲大致都是 32B 稠密模型的水平。但模型有 1T 參數的容量可用,且路由器會學到把不同類型 token 路由到不同的專門化專家。當訓練順利時,結果是一個推論經濟性大幅更佳、品質可媲美較大稠密模型的模型。

    代價是:總記憶體占用會隨總參數量擴展,而非啟用參數量。即便每個 token 只啟用一部分,你仍須把所有專家權重載入記憶體。這通常代表 MoE 模型在等價推論成本下,比稠密模型需要更多 VRAM。

    Mixtral 時代(2023 年末 – 2025 年初)

    Mistral 推出的 Mixtral 8x7B(2023 年 12 月)與 Mixtral 8x22B(2024 年 4 月),在開放權重生態中確立了 MoE 模式。兩者皆使用 8 個專家中 top-2 的路由策略,啟用參數量分別約 12.9B 與 39B,對應總計 46.7B 與 141B。

    Mixtral 模型確立了幾個重要慣例:

    Top-K 路由。 每個 token 被路由到固定 K 個專家(Mixtral 為 top-2)。這在平行性(你可以同時計算多個專家)與效率(更多專家代表每個 token 計算量更大)之間取得平衡。

    負載平衡。 路由器學會大致均勻地把 tokens 分配到各專家。沒有明確的負載平衡壓力,MoE 訓練容易塌陷成少數「熱門」專家承擔多數 tokens——使「擁有許多專家」失去意義。Mixtral 引入了訓練時的輔助負載平衡損失以防止塌陷。

    專家維度與稠密層相符。 Mixtral 的專家具有與等價稠密前饋區塊相同的隱藏維度。這讓架構在概念上很簡單:一個 MoE 層「就是一個有多份並行副本與一個路由器的稠密層」。

    Mixtral 模型展示了 MoE 能在有利的推論經濟性下達成有競爭力的品質,但它們探索的設計空間相對狹窄。後續工作大幅擴張了該空間。

    細粒度 MoE 時代(2025 年中 – 2026 年)

    DeepSeek V3(2024 年 12 月)與 Qwen 3 系列(2025 年初)開啟了實質不同的 MoE 設計模式:細粒度 MoE。關鍵轉變是使用更多、更小的專家,且每個 token 路由到更多專家。

    DeepSeek V3 架構每層使用 256 個路由專家加 1 個共享專家、top-8 路由。相對於 Mixtral 的 8 個專家、top-2 路由,這是個根本不同的設計空間:

    • 更多專家代表每個專家可更狹窄地專門化
    • 較小專家代表每個專家計算更便宜
    • 更高的 top-K 代表每個 token 看見更多元的專家貢獻
    • 共享專家擷取共通模式,無須在所有路由專家間複製

    結果是每啟用參數品質優於 Mixtral 時代設計的模型。DeepSeek V3 以 671B 總計 / 37B 啟用,在類似推論成本下大幅勝過 Mixtral 8x22B(141B 總計 / 39B 啟用)——架構改進在不計參數量差異下,產出可量測的品質增益。

    Qwen 3 引入自家變體,採用 30B-A3B 與 235B-A22B 配置。30B-A3B 使用 128 個專家、top-2 路由——精神上與細粒度 MoE 相似,但設計選擇細節不同。3B 啟用參數量讓此變體在生產服務上格外高效,同時提供匹敵或超越大得多的稠密模型的品質。

    到了 2026 年,細粒度 MoE 已成為事實上的標準。新的旗艦釋出採用的總計/啟用比例落在 20:1 到 200:1 區間——DeepSeek V4 Pro 為 1.6T / 49B(33:1)、Kimi K2.6 為 1T / 32B(31:1)、Mistral Small 4 為 119B / 6B(20:1)、GPT-OSS-120B 為 117B / 5.1B(23:1)。

    DeepSeek Sparse Attention:MoE 跨出前饋

    最重要的 2026 年代架構創新嚴格說來不算 MoE 的進展——而是把專家式稀疏路由套用到注意力層。DeepSeek Sparse Attention(DSA)首次出現於 DeepSeek V3.2、延續至 V4,對注意力套用習得的稀疏路由模式:每個查詢 token 學會對部分鍵 token 做注意力,而非整個序列。

    概念上,DSA 把 MoE 哲學從前饋層延伸到注意力。標準 transformer 注意力會計算所有 token 兩兩配對的互動——平方級計算與記憶體成本。DSA 只計算被學到的路由機制視為相關的互動,這在維持可用檢索品質的同時大幅降低長上下文推論的計算與記憶體成本。

    實務含意是:DSA 是 DeepSeek V4 能在生產中支援 1M-token 上下文視窗的關鍵原因。在 1M tokens 上做樸素稠密注意力,無論計算或 KV 快取記憶體都會貴到不可行。DSA 讓長上下文推論在經濟上變得可行,且這個架構模式很可能擴散到其他模型系列,因為 1M+ 上下文成為基本期待。

    什麼推動了這個轉變

    幾個因素在這兩年的視窗中,把 MoE 從實驗推向預設:

    前沿規模下更佳的推論經濟性。 隨著前沿品質模型超過 70B 稠密參數,純稠密架構的推論成本變得難以承受。一個 405B 稠密模型每個 token 都要啟用 405B 參數,需要伺服器級基礎設施且每次請求成本高昂。一個具有 32B 啟用的 1T MoE 模型,能以 32B 稠密模型的推論經濟性提供類似品質。對 token 成本至關重要的生產部署而言,這是根本性的優勢。

    更佳的負載平衡技術。 早期 MoE 訓練以不穩定著稱——路由器會塌陷成少數熱門專家、訓練會發散,最終的模型甚至不如等價計算的稠密模型。輔助負載平衡損失、專家容量因子、路由溫度排程的改進,讓 MoE 訓練變得實質更可靠。當代 MoE 訓練已接近「設定合理預設、讓它跑」,而不再需要持續介入。

    硬體進步。 前沿硬體(H100、H200、MI300X、Ascend 變體)對 MoE 產生的稀疏計算模式有實質更佳的支援。早期硬體世代讓 MoE 比理論分析所暗示的更不效率;目前硬體大幅縮小了那段差距。

    量化相容性。 MoE 模型量化合理——Q4_K_M 量化在 MoE 旗艦上保留可用品質,與稠密模型相似。早先擔心 MoE 專家專門化會與積極量化發生不良交互作用的疑慮,在實務上並未成真。

    對部署的實務含意

    對於做生產部署決策的團隊,MoE 轉變有幾個含意:

    記憶體與推論成本解耦。 在稠密模型中,70B 模型在記憶體成本與推論成本上都是「70B 級」。在 MoE 中,1T-A32B 模型在記憶體成本是 1T 級、但在推論吞吐量是 32B 級。容量規劃需要追蹤兩條軸——記憶體決定要幾張 GPU 才能託管模型,啟用參數量決定它服務請求的速度。

    前沿層的常態是多 GPU 伺服器部署。 兆級參數 MoE 等級(DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro)在生產全品質部署上需要 8-GPU 伺服器配置(8x A100 80GB 或 8x H100 80GB)。在此等級單 GPU 部署不切實際。較小的 MoE 旗艦(總計 100-200B、啟用 5-30B)可裝進單張 80GB GPU。

    微調經濟性改善。 較低的啟用參數量讓 QLoRA 訓練的微調經濟性更佳。35B-A3B MoE 每個訓練步比 14B 稠密模型更快,因為訓練時的計算量是由啟用參數量決定。Mistral Small 4 的 6B 啟用參數量讓它相對於 119B 總計極為高效——QLoRA 在完整序列長度下可裝進 24GB GPU。

    架構感知工具很重要。 推論框架(vLLM、TensorRT-LLM、llama.cpp)對 MoE 的最佳化程度不一。前沿框架把 MoE 架構支援為一級選項、針對專家路由與負載平衡有最佳化核心;較舊的部署模式可能無法從 MoE 模型提取完整效能。對於生產部署,請選擇具有一級 MoE 支援的工具。

    量化甜蜜點不同。 部分 MoE 架構量化得格外好;其他則有特定層在 Q4_K_M 以下量化不乾淨。細粒度 MoE 路由與積極量化之間的交互作用是真正模型專屬的。在投入之前,請測試你實際打算部署的量化等級——來自稠密模型經驗的假設不一定能轉移過來。

    展望未來

    MoE 已是成熟的架構模式,不再是實驗。未來 24 個月的基準情境是 MoE 仍是主導性的旗艦架構,路由策略、專家規模調整,以及與稀疏注意力機制的整合會持續精煉。幾項具體發展看來可能:

    更低的啟用參數比例。 2025-2026 年的趨勢是在等價品質下走向更低的啟用參數量。Mistral Small 4 的 6B 啟用與 GPT-OSS 的 5.1B 啟用,把 MoE 推論能多有效率的邊界往前推。預期此趨勢會延續——產業會持續把 MoE 設計推向「每啟用參數產出更多品質」。

    與稀疏注意力更緊密整合。 DeepSeek V4 中的 DSA 證明了 MoE 哲學能擴展至前饋層之外。其他模型系列很可能採用類似做法,特別是在 1M+ 上下文成為基本期待時。稀疏注意力加稀疏前饋的組合,可能在前沿規模上實質降低推論成本。

    專門化的專家預訓練。 目前的 MoE 模型把專家與其他架構共同訓練。研究界對「以明確專門化(數學專家、程式碼專家、語言專家)做專家預訓練、再組合成最終模型」有興趣。此做法是否能與聯合訓練達到具競爭力的品質仍是開放性問題,但它可能促成有趣的部署模式——團隊可以為特定使用情境置換專門化專家。

    MoE 的更佳量化。 目前的量化技術對所有專家一視同仁。「對專家路由模式有感知」的量化——對少用專家更積極量化、對重度使用的專家保留精度——很可能還有大量改進空間。這是否會以標準工具的形式出現,仍待觀察。

    對 2026 年打造生產 AI 基礎設施的團隊,務實的結論是:MoE 已不再是不尋常的架構選擇——它是主流模式,基礎設施決策應把它當成預設。部署工具、監控、容量規劃、微調工作流、量化策略都應假設 MoE 旗艦為典型情況。已做出此轉變的團隊,正以實質更佳的經濟性部署前沿品質模型,勝過仍在純稠密典範下運作的團隊。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading