Back to blog
    2026年的混合专家:从Mixtral到DeepSeek V4
    moemixture-of-expertsarchitecturedeepseekkimimistralqwen

    2026年的混合专家:从Mixtral到DeepSeek V4

    2026年MoE已成为旗舰开放权重模型的默认架构——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS、Mistral Small 4都在使用它。这里讲述其中原因、设计选择如何演进,以及它对生产部署意味着什么。

    EErtas Team·

    两年前,混合专家(MoE)还是少数前沿实验室在试探性探索的实验性架构选择。Mixtral 8x7B之所以引起关注,正是因为它不寻常。到2026年4月,MoE已成为旗舰开放权重模型的默认架构。当前开放权重的第一梯队中,每一款模型——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS-120B、Mistral Small 4、Qwen 3.5-397B-A17B——都采用了MoE架构。70B以上的纯稠密模型越来越成为例外,而非常态。

    本文讲述发生了什么变化、架构选择如何演进,以及对2026年做生产部署决策的团队意味着什么。

    基本概念(写给MoE初学者)

    标准的Transformer层对每个Token施加同一份前馈计算。一个70B参数的稠密模型在处理每个Token时会用上全部70B参数——其中多数对任意给定Token都不相关,但架构无论如何都会全部激活。

    混合专家层把单一前馈块替换为多个并行的"专家"加上一个小的路由网络。对每个Token,路由器决定哪些专家(通常是数十或数百个中的1-8个)应处理它,且只激活那些专家。该层的总参数数量是所有专家之和,但任一单个Token的激活参数数量则小得多。

    实际效果是:一个具有32B激活参数的1T参数MoE模型,其推理成本与32B稠密模型相当——Token生成吞吐、GPU利用率、延迟大致都是32B稠密模型应有的水平。但这个模型有1T参数的容量可用,路由器能学会把不同类型的Token路由到不同的专精专家上。当训练顺利时,结果是:模型以远优于同等推理成本的稠密大模型的经济性,交付与之相当的质量。

    代价:总显存占用随总参数数量而非激活参数数量扩展。你仍需把所有专家权重加载到显存中,即便每个Token只激活其中一部分。这通常意味着MoE模型相对于推理成本相同的稠密模型需要更多显存。

    Mixtral 时代(2023年末 – 2025年初)

    来自Mistral的Mixtral 8x7B(2023年12月)和Mixtral 8x22B(2024年4月)确立了开放权重生态中的MoE范式。两者都使用8专家中的top-2路由策略,激活参数数量分别约为12.9B和39B,对应总参数为46.7B和141B。

    Mixtral模型确立了几项重要约定:

    Top-K路由。 每个Token被路由到固定的K个专家上(Mixtral中是top-2)。这在并行性(多个专家可并行计算)与效率(专家越多,每个Token的计算越多)之间做出平衡。

    负载均衡。 路由器学习把Token大致均匀地分到各个专家上。如果没有显式的负载均衡压力,MoE训练倾向于坍缩到几个"热门"专家上去处理多数Token——这就违背了拥有众多专家的初衷。Mixtral引入了训练期间的辅助负载均衡损失以防止坍缩。

    专家维度与稠密层匹配。 Mixtral的专家拥有与等价稠密前馈块相同的隐藏维度。这让架构在概念上很简单:一个MoE层"就是带有多份并行副本和一个路由器的稠密层"。

    Mixtral模型表明MoE能在有利的推理经济下交付有竞争力的质量,但它们所探索的设计空间相对狭窄。后续工作大幅扩展了这一空间。

    细粒度MoE时代(2025年中 – 2026年)

    DeepSeek V3(2024年12月)与Qwen 3家族(2025年初)开启了一种意义重大、不同的MoE设计范式:细粒度MoE。关键转变在于使用更多、更小的专家,并对每个Token路由到更多专家上。

    DeepSeek V3的架构每层使用256个被路由的专家加1个共享专家,采用top-8路由。相比Mixtral的8专家加top-2路由,这是一个根本不同的设计空间:

    • 专家更多意味着每个专家可以更窄地专精
    • 专家更小意味着每个专家计算更便宜
    • top-K更高意味着每个Token看到更多元的专家贡献
    • 共享专家捕捉无需在所有被路由专家上复制的共同模式

    结果是,每激活参数所交付的质量优于Mixtral时代设计。DeepSeek V3以671B总参数 / 37B激活,在相似推理成本下显著超越Mixtral 8x22B(141B总 / 39B激活)的基准——架构改进带来的可量度质量收益与参数量差异无关。

    Qwen 3引入了自己的变体,对应30B-A3B和235B-A22B两种配置。30B-A3B使用128个专家加top-2路由——精神上与细粒度MoE相似但具体设计选择不同。3B激活参数让这一变体在生产服务中异常高效,同时交付出与更大稠密模型持平甚至超越的质量。

    到2026年,细粒度MoE已成为事实标准。新的旗舰发布版本采用的总参数 / 激活参数比例落在20:1到200:1之间——DeepSeek V4 Pro为1.6T / 49B(33:1)、Kimi K2.6为1T / 32B(31:1)、Mistral Small 4为119B / 6B(20:1)、GPT-OSS-120B为117B / 5.1B(23:1)。

    DeepSeek 稀疏注意力:MoE 超越前馈

    最重要的2026年代架构创新严格来说并非MoE的进步——它是把专家式稀疏路由应用到注意力层。DeepSeek稀疏注意力(DSA)首次出现在DeepSeek V3.2中并延续至V4,把一种学得的稀疏路由模式应用到注意力上:每个查询Token学习关注一个键Token的子集,而不是整个序列。

    从概念上讲,DSA把MoE理念从前馈层扩展到了注意力层。标准Transformer注意力计算所有Token对之间的两两交互——计算与显存成本是平方级。DSA只计算被一个学得的路由机制判定为相关的交互,这显著降低了长上下文推理的计算与显存成本,同时维持可用的检索质量。

    实践含义是:DSA是DeepSeek V4能在生产中支持1M Token上下文窗口的关键原因之一。100万Token下的朴素稠密注意力在计算与KV缓存显存上都是不可承受的。DSA让长上下文推理在经济上变得可行,且随着1M+上下文成为基线预期,这一架构模式很可能扩散到其他模型家族。

    是什么推动了这一转变

    在这两年的窗口里,几个因素把MoE从实验性推到了默认地位:

    前沿规模下更优的推理经济。 当前沿质量模型超过70B稠密参数后,纯稠密架构的推理成本变得难以承受。一个405B稠密模型每Token都要激活405B参数,需要服务器级基础设施,每次请求的推理成本很高。一个具有32B激活的1T MoE模型则能以32B稠密模型的推理经济提供相似质量。在Token成本至关重要的生产部署中,这是一种根本性优势。

    改进的负载均衡技术。 早期MoE训练以不稳定著称——路由器会坍缩到几个热门专家上、训练发散,结果模型比同等算力的稠密模型更差。在辅助负载均衡损失、专家容量因子以及路由器温度调度上的改进让MoE训练大幅更可靠。现代MoE训练已更接近"设好合理默认值即可让它跑",而不再需要持续干预。

    硬件改进。 前沿硬件(H100、H200、MI300X、各种昇腾型号)对MoE所产生的稀疏计算模式提供了显著更好的支持。早期硬件让MoE的实际效率低于理论分析所暗示的水平;当前硬件填平了其中很大一部分差距。

    量化兼容性。 MoE模型可以被合理地量化——Q4_K_M量化在MoE旗舰上能保持可用质量,与稠密模型相似。早期对"MoE的专家专精会与激进量化产生不利交互"的担忧,在实际中并未成真。

    对部署的实践含义

    对于做生产部署决策的团队,MoE的转变带来若干实践含义:

    显存与推理成本解耦。 在稠密模型中,70B模型在显存成本与推理成本上都是"70B级"。在MoE中,1T-A32B模型在显存成本上是1T级,但在推理吞吐上是32B级。容量规划需要同时跟踪两个轴向——显存决定你需要多少GPU来托管模型,而激活参数数量决定它服务请求的速度。

    前沿位置的常态是多GPU服务器部署。 万亿参数MoE梯队(DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro)需要8 GPU服务器配置(8x A100 80GB或8x H100 80GB)才能在全质量下做生产部署。在这一梯队上,单GPU部署不切实际。较小的MoE旗舰(总参数100-200B、激活5-30B)可以放进单张80GB GPU。

    微调经济性提升。 较低的激活参数数量带来更优的QLoRA训练经济。一个35B-A3B的MoE每个训练步比一个14B的稠密模型更快,因为激活参数数量驱动训练时算力。Mistral Small 4的6B激活让它相对于其119B总参数而言异常高效——QLoRA能在24GB GPU上以全序列长度跑通。

    架构感知工具至关重要。 推理框架(vLLM、TensorRT-LLM、llama.cpp)对MoE的优化程度参差不齐。前沿框架把MoE架构作为一等公民支持,并配有专家路由与负载均衡的优化内核;较旧的部署模式可能无法从MoE模型中榨出全部性能。生产部署应选择对MoE有一等公民支持的工具。

    量化甜点不同。 一些MoE架构量化得特别好;另一些则有特定层在低于Q4_K_M时无法干净量化。细粒度MoE路由与激进量化之间的相互作用在不同模型上确实因模型而异。在承诺前先测试你实际打算部署的量化等级——稠密模型经验下的假设并不总能迁移过来。

    展望未来

    MoE现在是一种成熟的架构模式,而非实验。未来24个月的基线情形是:MoE仍是占主导地位的旗舰架构,并在路由策略、专家规模、以及与稀疏注意力机制的整合上持续精炼。几项具体进展看起来很可能发生:

    更低的激活参数比例。 2025-2026年的趋势是在等同质量下推动激活参数数量更低。Mistral Small 4的6B激活与GPT-OSS的5.1B激活推动了MoE推理可达效率的边界。预计这一趋势会延续——业界会持续推动每激活参数交付更多质量的MoE设计。

    与稀疏注意力的更紧密整合。 DeepSeek V4的DSA表明,MoE理念能扩展到前馈层之外。其他模型家族很可能采纳相似做法,尤其是在1M+上下文成为基线预期之时。稀疏注意力加稀疏前馈的组合,能在前沿规模下显著降低推理成本。

    专精专家预训练。 当前MoE模型把专家与架构其余部分联合训练。研究兴趣集中在以显式专精方式预训练专家(数学专家、代码专家、语言专家),再把它们组合成最终模型。这一方法能否在质量上与联合训练竞争仍是开放问题,但它可能促成有趣的部署模式——团队可为特定用例换入专精专家。

    面向MoE的更优量化。 当前的量化技术对所有专家一视同仁。在了解专家路由模式的量化上很可能存在巨大改进空间——更激进地量化少用专家,同时在重度使用的专家上保留精度。这能否最终落地为标准工具,仍待观察。

    对于在2026年构建生产AI基础设施的团队,实用要点是:MoE不再是不寻常的架构选择——它是主流模式,基础设施决策应把它视为默认。部署工具、监控、容量规划、微调工作流以及量化策略都应假定MoE旗舰是典型情形。已完成这一转变的团队,正以远优于仍处于纯稠密范式中的团队的经济性,部署前沿质量的模型。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading