
2026年的混合专家:从Mixtral到DeepSeek V4
2026年MoE已成为旗舰开放权重模型的默认架构——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS、Mistral Small 4都在使用它。这里讲述其中原因、设计选择如何演进,以及它对生产部署意味着什么。
两年前,混合专家(MoE)还是少数前沿实验室在试探性探索的实验性架构选择。Mixtral 8x7B之所以引起关注,正是因为它不寻常。到2026年4月,MoE已成为旗舰开放权重模型的默认架构。当前开放权重的第一梯队中,每一款模型——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS-120B、Mistral Small 4、Qwen 3.5-397B-A17B——都采用了MoE架构。70B以上的纯稠密模型越来越成为例外,而非常态。
本文讲述发生了什么变化、架构选择如何演进,以及对2026年做生产部署决策的团队意味着什么。
基本概念(写给MoE初学者)
标准的Transformer层对每个Token施加同一份前馈计算。一个70B参数的稠密模型在处理每个Token时会用上全部70B参数——其中多数对任意给定Token都不相关,但架构无论如何都会全部激活。
混合专家层把单一前馈块替换为多个并行的"专家"加上一个小的路由网络。对每个Token,路由器决定哪些专家(通常是数十或数百个中的1-8个)应处理它,且只激活那些专家。该层的总参数数量是所有专家之和,但任一单个Token的激活参数数量则小得多。
实际效果是:一个具有32B激活参数的1T参数MoE模型,其推理成本与32B稠密模型相当——Token生成吞吐、GPU利用率、延迟大致都是32B稠密模型应有的水平。但这个模型有1T参数的容量可用,路由器能学会把不同类型的Token路由到不同的专精专家上。当训练顺利时,结果是:模型以远优于同等推理成本的稠密大模型的经济性,交付与之相当的质量。
代价:总显存占用随总参数数量而非激活参数数量扩展。你仍需把所有专家权重加载到显存中,即便每个Token只激活其中一部分。这通常意味着MoE模型相对于推理成本相同的稠密模型需要更多显存。
Mixtral 时代(2023年末 – 2025年初)
来自Mistral的Mixtral 8x7B(2023年12月)和Mixtral 8x22B(2024年4月)确立了开放权重生态中的MoE范式。两者都使用8专家中的top-2路由策略,激活参数数量分别约为12.9B和39B,对应总参数为46.7B和141B。
Mixtral模型确立了几项重要约定:
Top-K路由。 每个Token被路由到固定的K个专家上(Mixtral中是top-2)。这在并行性(多个专家可并行计算)与效率(专家越多,每个Token的计算越多)之间做出平衡。
负载均衡。 路由器学习把Token大致均匀地分到各个专家上。如果没有显式的负载均衡压力,MoE训练倾向于坍缩到几个"热门"专家上去处理多数Token——这就违背了拥有众多专家的初衷。Mixtral引入了训练期间的辅助负载均衡损失以防止坍缩。
专家维度与稠密层匹配。 Mixtral的专家拥有与等价稠密前馈块相同的隐藏维度。这让架构在概念上很简单:一个MoE层"就是带有多份并行副本和一个路由器的稠密层"。
Mixtral模型表明MoE能在有利的推理经济下交付有竞争力的质量,但它们所探索的设计空间相对狭窄。后续工作大幅扩展了这一空间。
细粒度MoE时代(2025年中 – 2026年)
DeepSeek V3(2024年12月)与Qwen 3家族(2025年初)开启了一种意义重大、不同的MoE设计范式:细粒度MoE。关键转变在于使用更多、更小的专家,并对每个Token路由到更多专家上。
DeepSeek V3的架构每层使用256个被路由的专家加1个共享专家,采用top-8路由。相比Mixtral的8专家加top-2路由,这是一个根本不同的设计空间:
- 专家更多意味着每个专家可以更窄地专精
- 专家更小意味着每个专家计算更便宜
- top-K更高意味着每个Token看到更多元的专家贡献
- 共享专家捕捉无需在所有被路由专家上复制的共同模式
结果是,每激活参数所交付的质量优于Mixtral时代设计。DeepSeek V3以671B总参数 / 37B激活,在相似推理成本下显著超越Mixtral 8x22B(141B总 / 39B激活)的基准——架构改进带来的可量度质量收益与参数量差异无关。
Qwen 3引入了自己的变体,对应30B-A3B和235B-A22B两种配置。30B-A3B使用128个专家加top-2路由——精神上与细粒度MoE相似但具体设计选择不同。3B激活参数让这一变体在生产服务中异常高效,同时交付出与更大稠密模型持平甚至超越的质量。
到2026年,细粒度MoE已成为事实标准。新的旗舰发布版本采用的总参数 / 激活参数比例落在20:1到200:1之间——DeepSeek V4 Pro为1.6T / 49B(33:1)、Kimi K2.6为1T / 32B(31:1)、Mistral Small 4为119B / 6B(20:1)、GPT-OSS-120B为117B / 5.1B(23:1)。
DeepSeek 稀疏注意力:MoE 超越前馈
最重要的2026年代架构创新严格来说并非MoE的进步——它是把专家式稀疏路由应用到注意力层。DeepSeek稀疏注意力(DSA)首次出现在DeepSeek V3.2中并延续至V4,把一种学得的稀疏路由模式应用到注意力上:每个查询Token学习关注一个键Token的子集,而不是整个序列。
从概念上讲,DSA把MoE理念从前馈层扩展到了注意力层。标准Transformer注意力计算所有Token对之间的两两交互——计算与显存成本是平方级。DSA只计算被一个学得的路由机制判定为相关的交互,这显著降低了长上下文推理的计算与显存成本,同时维持可用的检索质量。
实践含义是:DSA是DeepSeek V4能在生产中支持1M Token上下文窗口的关键原因之一。100万Token下的朴素稠密注意力在计算与KV缓存显存上都是不可承受的。DSA让长上下文推理在经济上变得可行,且随着1M+上下文成为基线预期,这一架构模式很可能扩散到其他模型家族。