2026年的混合专家：从Mixtral到DeepSeek V4

两年前，混合专家（MoE）还是少数前沿实验室在试探性探索的实验性架构选择。Mixtral 8x7B之所以引起关注，正是因为它不寻常。到2026年4月，MoE已成为旗舰开放权重模型的默认架构。当前开放权重的第一梯队中，每一款模型——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS-120B、Mistral Small 4、Qwen 3.5-397B-A17B——都采用了MoE架构。70B以上的纯稠密模型越来越成为例外，而非常态。

本文讲述发生了什么变化、架构选择如何演进，以及对2026年做生产部署决策的团队意味着什么。

基本概念（写给MoE初学者）

标准的Transformer层对每个Token施加同一份前馈计算。一个70B参数的稠密模型在处理每个Token时会用上全部70B参数——其中多数对任意给定Token都不相关，但架构无论如何都会全部激活。

混合专家层把单一前馈块替换为多个并行的"专家"加上一个小的路由网络。对每个Token，路由器决定哪些专家（通常是数十或数百个中的1-8个）应处理它，且只激活那些专家。该层的总参数数量是所有专家之和，但任一单个Token的激活参数数量则小得多。

实际效果是：一个具有32B激活参数的1T参数MoE模型，其推理成本与32B稠密模型相当——Token生成吞吐、GPU利用率、延迟大致都是32B稠密模型应有的水平。但这个模型有1T参数的容量可用，路由器能学会把不同类型的Token路由到不同的专精专家上。当训练顺利时，结果是：模型以远优于同等推理成本的稠密大模型的经济性，交付与之相当的质量。

代价：总显存占用随总参数数量而非激活参数数量扩展。你仍需把所有专家权重加载到显存中，即便每个Token只激活其中一部分。这通常意味着MoE模型相对于推理成本相同的稠密模型需要更多显存。

Mixtral 时代（2023年末 – 2025年初）

来自Mistral的Mixtral 8x7B（2023年12月）和Mixtral 8x22B（2024年4月）确立了开放权重生态中的MoE范式。两者都使用8专家中的top-2路由策略，激活参数数量分别约为12.9B和39B，对应总参数为46.7B和141B。

Mixtral模型确立了几项重要约定：

Top-K路由。 每个Token被路由到固定的K个专家上（Mixtral中是top-2）。这在并行性（多个专家可并行计算）与效率（专家越多，每个Token的计算越多）之间做出平衡。

负载均衡。 路由器学习把Token大致均匀地分到各个专家上。如果没有显式的负载均衡压力，MoE训练倾向于坍缩到几个"热门"专家上去处理多数Token——这就违背了拥有众多专家的初衷。Mixtral引入了训练期间的辅助负载均衡损失以防止坍缩。

专家维度与稠密层匹配。 Mixtral的专家拥有与等价稠密前馈块相同的隐藏维度。这让架构在概念上很简单：一个MoE层"就是带有多份并行副本和一个路由器的稠密层"。

Mixtral模型表明MoE能在有利的推理经济下交付有竞争力的质量，但它们所探索的设计空间相对狭窄。后续工作大幅扩展了这一空间。

细粒度MoE时代（2025年中 – 2026年）

DeepSeek V3（2024年12月）与Qwen 3家族（2025年初）开启了一种意义重大、不同的MoE设计范式：细粒度MoE。关键转变在于使用更多、更小的专家，并对每个Token路由到更多专家上。

DeepSeek V3的架构每层使用256个被路由的专家加1个共享专家，采用top-8路由。相比Mixtral的8专家加top-2路由，这是一个根本不同的设计空间：

专家更多意味着每个专家可以更窄地专精
专家更小意味着每个专家计算更便宜
top-K更高意味着每个Token看到更多元的专家贡献
共享专家捕捉无需在所有被路由专家上复制的共同模式

结果是，每激活参数所交付的质量优于Mixtral时代设计。DeepSeek V3以671B总参数 / 37B激活，在相似推理成本下显著超越Mixtral 8x22B（141B总 / 39B激活）的基准——架构改进带来的可量度质量收益与参数量差异无关。

Qwen 3引入了自己的变体，对应30B-A3B和235B-A22B两种配置。30B-A3B使用128个专家加top-2路由——精神上与细粒度MoE相似但具体设计选择不同。3B激活参数让这一变体在生产服务中异常高效，同时交付出与更大稠密模型持平甚至超越的质量。

到2026年，细粒度MoE已成为事实标准。新的旗舰发布版本采用的总参数 / 激活参数比例落在20:1到200:1之间——DeepSeek V4 Pro为1.6T / 49B（33:1）、Kimi K2.6为1T / 32B（31:1）、Mistral Small 4为119B / 6B（20:1）、GPT-OSS-120B为117B / 5.1B（23:1）。

DeepSeek 稀疏注意力：MoE 超越前馈

最重要的2026年代架构创新严格来说并非MoE的进步——它是把专家式稀疏路由应用到注意力层。DeepSeek稀疏注意力（DSA）首次出现在DeepSeek V3.2中并延续至V4，把一种学得的稀疏路由模式应用到注意力上：每个查询Token学习关注一个键Token的子集，而不是整个序列。

从概念上讲，DSA把MoE理念从前馈层扩展到了注意力层。标准Transformer注意力计算所有Token对之间的两两交互——计算与显存成本是平方级。DSA只计算被一个学得的路由机制判定为相关的交互，这显著降低了长上下文推理的计算与显存成本，同时维持可用的检索质量。

实践含义是：DSA是DeepSeek V4能在生产中支持1M Token上下文窗口的关键原因之一。100万Token下的朴素稠密注意力在计算与KV缓存显存上都是不可承受的。DSA让长上下文推理在经济上变得可行，且随着1M+上下文成为基线预期，这一架构模式很可能扩散到其他模型家族。

是什么推动了这一转变

在这两年的窗口里，几个因素把MoE从实验性推到了默认地位：

前沿规模下更优的推理经济。 当前沿质量模型超过70B稠密参数后，纯稠密架构的推理成本变得难以承受。一个405B稠密模型每Token都要激活405B参数，需要服务器级基础设施，每次请求的推理成本很高。一个具有32B激活的1T MoE模型则能以32B稠密模型的推理经济提供相似质量。在Token成本至关重要的生产部署中，这是一种根本性优势。

改进的负载均衡技术。 早期MoE训练以不稳定著称——路由器会坍缩到几个热门专家上、训练发散，结果模型比同等算力的稠密模型更差。在辅助负载均衡损失、专家容量因子以及路由器温度调度上的改进让MoE训练大幅更可靠。现代MoE训练已更接近"设好合理默认值即可让它跑"，而不再需要持续干预。

硬件改进。 前沿硬件（H100、H200、MI300X、各种昇腾型号）对MoE所产生的稀疏计算模式提供了显著更好的支持。早期硬件让MoE的实际效率低于理论分析所暗示的水平；当前硬件填平了其中很大一部分差距。

量化兼容性。 MoE模型可以被合理地量化——Q4_K_M量化在MoE旗舰上能保持可用质量，与稠密模型相似。早期对"MoE的专家专精会与激进量化产生不利交互"的担忧，在实际中并未成真。

对部署的实践含义

对于做生产部署决策的团队，MoE的转变带来若干实践含义：

显存与推理成本解耦。 在稠密模型中，70B模型在显存成本与推理成本上都是"70B级"。在MoE中，1T-A32B模型在显存成本上是1T级，但在推理吞吐上是32B级。容量规划需要同时跟踪两个轴向——显存决定你需要多少GPU来托管模型，而激活参数数量决定它服务请求的速度。

前沿位置的常态是多GPU服务器部署。 万亿参数MoE梯队（DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro）需要8 GPU服务器配置（8x A100 80GB或8x H100 80GB）才能在全质量下做生产部署。在这一梯队上，单GPU部署不切实际。较小的MoE旗舰（总参数100-200B、激活5-30B）可以放进单张80GB GPU。

微调经济性提升。 较低的激活参数数量带来更优的QLoRA训练经济。一个35B-A3B的MoE每个训练步比一个14B的稠密模型更快，因为激活参数数量驱动训练时算力。Mistral Small 4的6B激活让它相对于其119B总参数而言异常高效——QLoRA能在24GB GPU上以全序列长度跑通。

架构感知工具至关重要。 推理框架（vLLM、TensorRT-LLM、llama.cpp）对MoE的优化程度参差不齐。前沿框架把MoE架构作为一等公民支持，并配有专家路由与负载均衡的优化内核；较旧的部署模式可能无法从MoE模型中榨出全部性能。生产部署应选择对MoE有一等公民支持的工具。

量化甜点不同。 一些MoE架构量化得特别好；另一些则有特定层在低于Q4_K_M时无法干净量化。细粒度MoE路由与激进量化之间的相互作用在不同模型上确实因模型而异。在承诺前先测试你实际打算部署的量化等级——稠密模型经验下的假设并不总能迁移过来。

展望未来

MoE现在是一种成熟的架构模式，而非实验。未来24个月的基线情形是：MoE仍是占主导地位的旗舰架构，并在路由策略、专家规模、以及与稀疏注意力机制的整合上持续精炼。几项具体进展看起来很可能发生：

更低的激活参数比例。 2025-2026年的趋势是在等同质量下推动激活参数数量更低。Mistral Small 4的6B激活与GPT-OSS的5.1B激活推动了MoE推理可达效率的边界。预计这一趋势会延续——业界会持续推动每激活参数交付更多质量的MoE设计。

与稀疏注意力的更紧密整合。 DeepSeek V4的DSA表明，MoE理念能扩展到前馈层之外。其他模型家族很可能采纳相似做法，尤其是在1M+上下文成为基线预期之时。稀疏注意力加稀疏前馈的组合，能在前沿规模下显著降低推理成本。

专精专家预训练。 当前MoE模型把专家与架构其余部分联合训练。研究兴趣集中在以显式专精方式预训练专家（数学专家、代码专家、语言专家），再把它们组合成最终模型。这一方法能否在质量上与联合训练竞争仍是开放问题，但它可能促成有趣的部署模式——团队可为特定用例换入专精专家。

面向MoE的更优量化。 当前的量化技术对所有专家一视同仁。在了解专家路由模式的量化上很可能存在巨大改进空间——更激进地量化少用专家，同时在重度使用的专家上保留精度。这能否最终落地为标准工具，仍待观察。

对于在2026年构建生产AI基础设施的团队，实用要点是：MoE不再是不寻常的架构选择——它是主流模式，基础设施决策应把它视为默认。部署工具、监控、容量规划、微调工作流以及量化策略都应假定MoE旗舰是典型情形。已完成这一转变的团队，正以远优于仍处于纯稠密范式中的团队的经济性，部署前沿质量的模型。

2026年的混合专家：从Mixtral到DeepSeek V4

基本概念（写给MoE初学者）

Mixtral 时代（2023年末 – 2025年初）

细粒度MoE时代（2025年中 – 2026年）

DeepSeek 稀疏注意力：MoE 超越前馈

是什么推动了这一转变

对部署的实践含义

展望未来

Ship AI that runs on your users' devices.

Keep reading

The 2026 Open Source AI Model Landscape

Why Chinese Labs Now Dominate Open-Source AI

The Effective Context Length Problem: Why 1M Tokens Isn't Really 1M Tokens