
2026年的混合专家:从Mixtral到DeepSeek V4
2026年MoE已成为旗舰开放权重模型的默认架构——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS、Mistral Small 4都在使用它。这里讲述其中原因、设计选择如何演进,以及它对生产部署意味着什么。
两年前,混合专家(MoE)还是少数前沿实验室在试探性探索的实验性架构选择。Mixtral 8x7B之所以引起关注,正是因为它不寻常。到2026年4月,MoE已成为旗舰开放权重模型的默认架构。当前开放权重的第一梯队中,每一款模型——DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro、GPT-OSS-120B、Mistral Small 4、Qwen 3.5-397B-A17B——都采用了MoE架构。70B以上的纯稠密模型越来越成为例外,而非常态。
本文讲述发生了什么变化、架构选择如何演进,以及对2026年做生产部署决策的团队意味着什么。
基本概念(写给MoE初学者)
标准的Transformer层对每个Token施加同一份前馈计算。一个70B参数的稠密模型在处理每个Token时会用上全部70B参数——其中多数对任意给定Token都不相关,但架构无论如何都会全部激活。
混合专家层把单一前馈块替换为多个并行的"专家"加上一个小的路由网络。对每个Token,路由器决定哪些专家(通常是数十或数百个中的1-8个)应处理它,且只激活那些专家。该层的总参数数量是所有专家之和,但任一单个Token的激活参数数量则小得多。
实际效果是:一个具有32B激活参数的1T参数MoE模型,其推理成本与32B稠密模型相当——Token生成吞吐、GPU利用率、延迟大致都是32B稠密模型应有的水平。但这个模型有1T参数的容量可用,路由器能学会把不同类型的Token路由到不同的专精专家上。当训练顺利时,结果是:模型以远优于同等推理成本的稠密大模型的经济性,交付与之相当的质量。
代价:总显存占用随总参数数量而非激活参数数量扩展。你仍需把所有专家权重加载到显存中,即便每个Token只激活其中一部分。这通常意味着MoE模型相对于推理成本相同的稠密模型需要更多显存。
Mixtral 时代(2023年末 – 2025年初)
来自Mistral的Mixtral 8x7B(2023年12月)和Mixtral 8x22B(2024年4月)确立了开放权重生态中的MoE范式。两者都使用8专家中的top-2路由策略,激活参数数量分别约为12.9B和39B,对应总参数为46.7B和141B。
Mixtral模型确立了几项重要约定:
Top-K路由。 每个Token被路由到固定的K个专家上(Mixtral中是top-2)。这在并行性(多个专家可并行计算)与效率(专家越多,每个Token的计算越多)之间做出平衡。
负载均衡。 路由器学习把Token大致均匀地分到各个专家上。如果没有显式的负载均衡压力,MoE训练倾向于坍缩到几个"热门"专家上去处理多数Token—— 这就违背了拥有众多专家的初衷。Mixtral引入了训练期间的辅助负载均衡损失以防止坍缩。
专家维度与稠密层匹配。 Mixtral的专家拥有与等价稠密前馈块相同的隐藏维度。这让架构在概念上很简单:一个MoE层"就是带有多份并行副本和一个路由器的稠密层"。
Mixtral模型表明MoE能在有利的推理经济下交付有竞争力的质量,但它们所探索的设计空间相对狭窄。后续工作大幅扩展了这一空间。
细粒度MoE时代(2025年中 – 2026年)
DeepSeek V3(2024年12月)与Qwen 3家族(2025年初)开启了一种意义重大、不同的MoE设计范式:细粒度MoE。关键转变在于使用更多、更小的专家,并对每个Token路由到更多专家上。
DeepSeek V3的架构每层使用256个被路由的专家加1个共享专家,采用top-8路由。相比Mixtral的8专家加top-2路由,这是一个根本不同的设计空间:
- 专家更多意味着每个专家可以更窄地专精
- 专家更小意味着每个专家计算更便宜
- top-K更高意味着每个Token看到更多元的专家贡献
- 共享专家捕捉无需在所有被路由专家上复制的共同模式
结果是,每激活参数所交付的质量优于Mixtral时代设计。DeepSeek V3以671B总参数 / 37B激活,在相似推理成本下显著超越Mixtral 8x22B(141B总 / 39B激活)的基准——架构改进带来的可量度质量收益与参数量差异无关。
Qwen 3引入了自己的变体,对应30B-A3B和235B-A22B两种配置。30B-A3B使用128个专家加top-2路由——精神上与细粒度MoE相似但具体设计选择不同。3B激活参数让这一变体在生产服务中异常高效,同时交付出与更大稠密模型持平甚至超越的质量。
到2026年,细粒度MoE已成为事实标准。新的旗舰发布版本采用的总参数 / 激活参数比例落在20:1到200:1之间——DeepSeek V4 Pro为1.6T / 49B(33:1)、Kimi K2.6为1T / 32B(31:1)、Mistral Small 4为119B / 6B(20:1)、GPT-OSS-120B为117B / 5.1B(23:1)。
DeepSeek 稀疏注意力:MoE 超越前馈
最重要的2026年代架构创新严格来说并非MoE的进步——它是把专家式稀疏路由应用到注意力层。DeepSeek稀疏注意力(DSA)首次出现在DeepSeek V3.2中并延续至V4,把一种学得的稀疏路由模式应用到注意力上:每个查询Token学习关注一个键Token的子集,而不是整个序列。
从概念上讲,DSA把MoE理念从前馈层扩展到了注意力层。标准Transformer注意力计算所有Token对之间的两两交互——计算与显存成本是平方级。DSA只计算被 一个学得的路由机制判定为相关的交互,这显著降低了长上下文推理的计算与显存成本,同时维持可用的检索质量。
实践含义是:DSA是DeepSeek V4能在生产中支持1M Token上下文窗口的关键原因之一。100万Token下的朴素稠密注意力在计算与KV缓存显存上都是不可承受的。DSA让长上下文推理在经济上变得可行,且随着1M+上下文成为基线预期,这一架构模式很可能扩散到其他模型家族。
是什么推动了这一转变
在这两年的窗口里,几个因素把MoE从实验性推到了默认地位:
前沿规模下更优的推理经济。 当前沿质量模型超过70B稠密参数后,纯稠密架构的推理成本变得难以承受。一个405B稠密模型每Token都要激活405B参数,需要服务器级基础设施,每次请求的推理成本很高。一个具有32B激活的1T MoE模型则能以32B稠密模型的推理经济提供相似质量。在Token成本至关重要的生产部署中,这是一种根本性优势。
改进的负载均衡技术。 早期MoE训练以不稳定著称——路由器会坍缩到几个热门专家上、训练发散,结果模型比同等算力的稠密模型更差。在辅助负载均衡损失、专家容量因子以及路由器温度调度上的改进让MoE训练大幅更可靠。现代MoE训练已更接近"设好合 理默认值即可让它跑",而不再需要持续干预。
硬件改进。 前沿硬件(H100、H200、MI300X、各种昇腾型号)对MoE所产生的稀疏计算模式提供了显著更好的支持。早期硬件让MoE的实际效率低于理论分析所暗示的水平;当前硬件填平了其中很大一部分差距。
量化兼容性。 MoE模型可以被合理地量化——Q4_K_M量化在MoE旗舰上能保持可用质量,与稠密模型相似。早期对"MoE的专家专精会与激进量化产生不利交互"的担忧,在实际中并未成真。
对部署的实践含义
对于做生产部署决策的团队,MoE的转变带来若干实践含义:
显存与推理成本解耦。 在稠密模型中,70B模型在显存成本与推理成本上都是"70B级"。在MoE中,1T-A32B模型在显存成本上是1T级,但在推理吞吐上是32B级。容量规划需要同时跟踪两个轴向——显存决定你需要多少GPU来托管模型,而激活参数数量决定它服务请求的速度。
前沿位置的常态是多GPU服务器部署。 万亿参数MoE梯队(DeepSeek V4、Kimi K2.6、MiMo V2.5 Pro)需要8 GPU服务器配置(8x A100 80GB或8x H100 80GB)才能在全质量下做生产部署。在这一梯队上,单GPU部署不切实际。较小的MoE旗舰(总参数100-200B、激活5-30B)可以放进单张80GB GPU。
微调经济性提升。 较低的激活参数数量带来更优的QLoRA训练经济。一个35B-A3B的MoE每个训练步比一个14B的稠密模型更快,因为激活参数数量驱动训练时算力。Mistral Small 4的6B激活让它相对于其119B总参数而言异常高效——QLoRA能在24GB GPU上以全序列长度跑通。
架构感知工具至关重要。 推理框架(vLLM、TensorRT-LLM、llama.cpp)对MoE的优化程度参差不齐。前沿框架把MoE架构作为一等公民支持,并配有专家路由与负载均衡的优化内核;较旧的部署模式可能无法从MoE模型中榨出全部性能。生产部署应选择对MoE有一等公民支持的工具。
量化甜点不同。 一些MoE架构量化得特别好;另一些则有特定层在低于Q4_K_M时无法干净量化。细粒度MoE路由与激进量化之间的相互作用在不同模型上确实因模型而异。在承诺前先测试你实际打算部署的量化等级——稠密模型经验下的假设并不总能迁移过来。
展望未来
MoE现在是一种成熟的架构模式,而非实验。未来24个月的基线情形是:MoE仍是占主导地位的旗舰架构,并在路由策略、专家规模、以及与稀 疏注意力机制的整合上持续精炼。几项具体进展看起来很可能发生:
更低的激活参数比例。 2025-2026年的趋势是在等同质量下推动激活参数数量更低。Mistral Small 4的6B激活与GPT-OSS的5.1B激活推动了MoE推理可达效率的边界。预计这一趋势会延续——业界会持续推动每激活参数交付更多质量的MoE设计。
与稀疏注意力的更紧密整合。 DeepSeek V4的DSA表明,MoE理念能扩展到前馈层之外。其他模型家族很可能采纳相似做法,尤其是在1M+上下文成为基线预期之时。稀疏注意力加稀疏前馈的组合,能在前沿规模下显著降低推理成本。
专精专家预训练。 当前MoE模型把专家与架构其余部分联合训练。研究兴趣集中在以显式专精方式预训练专家(数学专家、代码专家、语言专家),再把它们组合成最终模型。这一方法能否在质量上与联合训练竞争仍是开放问题,但它可能促成有趣的部署模式——团队可为特定用例换入专精专家。
面向MoE的更优量化。 当前的量化技术对所有专家一视同仁。在了解专家路由模式的量化上很可能存在巨大改进空间——更激进地量化少用专家,同时在重度使用的专家上保留精度。这能否最终落地为标准工具,仍待观察。
对于在2026年构建生产AI基础设施的团队,实用要点是:MoE不再是不寻常的架构选择——它是主流模式,基础设施决策应把它视为默认。部署工具、监控、容量规 划、微调工作流以及量化策略都应假定MoE旗舰是典型情形。已完成这一转变的团队,正以远优于仍处于纯稠密范式中的团队的经济性,部署前沿质量的模型。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

The 2026 Open Source AI Model Landscape
A comprehensive snapshot of the open-weight AI model ecosystem as of April 2026 — Chinese-lab dominance, MoE architectural defaults, the unified thinking-mode pattern, and what it all means for production deployments.

Why Chinese Labs Now Dominate Open-Source AI
By April 2026, Chinese labs hold the top five open-weight models on aggregate intelligence benchmarks. The pattern isn't an accident — it reflects strategic, structural, and economic differences between US and Chinese AI development that took years to play out.

The Effective Context Length Problem: Why 1M Tokens Isn't Really 1M Tokens
Models advertised with 1M or 10M token context windows don't actually retain useful retrieval accuracy across that full range. Here's what 'effective context' really means, why it matters for production deployments, and how to design around the gap.