Fine-Tune Mistral Small 4 with Ertas

Mistral 于 2026 年 3 月发布的版本,将原本独立的 Magistral(推理)、Devstral(编码代理)和 Mistral Small(指令微调)三条产品线统一为单一的 119B 专家混合模型,活跃参数为 6B,基于 Apache 2.0 发布。

119B-A6BMistral AI

Overview

Mistral Small 4 由 Mistral AI 于 2026 年 3 月发布,代表了 Mistral 产品矩阵的一次重大简化。在此之前,Mistral 维护着三条独立的模型产品线——用于推理的 Magistral、用于智能体编码的 Devstral 以及用于通用指令微调的 Mistral Small——而 Mistral Small 4 将三者统一为单一的专家混合检查点。其架构总参数量为 119B,每个 token 的活跃参数约为 6B,基于 Apache 2.0 发布。

这次整合是 2026 年 Mistral 的重要事件。从运维角度看,生产部署不再需要维护三套独立的模型工件和路由逻辑——单一的 Mistral Small 4 端点即可服务编码、推理和通用指令工作负载。从质量角度看,统一的后训练流水线产出的模型在各自领域上能与之前的每个专属变体相抗衡,同时在跨领域表现上显著更优。

6B 的活跃参数量赋予 Mistral Small 4 出色的推理经济性。token 生成吞吐量与 6B 稠密模型相当——完全在消费级 GPU 的运行范围内——而 119B 的总参数容量则在大多数基准上提供与 30B-70B 中端稠密模型相当的质量。这使得 Mistral Small 4 成为生产 API 服务中最具吸引力的选择之一,尤其是在同时关注 token 成本与延迟的场景中。

权重可在 Hugging Face 的 `mistralai/Mistral-Small-4` 下获取。Apache 2.0 许可结合 Mistral 在高质量后训练上的过往业绩,使该版本对受严格数据主权要求约束的欧洲团队尤具吸引力,对于任何重视简明许可的商业部署亦是如此。

Key Features

推理、编码与指令微调能力的统一是 Mistral Small 4 最具代表性的特性。该模型包含 Magistral 风格的扩展推理能力——可通过类似 Qwen 3+ 与 DeepSeek V4 的思考模式开关访问。它还具备 Devstral 风格的智能体编码工具使用保真度,严格遵循函数调用模式与结构化输出。同时它保留了使原版 Mistral Small 系列广受欢迎的对话流畅性与指令遵循质量。所有这三项能力均可从同一个检查点访问,无需切换权重。

6B 活跃参数的推理画像相对其有效质量范围而言极为出色。在大多数基准上,Mistral Small 4 的表现可与 30B-70B 参数的稠密模型相提并论,但推理成本仅相当于 6B 模型。这与 Qwen 3-30B-A3B 和 Mixtral 8x7B 取得成功的架构模式一致,只是放大到了一个总参数量更高的区间,从而使质量上限显著更高。

Apache 2.0 许可与 Mistral 更广泛的开源定位一致。与使用 MNPL(仅限研究、无商用许可)的 Codestral 以及专有的 Magistral Medium API 不同,Mistral Small 4 完全开放用于商业用途,包括衍生训练、微调和专有集成,无需另行许可安排。

Mistral Small 4 继承了 Mistral 强大的多语言能力,尤其在欧洲语言上表现突出。法语、德语、意大利语、西班牙语、葡萄牙语和荷兰语都获得了生产级覆盖。对于欧洲团队而言,这与 Mistral 的欧盟数据主权定位结合,使 Mistral Small 4 成为相对美国或中国开放权重替代方案的天然默认选择。

Fine-Tuning with Ertas

Mistral Small 4 的 6B 活跃参数量使其相对于 119B 总参数量而言极为高效。在 Ertas Studio 中,QLoRA 微调可在 24GB 消费级 GPU 上以最高 8K-16K tokens 的完整序列长度从容运行——比对 30B-70B 同等质量稠密模型的微调易得多,后者通常需要 48GB+ 的 GPU。

MoE 架构带来一些微调注意事项,但 Ertas Studio 会自动处理:低秩适配过程中的专家路由稳定性、防止塌缩的专家间负载均衡,以及导出时 LoRA 适配器与 MoE 基础权重的正确合并。用户无需手动配置——平台会根据 Mistral Small 4 架构应用合适的默认设置。

在微调数据集方面,Mistral Small 4 支持完整的训练数据格式范围:标准的指令遵循对、多轮对话、智能体工具使用轨迹以及包含显式思考轨迹的推理模式数据。该模型的统一架构意味着单一微调检查点即可在后训练后处理所有这些任务,无需为不同任务类型分别进行专属微调。

训练完成后,Ertas Studio 会导出为 GGUF 格式,完整保留 Mistral Small 4 的聊天模板。完整 119B-A6B 模型的 Q4_K_M 量化约为 65GB,可部署于单块 80GB GPU 或拆分到两块 48GB GPU 上。对于大多数生产用例,Q4_K_M 量化的微调结果在质量与资源效率之间取得了出色的平衡。

Use Cases

生产 API 服务是 Mistral Small 4 最具优势的使用场景。6B 级推理经济性、强劲的跨领域质量与 Apache 2.0 许可的结合,使其非常适合高吞吐量聊天机器人部署、内容审核流水线、文档处理系统以及客户支持自动化。其 token 成本经济性通常优于需要更大活跃参数量的开放权重替代方案。

对于欧洲团队或任何具备严格数据主权要求的组织而言,Mistral Small 4 是天然的默认选择。在欧洲基础设施上的自托管部署可对数据驻留实现完全控制,而 Apache 2.0 许可消除了基于美国或中国的许可顾虑。Mistral 在欧洲语言上的强大多语言能力为这些部署进一步增添价值。

统一模型也非常适合重视运维简洁性的环境。原本维护独立 Magistral、Devstral 和 Mistral Small 端点的工程团队可以收敛为单一的 Mistral Small 4 部署,从而减少运维面积、简化容量规划并消除跨模型路由逻辑。仅这一项收益,通常就足以让具备成熟 Mistral 集成的团队迁移到新版本。

Hardware Requirements

Mistral Small 4 在 Q4_K_M 量化下大约需要 65GB 内存,可在单块 80GB GPU(A100 80GB、H100 80GB)上运行,或通过张量并行拆分到两块 48GB GPU 上。在 Q8_0 下约为 120GB。6B 的活跃参数量决定了 token 生成吞吐量,因此模型加载完成后即以约 6B 级速度提供服务——完全在交互式应用的运行范围内。

对于消费级硬件部署,Q3_K_M 量化(约 50GB)是可行的最低设置。可使用 MLX 后端在 64GB Apple Silicon 系统(M2 Ultra、M3 Ultra Mac Studio、M4 Pro/Max)上运行,或在 48GB GPU 上以余量运行。在拥有 96GB+ 内存的系统上可行 CPU 推理,但吞吐量远低于 GPU 部署。

关于在 Ertas Studio 中微调:Mistral Small 4 的 QLoRA 在典型序列长度(4K tokens)下大约需要 22-28GB VRAM,可在单块 24GB GPU 上运行。对于更长上下文的训练(16K+ tokens),启用梯度检查点后预计需要 32-40GB VRAM。相对于模型有效质量而言较低的微调占用,是选择 Mistral Small 4 而非同类稠密替代方案的最强理由之一。