Fine-Tune Devstral 2 with Ertas

Mistral AI 的编码专业化开源权重家族——Devstral 2 (123B) 和 Devstral Small 2 (24B),123B 变体在 SWE-Bench Verified 上得分 72.2%,24B 可在消费级硬件上运行。作为编码专家产品线发布,后于 2026 年 3 月被吸收进 Mistral Small 4 的统一架构。

24B (Small 2)123BMistral AI

Overview

Devstral 2 由 Mistral AI 作为更广泛的 2025 年 Devstral 编码专业化产品线的一部分发布,是 Mistral 专用智能体编码模型的第二代。该家族提供两种规模:1230 亿参数旗舰版 (Devstral 2) 和 240 亿参数消费可部署变体 (Devstral Small 2)。两者都是面向智能体编码工作负载的开源权重发布——以 Claude Code、Cline 和 Aider 等基于 CLI 的编码代理为特征的多步任务模式。

Devstral 2 的核心基准成果是在 SWE-Bench Verified 上得分 72.2%——这一强劲分数使其在发布时与开源权重编码模型的顶级层竞争。Devstral Small 2 在同一基准上达到 68.0%,对于 24B 参数模型而言极为出色,可与显著更大的替代方案竞争。对于希望在消费可部署规模上获得强大编码能力的团队,Devstral Small 2 命中了一个特别富有成效的最佳点。

Devstral 产品线于 2026 年 3 月被实质上吸收进 Mistral Small 4 的统一架构。Mistral 以前维护三条不同的模型谱系——Magistral 用于推理、Devstral 用于编码、Mistral Small 用于指令调优用途——而 Mistral Small 4 将这三条全部统一为一个 119B-A6B 专家混合检查点。对于新部署,Mistral Small 4 是推荐路径——但 Devstral 2 对于在整合之前采用稳定生产部署的团队仍然有效。

Devstral 2 作为专用编码专家的定位在特定部署场景中具有意义。虽然 Mistral Small 4 通过其统一架构涵盖编码,但 Devstral 2 产品线专门为智能体编码工作负载设计——不同的后训练强调、不同的评测套件、不同的部署模式。对于主要用例是编码而非通用 AI 的团队,Devstral 2 即使在整合之后仍在特定利基中保持优势。

Devstral 2 的许可涵盖开源权重部署,但对于特定商业场景值得审查。Devstral Small 2 特别采用旨在支持消费产品部署而无限制性使用上限的条款。模型权重在 Hugging Face 上以 Mistral 组织名义提供。

Key Features

Devstral 2 在 SWE-Bench Verified 上 72.2% 的得分使该模型在发布时相对于开源权重替代方案具有竞争力。该基准衡量真实世界的软件工程能力——多文件更改、测试驱动迭代、代码库导航——Devstral 2 的得分反映了真正的生产级编码能力,而非合成基准优化。

Devstral Small 2 在 24B 参数下 SWE-Bench Verified 达到 68.0% 是亮点效率成果。对于消费可部署规模而言,达到这一分数极为出色——显著超越通用 24B 替代方案,接近规模大得多的编码专业化模型的能力。对于希望在消费级或工作站硬件上获得前沿等级编码能力的团队,Devstral Small 2 是该家族中最强的选择之一。

编码专家定位将 Devstral 2 与通用替代方案区分开来。Mistral Small 4 的统一架构通过通用后训练涵盖编码,而 Devstral 2 专门以适当的训练数据强调针对智能体编码工作负载——多步编码轨迹、工具使用模式、测试驱动迭代示例。对于专门以编码为重点部署的团队,这种专业化在等同参数量下相对于通用替代方案提供质量优势。

Mistral 强大的工具使用训练传统很好地转化为 Devstral 2 的智能体编码能力。该模型以高保真度处理函数调用、结构化输出和多步工具序列——这些能力对于工具使用循环可靠性通常比原始代码生成质量更重要的智能体编码部署至关重要。

Fine-Tuning with Ertas

在 Ertas Studio 中对 Devstral 2 进行微调在两个变体上都很简单。Devstral Small 2 (24B) 可在消费级 GPU 上用 QLoRA 微调(16-24GB VRAM),使其成为没有服务器级基础设施团队最易获得的编码专家基础之一。Devstral 2 (123B) 需要工作站或中等服务器配置——典型序列长度下 QLoRA 需要 48GB+ GPU。

对于编码领域特定的微调,Devstral 2 受益于包含完整智能体执行轨迹的训练数据——任务描述、规划、多文件编辑、测试输出和纠正性迭代。Ertas Studio 原生支持这些多步格式,包括来自 Claude Code、Cline 或 Aider 运行的工具使用轨迹。在你团队的特定代码库上进行训练,会产生一个领域专业化的编码模型,在你代码库内的任务上超越基础模型。

对于在 Devstral 2 微调和 Mistral Small 4 微调之间选择的团队,推荐取决于部署画像。Mistral Small 4 的 6B 活跃参数为包括编码在内的通用专业化提供更好的微调经济性。Devstral 2 为微调变体将专门用于编码工作负载的团队提供略好的基线编码特定能力——但随着 Mistral Small 4 的发布,这一差距已大幅缩小。

训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 Devstral 2 对话模板。两个变体都可通过 Ollama、llama.cpp 或 vLLM 干净部署,使用标准配置即可。

Use Cases

在消费级或工作站硬件上的自托管编码代理部署是 Devstral Small 2 最自然的用例。希望获得强大编码代理能力但不愿致力于服务器基础设施的 5-20 名开发者团队,会发现 Devstral Small 2 是 24B 规模类别中最易获得的选择之一。生产模式包括小型企业代码库的 AI 结对编程、常规变更模式的自主 PR 生成,以及中等请求量下的 CI 集成代码审查。

123B 的 Devstral 2 面向较大的团队部署,在这些场景中额外的能力证明工作站/服务器硬件投入是合理的。大型企业代码库的 AI 结对编程、处理复杂重构的自主编码代理,以及高吞吐量的代码审查自动化都受益于 123B 变体更强的基线能力。

对于在 Mistral Small 4 整合之前在 Devstral 2 上运行稳定生产部署的团队,该模型仍有文档支持。迁移到 Mistral Small 4 提供运营简化(一个模型替代三个独立谱系),但对于具有现有 Devstral 特定微调或下游工具的团队,迁移成本不菲。这些场景下继续 Devstral 2 部署是有效的。

对于欧洲团队或任何受数据主权要求约束的部署,Mistral 的欧盟总部定位结合 Devstral 2 的开源权重分发,相对于美国或中国实验室替代方案提供结构性优势。在欧盟基础设施上自托管部署欧盟开发的模型,满足某些监管环境特别要求的合规要求。

Hardware Requirements

Devstral Small 2 在 Q4_K_M 量化下约需 14GB 内存,可装入 RTX 3090 24GB 和 RTX 4090 起的消费级 GPU。在 Q8_0 下,预计约需 26GB。24B 规模使其可在工作站硬件上部署,远比服务器级基础设施易于获得。

Devstral 2 在 Q4_K_M 下约需 70GB,可装入单块 80GB GPU(A100 80GB、H100 80GB)或通过张量并行分布在两块 48GB GPU 上。在 Q8_0 下,预计约需 130GB。CPU 推理在拥有 192GB+ RAM 的主机上可行,但吞吐量远低于 GPU 部署。

在 Ertas Studio 中微调时:Devstral Small 2 QLoRA 在典型序列长度下需要 16-24GB VRAM,可装入单块消费级 GPU(RTX 4090、RTX 5090)。Devstral 2 QLoRA 需要 50-80GB VRAM,可装入单块 80GB GPU 或通过模型并行分布在两块 48GB GPU 上。长上下文微调(32K-64K 序列)在结合梯度检查点的情况下需要按比例更多的内存。