Fine-Tune MiMo V2.5 with Ertas

小米 2026 年 4 月 28 日发布的中端版本——3100 亿参数的专家混合 (MoE) 模型,活跃参数 15B,采用 MIT 许可,与更大的 MiMo V2.5 Pro 旗舰版同期发布。MiMo 家族中面向不需要完整 Pro 基础设施团队的可部署中端版本。

310B-A15BXiaomi

Overview

MiMo V2.5(非 Pro 变体)由小米于 2026 年 4 月 28 日与 MiMo V2.5 Pro 同期发布,是小米旗舰编码模型家族中可部署的中端版本。架构是一个 3100 亿参数的专家混合 (MoE),每个 token 约激活 15B 参数——比 V2.5 Pro 旗舰版(总参数 1.02T / 活跃 42B)显著更小,但为相同的智能体编码用例设计,部署经济性大幅改善。

小米的发布策略将两个变体定位为兄弟关系而非旗舰与预算层级关系。MiMo V2.5 面向 V2.5 Pro 1T 规模并非必需的生产部署场景——大多数生产智能体编码工作负载、典型企业代码库的 AI 结对编程、中等请求量下的 CI 集成编码代理。15B 活跃参数提供生产友好的推理经济性,同时保持可与 2026 年中端替代方案竞争的强大编码能力。

MiMo V2.5 继承自更广泛 MiMo 家族的 MIT 许可是开源权重生态中最宽松的之一。结合强大的编码能力和易于获得的部署基础设施(该模型可装入 4 GPU 服务器,而 V2.5 Pro 需要 8 GPU),MiMo V2.5 对于较小团队规模的自托管编码代理部署特别有吸引力。

小米将 MiMo 产品线定位为通过微调进行垂直专业化。专门就 MiMo V2.5 而言——其更易于获得的部署规模——非常适合作为行业特定编码代理的微调基础。具有特定代码库要求的金融、医疗、法律科技和类似受监管行业的团队会发现 MiMo V2.5 是在可部署基础设施规模上生产领域专业化编码代理的自然起点。

模型权重在 Hugging Face 上以 `XiaomiMiMo/MiMo-V2.5` 提供。许可为 MIT——没有商业限制、归属要求或使用上限。

Key Features

21:1 的总参数与活跃参数比(310B / 15B)足够激进,既能提供强大的推理经济性,又能保持知识广度。在标准推理框架上,token 生成吞吐量以约 15B 级别的速度运行,舒适地处于中端服务器硬件的运行范围内。对于中等规模的编码代理生产部署,MiMo V2.5 达到了富有成效的最佳点。

以编码为重点的训练转化为现实世界的可靠性。与更广泛的 Qwen3-Coder 和 MiMo 系列一样,MiMo V2.5 的后训练强调可验证的代码执行奖励和多步智能体轨迹。该模型比同等规模的通用模型更可靠地处理真实的生产编码代理工作负载,包括在通用模型倾向于编造的领域(特定框架版本、库 API、构建配置)。

相对于 V2.5 Pro 的可部署规模是实际差异化因素。V2.5 Pro 需要 8 GPU 服务器基础设施才能进行全质量部署,而 V2.5 在 Q4 量化下可装入 4 GPU 服务器(4x A100 80GB 或 4x H100 80GB)。这将不需要完整 Pro 规模的团队的基础设施成本减半,使 MiMo 部署可供更多团队使用。

Fine-Tuning with Ertas

在 Ertas Studio 中对 MiMo V2.5 进行微调比 V2.5 Pro 变体更易于获得。每个 token 15B 活跃参数,QLoRA 训练在典型序列长度下可装入单块 80GB GPU,或通过模型并行分布在两块 48GB GPU 上。15B 活跃参数下的训练步骤吞吐量比微调同等质量的稠密替代方案快得多。

对于编码特定的微调,MiMo V2.5 受益于包含完整智能体执行轨迹的训练数据——任务描述、规划、多文件编辑、测试输出和纠正性迭代。Ertas Studio 原生支持这些多步格式。在你团队的特定代码库上进行训练,会产生一个领域专业化的编码模型,在你代码库内的任务上以显著优势超越基础模型。

专门就垂直专业化而言——这是小米对 MiMo 产品线的明确定位——MiMo V2.5 是比 V2.5 Pro 更实用的起点。易于获得的微调硬件结合 MIT 许可意味着商业垂直专业化变体可以在没有更大基础或限制性许可替代方案所适用的基础设施或许可约束下生产和部署。

训练完成后,Ertas Studio 导出为 GGUF 格式,完整保留 MiMo V2.5 对话模板。Q4_K_M 量化约为 175GB——可装入 4 GPU 服务器并留有余量,或装入 192GB+ 统一内存的 Apple Silicon Mac Studio 配置。

Use Cases

中等团队规模的自托管编码代理部署是 MiMo V2.5 最自然的用例。强大的编码能力、MIT 许可和 4 GPU 部署规模的结合,使其对于希望获得前沿等级编码代理能力但又不愿投入 8 GPU 服务器基础设施的 10-50 名开发者团队特别有吸引力。生产模式包括企业代码库的 AI 结对编程、自主 PR 生成、代码审查自动化和 CI 集成编码工作流。

垂直专业化是小米对 MiMo V2.5 的明确定位。具有特定代码库要求的金融(监管代码分析、金融系统开发)、医疗(HIPAA 合规医疗软件)、法律科技(合同分析工具)和类似受监管行业的团队会发现 MiMo V2.5 是特别强大的微调基础。易于获得的部署规模结合 MIT 许可,简化了垂直专业化变体的商业部署。

对于考虑 Claude Code 或 Cursor 后端模型的自托管替代方案的团队,MiMo V2.5 是经济上最具吸引力的选择之一。盈亏平衡点——自托管基础设施变得比按请求 API 定价更便宜的点——在 V2.5 上比在需要 8 GPU 的 V2.5 Pro 上以更低的请求量达到。这为更多团队开启了自托管部署。

Hardware Requirements

MiMo V2.5 在 Q4_K_M 量化下约需 175GB 内存,可装入 4x A100 80GB 或 4x H100 80GB 服务器。CPU 推理在拥有 256GB+ RAM 的主机上可行,但吞吐量远低于 GPU 部署。加载后 token 生成吞吐量由 15B 活跃参数决定。

对于较小的部署,Q3_K_M 量化(约 130GB)以适度的质量换取减少的内存,可装入 2x H100 80GB 配置。192GB+ 统一内存的 Apple Silicon Mac Studio M3 Ultra 或 M4 Ultra 配置可通过 MLX 部署 MiMo V2.5,性能可用,但吞吐量明显低于 NVIDIA 加速部署。

在 Ertas Studio 中微调时:MiMo V2.5 QLoRA 需要约 80-130GB 总 VRAM,在典型序列长度下可装入单块 80GB GPU 或通过模型并行装入两块 48GB GPU。15B 活跃参数 MoE 架构使训练在相同有效编码能力下比微调同等质量的稠密替代方案明显更高效。