Fine-Tune MiMo V2.5 Pro with Ertas

    小米 2026 年 4 月旗舰版本——一个 1.02 万亿参数的专家混合 (MoE) 模型,活跃参数 42B,上下文长度 100 万 token,采用 MIT 许可证,据报道在 SWE-Bench Pro 智能体编码任务上的基准成绩超越了 Claude Opus 4.6。

    1T-A42BXiaomi

    Overview

    MiMo V2.5 Pro 由小米于 2026 年 4 月发布,是该公司最强大的开源权重发布,也是与 DeepSeek V4 和 Kimi K2.6 一同进入万亿参数 MoE 等级的重要参与者。架构是 1.02 万亿参数的专家混合,每个 token 约激活 42B 参数,搭配 100 万 token 的上下文窗口。该模型以 MIT 许可证发布——是商业用途最宽松的开源许可证之一。

    小米对 MiMo V2.5 Pro 的定位强调编码和智能体执行。根据小米自己的评测,该模型在 SWE-Bench Pro 上领先所有可用模型——包括开源权重和专有模型,包括 Claude Opus 4.6。虽然这些声明的第三方验证在发布时仍在进行中,但该模型在一系列编码基准(HumanEval、MBPP、LiveCodeBench、SWE-Bench Verified)上的强劲表现是公认的。综合智能评分 1578 也使 MiMo V2.5 Pro 处于综合智能指数的顶部或接近顶部。

    该模型是更广泛的 MiMo 系列的一部分。存在用于微调的 V2.5 base 变体,小米已表示该架构是为垂直专业化设计的——针对特定行业(金融、法律、医疗)的微调 MiMo 变体是小米部署战略的明确组成部分。

    权重在 Hugging Face 上以 `XiaomiMiMo/MiMo-V2.5-Pro` 和 `XiaomiMiMo/MiMo-V2.5` 提供。MIT 许可证结合该模型强劲的编码性能,使 MiMo V2.5 Pro 对自托管开发者工具和本地企业编码智能体特别有吸引力。

    Key Features

    SWE-Bench Pro 性能是 MiMo V2.5 Pro 的核心亮点。小米报告的分数据称在该基准上超越 Claude Opus 4.6,该基准评估模型在源自开源仓库的真实软件工程任务上的表现。SWE-Bench Pro 专门设计为比原始 SWE-Bench 更难,包含更复杂的多文件变更和更近期的问题,使其成为比 HumanEval 风格合成基准更可信的智能体编码能力信号。

    相对于其 1T 总参数量,42B 活跃参数数量赋予 MiMo V2.5 Pro 有利的推理经济性。在标准推理框架上的 token 生成吞吐量可与 42B 稠密模型相媲美,完全在中端服务器硬件的运行范围内。这使该模型在 Claude 或 GPT API 成本过高的高吞吐量编码智能体部署中具有实用性。

    100 万 token 的上下文窗口使全代码库分析成为主要操作模式。编码智能体可以摄入整个仓库——源文件、测试、文档和依赖清单——并对跨文件变更进行整体推理。这是相对于需要谨慎检索-总结模式来处理大型代码库的上下文受限工作流的阶跃式改进。

    MIT 许可比某些同类模型使用的修改版 MIT 或 DeepSeek License 条款更宽松。对于商业用户,MIT 意味着无使用限制、无超出标准版权声明的归属要求,并且对衍生作品或微调没有限制。这使 MiMo V2.5 Pro 在商业产品中特别有吸引力,无需许可审查开销。

    Fine-Tuning with Ertas

    MiMo V2.5 Pro 的 1T 总参数处于实际微调的边缘。Ertas Studio 支持在多 GPU 服务器配置(8x A100 80GB 或 8x H100 80GB)上进行 QLoRA 微调,在典型序列长度下约需 580-680GB 总 VRAM。

    对于大多数没有 8 卡 GPU 服务器访问权限的团队,Ertas Studio 推荐的方法是使用 MiMo V2.5 Pro 作为教师模型生成合成编码任务数据,然后在 MiMo 生成的训练数据上微调较小的基础模型(Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体)。这以单 GPU 部署成本生成领域专项的编码模型,同时继承 MiMo 的编码模式。

    一种特别有价值的微调模式是针对特定代码库的垂直化。小米已将 MiMo 系列定位为行业专项微调的基础,Ertas Studio 支持完整管道:从您的代码库准备训练数据(可选地使用基础 MiMo 模型进行合成增强)、QLoRA 微调、针对您自己的任务套件的评估,以及用于部署的 GGUF 导出。在内部代码库上微调的 MiMo 变体在这些特定领域上始终优于通用编码模型。

    训练完成后,Ertas Studio 导出为 GGUF(或为更高吞吐量的 vLLM 原生格式)。基础 1T 模型的 Q4_K_M 量化约为 580GB——仍属服务器级——但蒸馏到较小基础模型上的微调以标准的 7B-70B 大小导出,可用于正常的单 GPU 部署。

    Use Cases

    智能体编码是 MiMo V2.5 Pro 的主要目标用例。诸如端到端功能实现、代码库迁移、大规模重构和自主 PR 生成等任务,都大幅受益于该模型在编码基准上的强劲表现、用于全仓推理的 100 万上下文,以及用于可处理推理的 42B 活跃参数的结合。实际部署模式包括用于企业代码库的 AI 结对编程助手和自主代码审查智能体。

    长上下文代码理解是天然的契合。MiMo V2.5 Pro 可以在单个提示上下文中分析整个仓库——源代码、测试、文档、配置——支持对横切关注点的整体推理:跨整个代码库的安全审计、大型系统的架构审查、依赖升级影响分析以及大型重构规划。

    对于考虑 Claude Code 或 Cursor 后端模型自托管替代方案的团队,MiMo V2.5 Pro 是最强的开源权重选择之一。MIT 许可证结合该模型的编码性能使其非常适合无许可开销的商业部署,42B 活跃参数数量使高吞吐量智能体工作负载的推理经济性可处理。

    Hardware Requirements

    MiMo V2.5 Pro 在 Q4_K_M 量化下约需 580GB 总内存,可装入 8x A100 80GB 或 8x H100 80GB 服务器,或具有 768GB+ RAM 的 CPU 推理主机。42B 活跃参数数量决定 token 生成吞吐量,因此一旦加载,模型以 42B 级别的速度服务——在适当的服务器硬件上对于交互式编码智能体用例足够快。

    对于较小的部署,Q3_K_M 量化(约 420GB)以适度的质量换取内存减少,可装入有余量的 4x H100 80GB 服务器。生产编码智能体不建议低于 Q3——多步推理的质量下降变得明显,特别是在 MiMo V2.5 Pro 竞争优势所在的 SWE-Bench 风格基准上。

    在 Ertas Studio 中微调时:MiMo V2.5 Pro QLoRA 约需 580-680GB 总 VRAM(多 GPU 服务器)。对于没有该规模的团队,蒸馏到 Qwen 32B 或 Llama 70B 上使用 QLoRA 时这些基础模型的标准 VRAM 为 20-48GB,通过教师-学生微调方法以单 GPU 部署成本访问 MiMo 的编码模式。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.