Fine-Tune MiMo V2.5 Pro with Ertas

小米 2026 年 4 月旗舰版本——一个 1.02 万亿参数的专家混合 (MoE) 模型，活跃参数 42B，上下文长度 100 万 token，采用 MIT 许可证，据报道在 SWE-Bench Pro 智能体编码任务上的基准成绩超越了 Claude Opus 4.6。

1T-A42BXiaomi

Overview

MiMo V2.5 Pro 由小米于 2026 年 4 月发布，是该公司最强大的开源权重发布，也是与 DeepSeek V4 和 Kimi K2.6 一同进入万亿参数 MoE 等级的重要参与者。架构是 1.02 万亿参数的专家混合，每个 token 约激活 42B 参数，搭配 100 万 token 的上下文窗口。该模型以 MIT 许可证发布——是商业用途最宽松的开源许可证之一。

小米对 MiMo V2.5 Pro 的定位强调编码和智能体执行。根据小米自己的评测，该模型在 SWE-Bench Pro 上领先所有可用模型——包括开源权重和专有模型，包括 Claude Opus 4.6。虽然这些声明的第三方验证在发布时仍在进行中，但该模型在一系列编码基准（HumanEval、MBPP、LiveCodeBench、SWE-Bench Verified）上的强劲表现是公认的。综合智能评分 1578 也使 MiMo V2.5 Pro 处于综合智能指数的顶部或接近顶部。

该模型是更广泛的 MiMo 系列的一部分。存在用于微调的 V2.5 base 变体，小米已表示该架构是为垂直专业化设计的——针对特定行业（金融、法律、医疗）的微调 MiMo 变体是小米部署战略的明确组成部分。

权重在 Hugging Face 上以 `XiaomiMiMo/MiMo-V2.5-Pro` 和 `XiaomiMiMo/MiMo-V2.5` 提供。MIT 许可证结合该模型强劲的编码性能，使 MiMo V2.5 Pro 对自托管开发者工具和本地企业编码智能体特别有吸引力。

Key Features

SWE-Bench Pro 性能是 MiMo V2.5 Pro 的核心亮点。小米报告的分数据称在该基准上超越 Claude Opus 4.6，该基准评估模型在源自开源仓库的真实软件工程任务上的表现。SWE-Bench Pro 专门设计为比原始 SWE-Bench 更难，包含更复杂的多文件变更和更近期的问题，使其成为比 HumanEval 风格合成基准更可信的智能体编码能力信号。

相对于其 1T 总参数量，42B 活跃参数数量赋予 MiMo V2.5 Pro 有利的推理经济性。在标准推理框架上的 token 生成吞吐量可与 42B 稠密模型相媲美，完全在中端服务器硬件的运行范围内。这使该模型在 Claude 或 GPT API 成本过高的高吞吐量编码智能体部署中具有实用性。

100 万 token 的上下文窗口使全代码库分析成为主要操作模式。编码智能体可以摄入整个仓库——源文件、测试、文档和依赖清单——并对跨文件变更进行整体推理。这是相对于需要谨慎检索-总结模式来处理大型代码库的上下文受限工作流的阶跃式改进。

Fine-Tuning with Ertas

MiMo V2.5 Pro 的 1T 总参数处于实际微调的边缘。Ertas Studio 支持在多 GPU 服务器配置（8x A100 80GB 或 8x H100 80GB）上进行 QLoRA 微调，在典型序列长度下约需 580-680GB 总 VRAM。

对于大多数没有 8 卡 GPU 服务器访问权限的团队，Ertas Studio 推荐的方法是使用 MiMo V2.5 Pro 作为教师模型生成合成编码任务数据，然后在 MiMo 生成的训练数据上微调较小的基础模型（Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体）。这以单 GPU 部署成本生成领域专项的编码模型，同时继承 MiMo 的编码模式。

一种特别有价值的微调模式是针对特定代码库的垂直化。小米已将 MiMo 系列定位为行业专项微调的基础，Ertas Studio 支持完整管道：从您的代码库准备训练数据（可选地使用基础 MiMo 模型进行合成增强）、QLoRA 微调、针对您自己的任务套件的评估，以及用于部署的 GGUF 导出。在内部代码库上微调的 MiMo 变体在这些特定领域上始终优于通用编码模型。

训练完成后，Ertas Studio 导出为 GGUF（或为更高吞吐量的 vLLM 原生格式）。基础 1T 模型的 Q4_K_M 量化约为 580GB——仍属服务器级——但蒸馏到较小基础模型上的微调以标准的 7B-70B 大小导出，可用于正常的单 GPU 部署。

Use Cases

智能体编码是 MiMo V2.5 Pro 的主要目标用例。诸如端到端功能实现、代码库迁移、大规模重构和自主 PR 生成等任务，都大幅受益于该模型在编码基准上的强劲表现、用于全仓推理的 100 万上下文，以及用于可处理推理的 42B 活跃参数的结合。实际部署模式包括用于企业代码库的 AI 结对编程助手和自主代码审查智能体。

长上下文代码理解是天然的契合。MiMo V2.5 Pro 可以在单个提示上下文中分析整个仓库——源代码、测试、文档、配置——支持对横切关注点的整体推理：跨整个代码库的安全审计、大型系统的架构审查、依赖升级影响分析以及大型重构规划。

对于考虑 Claude Code 或 Cursor 后端模型自托管替代方案的团队，MiMo V2.5 Pro 是最强的开源权重选择之一。MIT 许可证结合该模型的编码性能使其非常适合无许可开销的商业部署，42B 活跃参数数量使高吞吐量智能体工作负载的推理经济性可处理。

Hardware Requirements

MiMo V2.5 Pro 在 Q4_K_M 量化下约需 580GB 总内存，可装入 8x A100 80GB 或 8x H100 80GB 服务器，或具有 768GB+ RAM 的 CPU 推理主机。42B 活跃参数数量决定 token 生成吞吐量，因此一旦加载，模型以 42B 级别的速度服务——在适当的服务器硬件上对于交互式编码智能体用例足够快。

对于较小的部署，Q3_K_M 量化（约 420GB）以适度的质量换取内存减少，可装入有余量的 4x H100 80GB 服务器。生产编码智能体不建议低于 Q3——多步推理的质量下降变得明显，特别是在 MiMo V2.5 Pro 竞争优势所在的 SWE-Bench 风格基准上。

在 Ertas Studio 中微调时：MiMo V2.5 Pro QLoRA 约需 580-680GB 总 VRAM（多 GPU 服务器）。对于没有该规模的团队，蒸馏到 Qwen 32B 或 Llama 70B 上使用 QLoRA 时这些基础模型的标准 VRAM 为 20-48GB，通过教师-学生微调方法以单 GPU 部署成本访问 MiMo 的编码模式。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →