Fine-Tune MiMo V2.5 Pro with Ertas

小米於 2026 年 4 月發布的旗艦——1.02 兆參數的專家混合模型，活躍參數 42B，具備 100 萬 token 上下文，採用 MIT 授權，據報導在代理式編程任務上於 SWE-Bench Pro 勝過 Claude Opus 4.6。

1T-A42BXiaomi

Overview

MiMo V2.5 Pro 由小米於 2026 年 4 月發布，是該公司最具能力的開源權重發布，也是兆級參數 MoE 層級中與 DeepSeek V4 及 Kimi K2.6 並列的重要參賽者。架構為 1.02 兆參數的專家混合，每個 token 約有 42B 參數活躍，搭配 100 萬 token 的上下文視窗。模型以 MIT 授權發布——是商業使用上最寬鬆的開源授權之一。

小米對 MiMo V2.5 Pro 的定位強調程式編寫與代理式執行。根據小米自己的評估，模型在 SWE-Bench Pro 上勝過所有可用模型——開源權重或專有——包括 Claude Opus 4.6。雖然發布時這些主張的第三方驗證仍在進行中，但模型在一系列程式編寫基準（HumanEval、MBPP、LiveCodeBench、SWE-Bench Verified）上的強勁表現是公認的。1578 的綜合智慧分數也使 MiMo V2.5 Pro 位居或近於綜合智慧指數的頂端。

模型是更廣泛 MiMo 家族的一部分。存在用於微調的 V2.5 基礎變體，小米也已表明該架構是為垂直專業化而設計——針對特定產業（金融、法律、醫療）的微調 MiMo 變體是小米部署策略的明確一環。

權重可在 Hugging Face 上以 `XiaomiMiMo/MiMo-V2.5-Pro` 與 `XiaomiMiMo/MiMo-V2.5` 取得。MIT 授權結合模型強勁的程式編寫表現，使 MiMo V2.5 Pro 對自架的開發者工具與本地部署的企業編程代理特別具吸引力。

Key Features

SWE-Bench Pro 表現是 MiMo V2.5 Pro 的頭條成果。小米回報的分數據報導在這個基準上勝過 Claude Opus 4.6，該基準根據開源儲存庫中的真實世界軟體工程任務評估模型。SWE-Bench Pro 經特別設計，比原版 SWE-Bench 更困難，包含更複雜的多檔案變更與更近期的問題，使其相比 HumanEval 風格的合成基準成為更可信的代理式編程能力訊號。

相對於 1T 總參數，42B 的活躍參數量讓 MiMo V2.5 Pro 在推論經濟學上表現有利。標準推論框架上的 token 生成吞吐量與 42B 密集模型相當，這完全在中階伺服器硬體的營運範圍內。這使模型在 Claude 或 GPT API 成本過高時，對高吞吐量編程代理部署而言實用可行。

100 萬 token 的上下文視窗使完整程式碼庫分析成為主要營運模式。編程代理可吸收整個儲存庫——原始檔、測試、文件、相依性清單——並對跨檔案變更進行整體推理。這相比於需要謹慎地以檢索-綜整模式處理大型程式碼庫的上下文受限工作流程，是階躍式的改進。

MIT 授權比一些對等模型使用的修改版 MIT 或 DeepSeek 授權條款更寬鬆。對商業使用者而言，MIT 意味著沒有使用限制、除標準著作權聲明外無歸屬要求，且對衍生作品或微調無限制。這使 MiMo V2.5 Pro 對於不需要授權審查負擔即可在商業產品中出貨的場景特別具吸引力。

Fine-Tuning with Ertas

MiMo V2.5 Pro 在 1T 總參數下處於實務微調的邊緣。Ertas Studio 支援在多 GPU 伺服器配置（8x A100 80GB 或 8x H100 80GB）上進行 QLoRA 微調，在典型序列長度下約需 580-680GB 的總 VRAM。

對大多數沒有 8 GPU 伺服器存取權的團隊，Ertas Studio 中推薦的方法是使用 MiMo V2.5 Pro 作為合成編程任務資料生成的教師模型，然後在 MiMo 生成的訓練資料上微調較小的基礎模型（Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸餾變體）。這以單張 GPU 部署成本產生領域專門化的編程模型，同時繼承 MiMo 的程式編寫模式。

一個特別有價值的微調模式是針對特定程式碼庫的垂直化。小米已將 MiMo 家族定位為產業專屬微調的基礎，Ertas Studio 支援完整管線：從你的程式碼庫準備訓練資料（可選地使用基礎 MiMo 模型進行合成擴增）、QLoRA 微調、針對你自己的任務套件評估，以及匯出 GGUF 部署。在內部程式碼庫上微調的 MiMo 變體，在這些特定領域上一致地勝過通用編程模型。

訓練後，Ertas Studio 匯出為 GGUF（或更高吞吐量的 vLLM 原生格式）。基礎 1T 模型的 Q4_K_M 量化約 580GB——仍屬伺服器級——但蒸餾微調至較小基礎的模型以標準 7B-70B 規格匯出，可進行正常的單 GPU 部署。

Use Cases

代理式編程是 MiMo V2.5 Pro 的主要目標使用情境。端到端功能實作、程式碼庫遷移、大規模重構與自主 PR 生成等任務，大幅受益於模型結合強勁的程式編寫基準、用於完整儲存庫推理的 1M 上下文，以及可處理推論的 42B 活躍參數的特性。實際部署模式包括企業程式碼庫的 AI 結對編程助手與自主程式碼審查代理。

長上下文程式碼理解是自然契合。MiMo V2.5 Pro 可在單一提示脈絡內分析整個儲存庫——原始程式碼、測試、文件、組態——實現對橫切關注點的整體推理：跨整個程式碼庫的安全稽核、大型系統的架構審查、相依性升級影響分析，以及大型重構規劃。

對於考慮自架替代 Claude Code 或 Cursor 後端模型的團隊，MiMo V2.5 Pro 是最強的開源權重選項之一。MIT 授權結合模型的程式編寫表現，使其非常適合無授權負擔的商業部署，而 42B 的活躍參數量讓推論經濟學在高吞吐量代理工作負載上可行。

Hardware Requirements

MiMo V2.5 Pro 在 Q4_K_M 量化下約需 580GB 總記憶體，可裝在 8x A100 80GB 或 8x H100 80GB 伺服器，或是配備 768GB+ RAM 的 CPU 推論主機。42B 的活躍參數量決定了 token 生成吞吐量，因此一旦載入後，模型以 42B 級速度服務——在合適的伺服器硬體上對於互動式編程代理使用情境足夠快。

對於較小的部署，Q3_K_M 量化（約 420GB）以適度品質換取較少記憶體，可舒適地裝在 4x H100 80GB 伺服器上。生產編程代理不建議低於 Q3——多步推理上的品質劣化變得明顯，特別是在 SWE-Bench 風格基準上，而那正是 MiMo V2.5 Pro 競爭優勢的源頭。

在 Ertas Studio 中進行微調：MiMo V2.5 Pro QLoRA 約需 580-680GB 總 VRAM（多 GPU 伺服器）。對沒有該規模的團隊，蒸餾到 Qwen 32B 或 Llama 70B 上使用標準的 20-48GB VRAM（這些基礎模型在 QLoRA 下），透過教師-學生微調方法以單張 GPU 部署成本即可取得 MiMo 的程式編寫模式。

Supported Quantizations

Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →