Fine-Tune MiMo V2.5 with Ertas

小米於 2026 年 4 月 28 日推出的中階模型——3100 億參數、150 億活躍參數的專家混合模型，採用 MIT 授權，與更大型的 MiMo V2.5 Pro 旗艦同步發布。是 MiMo 家族中可部署的中階選項，適合不需要完整 Pro 基礎架構的團隊。

310B-A15BXiaomi

Overview

MiMo V2.5（非 Pro 變體）由小米於 2026 年 4 月 28 日與 MiMo V2.5 Pro 同步發布，是小米旗艦編碼模型家族中可部署的中階版本。架構為 3100 億參數的專家混合模型，每個 token 約有 150 億活躍參數——明顯小於 V2.5 Pro 旗艦（總計 1.02T / 420 億活躍），但設計用於相同的代理編碼使用情境，並具備更好的部署經濟性。

小米的發布策略將兩個變體定位為兄弟產品而非旗艦與精簡層級。MiMo V2.5 瞄準不需要 V2.5 Pro 1T 規模的生產部署場景——大多數生產代理編碼工作負載、典型企業程式碼庫的 AI 結對程式設計、中等請求量下整合 CI 的編碼代理。150 億活躍參數量提供了適合生產的推論經濟性，同時維持與 2026 年中階替代方案具競爭力的強大編碼能力。

從更廣泛的 MiMo 家族繼承的 MIT 授權，是開放權重生態系中最寬鬆的授權之一。結合強大的編碼能力與可取用的部署基礎架構（該模型可在 4 GPU 伺服器上執行，相較於 V2.5 Pro 需要 8 GPU），MiMo V2.5 對於小型團隊規模的自託管編碼代理部署特別具有吸引力。

小米將 MiMo 系列定位為透過微調進行垂直特化。MiMo V2.5——具備更易取得的部署規模——特別適合作為產業特定編碼代理的微調基礎。具備特定程式碼庫需求的金融、醫療、法律科技等受監管產業團隊，會發現 MiMo V2.5 是在可部署基礎架構規模下產出領域特化編碼代理的自然起點。

權重可在 Hugging Face 上以 `XiaomiMiMo/MiMo-V2.5` 取得。授權為 MIT——無商業限制、署名要求或使用上限。

Key Features

21:1 的總參數對活躍參數比（310B / 15B）足夠激進，能在維持知識廣度的同時提供強大的推論經濟性。標準推論框架上的 token 生成吞吐量約以 15B 級速度執行，可舒適地落在中階伺服器硬體的運作範圍內。對於中等規模的編碼代理生產部署，MiMo V2.5 達到了富有成效的最佳取捨點。

從更廣泛的 MiMo 家族繼承的 MIT 授權對商業部署具有結構性意義。MIT 是最寬鬆的開源授權之一——無使用上限、除標準著作權聲明外無署名要求、對衍生訓練或商業整合無限制。對於先前使用 Llama 社群授權限制模型的團隊，MiMo V2.5 在能力提升的同時提供了授權簡化。

編碼導向的訓練可轉化為實際的可靠性。如同更廣泛的 Qwen3-Coder 與 MiMo 系列，MiMo V2.5 的後訓練強調可驗證的程式碼執行獎勵與多步代理軌跡。該模型在處理實際生產編碼代理工作負載時，比相同規模的通用模型更可靠，包括在通用模型容易產生幻覺的領域（特定框架版本、函式庫 API、建置設定）。

相較於 V2.5 Pro 的可部署規模是實際的差異化優勢。V2.5 Pro 需要 8 GPU 伺服器基礎架構才能進行完整品質部署，而 V2.5 在 Q4 量化下可在 4 GPU 伺服器（4x A100 80GB 或 4x H100 80GB）上執行。對於不需要完整 Pro 規模的團隊，這將基礎架構成本減半，使 MiMo 部署可被更多團隊取用。

Fine-Tuning with Ertas

在 Ertas Studio 中對 MiMo V2.5 進行微調比 V2.5 Pro 變體更容易取得。每個 token 具備 150 億活躍參數，QLoRA 訓練在典型序列長度下可在單張 80GB GPU 上執行，或透過模型平行化分散在兩張 48GB GPU 上。在 150 億活躍參數下的訓練步驟吞吐量遠快於微調等效品質的稠密替代方案。

針對編碼特定的微調，MiMo V2.5 受益於包含完整代理執行軌跡的訓練資料——任務描述、規劃、多檔案編輯、測試輸出與修正迭代。Ertas Studio 原生支援這些多步驟格式。在您團隊的特定程式碼庫上進行訓練，可產生在您程式碼庫內任務上大幅勝過基礎模型的領域特化編碼模型。

針對小米對 MiMo 系列明確的垂直特化定位，MiMo V2.5 是比 V2.5 Pro 更實用的起點。可取用的微調硬體結合 MIT 授權，意味著商業垂直特化變體可在不受較大基礎模型或限制性授權替代方案的基礎架構或授權限制下生產與部署。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並完整保留 MiMo V2.5 聊天範本。Q4_K_M 量化約為 175GB——可在 4 GPU 伺服器上充裕執行，或在配備 192GB 以上統一記憶體的 Apple Silicon Mac Studio 配置上執行。

Use Cases

中等團隊規模的自託管編碼代理部署是 MiMo V2.5 最自然的使用情境。強大的編碼能力、MIT 授權與 4 GPU 部署規模的結合，使其對 10-50 名開發者的團隊特別具吸引力——這些團隊希望取得前沿等級的編碼代理能力，但不想投入 8 GPU 伺服器基礎架構。生產模式包括企業程式碼庫的 AI 結對程式設計、自主 PR 生成、程式碼審查自動化以及整合 CI 的編碼工作流程。

垂直特化是小米對 MiMo V2.5 的明確定位。金融（法規程式碼分析、金融系統開發）、醫療（HIPAA 合規醫療軟體）、法律科技（合約分析工具）等具備特定程式碼庫需求的受監管產業團隊，會發現 MiMo V2.5 是特別強大的微調基礎。可取用的部署規模結合 MIT 授權，可簡化垂直特化變體的商業部署。

對於考慮自託管 Claude Code 或 Cursor 後端模型替代方案的團隊，MiMo V2.5 是最具經濟吸引力的選項之一。自託管基礎架構比按請求 API 定價更便宜的損益平衡點——對 V2.5 比對需要 8 GPU 的 V2.5 Pro 在較低請求量時就能達成。這使自託管部署可被更多團隊取用。

Hardware Requirements

MiMo V2.5 在 Q4_K_M 量化下需要約 175GB 記憶體，可在 4x A100 80GB 或 4x H100 80GB 伺服器上執行。在配備 256GB 以上 RAM 的主機上可進行 CPU 推論，但吞吐量遠低於 GPU 部署。150 億的活躍參數量在載入後決定 token 生成吞吐量。

對於較小型部署，Q3_K_M 量化（約 130GB）以些微品質換取較低記憶體，可在 2x H100 80GB 配置上執行。配備 192GB 以上統一記憶體的 Apple Silicon Mac Studio M3 Ultra 或 M4 Ultra 配置可透過 MLX 部署 MiMo V2.5，效能可用，但吞吐量明顯低於 NVIDIA 加速部署。

在 Ertas Studio 中進行微調：MiMo V2.5 QLoRA 約需 80-130GB 總 VRAM，在典型序列長度下可在單張 80GB GPU 上執行，或透過模型平行化分散在兩張 48GB GPU 上。150 億活躍參數的 MoE 架構使訓練比微調具備等效編碼能力的稠密替代方案明顯更有效率。