Fine-Tune MiniMax M2.5 with Ertas

    MiniMax 的旗艦程式設計模型——目前在 SWE-Bench Verified 上以 80.2% 領先所有開放權重模型,專為代理式程式設計工作負載而設計。後續的 M2.7 持續延伸此產品線。

    456B-A45BMiniMax

    Overview

    MiniMax M2.5 目前以 80.2% 在開放權重模型中領先 SWE-Bench Verified——這是目前可取得最強的訊號之一,證明開放權重模型在真實世界軟體工程任務上能夠媲美甚至超越專有替代方案。該模型採用大型專家混合(MoE)架構,活躍參數約為 45B,使其推論經濟性相對於總參數量表現出色,同時提供能與前沿專有模型競爭的程式設計能力。

    MiniMax 在發布此模型時聚焦於代理式程式設計工作負載——例如端到端功能實作、多檔案重構,以及程式碼庫導航等任務模式。其訓練流程強調可驗證的程式碼執行獎勵,類似於 Qwen3-Coder 與 MiMo V2.5 Pro 所採用、足以區分這些模型的後訓練方法論。最終結果是一個處理真實軟體工程任務時,遠勝於同等規模通用模型的模型。

    M2.5 發布之後緊接著推出 M2.7,持續延續其在 SWE-Bench 上的領先地位。對於自行託管代理式程式設計代理的團隊而言,MiniMax M2.5(或其後繼版本 M2.7)是目前最具吸引力的開放權重選擇之一——結合了前沿基準效能、商業友善的授權,以及優異的推論經濟性。

    權重於 Hugging Face 的 MiniMax 組織底下提供。授權為商業友善,條款與其他中國實驗室開放權重發布所採用的 Apache 2.0 / MIT 風格授權相似。

    Key Features

    SWE-Bench Verified 上 80.2% 的領先地位是 M2.5 最具代表性的基準結果。SWE-Bench Verified 評估模型在真實世界軟體工程任務上的表現——這些任務取自開源儲存庫,要求關閉需要多檔案變更、測試驅動迭代,以及跨現有程式碼庫理解的 GitHub issue。M2.5 的得分使其在此特定基準上領先其他開放權重模型,包括 MiMo V2.5 Pro。

    聚焦代理式程式設計的訓練帶來了單純合成基準無法捕捉的真實世界可靠性。M2.5 處理多步驟程式設計任務時具備強大的工具使用保真度、結構化輸出遵循度,以及操作可預測性——非常適合在 LangGraph、CrewAI 或專用程式設計 CLI 等代理框架中進行生產部署。

    具有 45B 活躍參數的 MoE 架構使 M2.5 擁有有利的推論經濟性。在標準框架上的 token 生成吞吐量約為 45B 級別速度,落在中階伺服器硬體的運作範圍內。對於 API 成本過高的高吞吐量代理式程式設計部署而言,M2.5 自行託管的經濟性在大多數生產情境下都具有競爭力。

    M2.5 是活躍發布節奏的一部分——M2.7 是直接後繼版本,並持續改進基準表現。對於選擇 MiniMax 進行生產部署的團隊而言,活躍的開發軌跡為長期能力提升提供了信心。

    Fine-Tuning with Ertas

    在 Ertas Studio 中對 MiniMax M2.5 進行微調,需要多 GPU 伺服器配置才能在完整模型規模下執行 QLoRA。在典型序列長度下,總共約需 280-340GB 的 VRAM,可在 8x A100 80GB 或同等規格的伺服器上運行。

    對於沒有此類基礎設施的多數團隊,建議的模式為師生蒸餾:使用 M2.5 作為教師模型生成合成的代理式程式設計訓練資料,再用該資料對較小的基礎模型(Qwen 32B、Qwen3-Coder-30B-A3B 或 Llama 70B)進行微調。這能以單 GPU 部署成本產生領域專用程式設計模型,同時繼承 M2.5 的程式設計模式。

    就微調資料集而言,M2.5 從包含完整代理式程式設計軌跡(任務描述、規劃、程式碼編輯、測試輸出與迭代)的訓練資料中受益匪淺。Ertas Studio 原生支援這些多步驟格式,包括來自 CLI 代理執行的工具使用軌跡。

    訓練完成後,Ertas Studio 會匯出為 GGUF(或 vLLM 原生格式以獲得更高吞吐量)。完整 M2.5 模型的 Q4_K_M 量化體積龐大——屬於多 GPU 伺服器部署範疇——但蒸餾到較小基礎上的微調模型會以標準的 7B-70B 規模匯出,可進行常規的單 GPU 部署。

    Use Cases

    代理式程式設計是 M2.5 的主要目標。生產部署模式包括自主 PR 生成、大規模重構協助、企業程式碼庫的 AI 結對程式設計,以及 CI 整合的程式碼審查代理。SWE-Bench Verified 領先地位結合強大的推論經濟性,使 M2.5 對於自行託管程式設計代理以避免高吞吐量下 API 成本的團隊特別具有吸引力。

    對於考慮自行託管以替代 Claude Code、Cursor 後端模型或 GitHub Copilot 的團隊,MiniMax M2.5 是最強的選擇之一。前沿基準效能、商業友善授權,以及活躍的發布節奏,使其成為可信賴的長期選擇,而非權宜之計。

    多步驟工程工作流程——程式碼庫遷移、依賴項升級、安全稽核補救——能從 M2.5 強大的程式設計能力與可靠的代理執行的結合中獲益匪淺。模型在可驗證程式碼執行獎勵上的訓練,轉化為比通用模型在這類任務上更佳的真實世界可靠性。

    Hardware Requirements

    MiniMax M2.5 在 Q4_K_M 量化下約需 250GB 記憶體,可在 4x A100 80GB 或 4x H100 80GB 伺服器上執行,或於配備 384GB+ RAM 的 CPU 推論主機上運行。45B 的活躍參數量決定了模型載入後的 token 生成吞吐量。

    對於較小規模的部署,Q3_K_M 量化(約 190GB)以略微的品質下降換取記憶體節省,可在 2x H100 80GB 或 3x A100 80GB 的配置上運行。低於 Q3 不建議用於生產程式設計代理——多步驟推理上的品質下降會變得明顯。

    在 Ertas Studio 中進行微調:M2.5 QLoRA 需要約 280-340GB 總 VRAM(多 GPU 伺服器)。對於沒有此規模的團隊,使用 M2.5 作為教師蒸餾至 Qwen3-Coder-30B-A3B(24GB GPU)、Qwen 32B(40GB GPU)或 Llama 70B(48GB GPU),能以大幅降低的微調成本提供領域專用程式設計代理。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.