Fine-Tune MiniMax M2.7 with Ertas

    MiniMax 於 2026 年 3 月發布的自我演化版本——透過 100+ 輪自主強化學習改進,具備原生推理、205K 上下文,以及自主執行 30-50% RL 研究工作流程的能力。是 M2.5(先前 SWE-Bench Verified 領先者,80.2%)的後繼者。

    456B-A45BMiniMax

    Overview

    MiniMax M2.7 由 MiniMax 於 2026 年 3 月 17 日發布,是當年架構上最具特色的開源權重發布之一——並非因為新架構創新,而是因為產生此模型的後訓練管線方式。M2.7 是透過 100+ 輪自主強化學習開發出來的,模型本身執行了傳統上由人類研究者推動的大部分 RL 研究工作流程。MiniMax 公開的描述估計,模型在 100+ 訓練迭代中自主執行了 30-50% 的 RL 研究工作流程。

    自我演化的敘事在 2026 年 3 月至 4 月帶來大量報導,部分因為技術成就(自我改進的訓練管線一直是長期討論但很少實踐的概念),部分因為實際成果。AA-Omniscience 基準分數從 -40(M2.5)跳升至 +1(M2.7)——這是個專門設計用來衡量跨多元領域推理能力的基準,在絕對值上有可觀的提升。雖然該方法在某些研究圈仍具爭議(關於 100+ 迭代間訓練資料污染的疑問、關於 RL 工作流程中「自主」定義的疑問),但所產生的模型確實有能力,且已被廣泛部署。

    M2.7 是 M2.5 的後繼者(M2.5 在 MiMo V2.5 Pro 與 Kimi K2.6 發布前曾以 80.2% 占據 SWE-Bench Verified 領先位置)。架構形態相似——大型專家混合,活躍參數在 40-50B 區間——但後訓練改進在推理、程式編寫與一般智能基準上帶來可衡量的能力提升。原生推理是整合進去的,而非透過獨立的思考模式切換閘控,這簡化了相對於混合模式替代方案的生產部署。

    M2.7 最初以專有模型形式發布,權重隨後在 MiniMax 組織下發布於 Hugging Face。授權條款是商業友善的,但針對特定部署情境值得審視。205K 上下文視窗對大多數生產工作負載而言相當充足,同時對推論經濟性而言仍可承受。

    Key Features

    透過 100+ 輪自主 RL 進行自我演化是方法論上的頭條。大多數 LLM 訓練管線涉及人類研究者推動每次訓練迭代、評估結果並決定下一步。M2.7 的訓練管線自主執行了這個工作流程的大部分——模型本身在迭代之間提出訓練資料調整、評估標準與強化學習獎勵設計。如果這能泛化,這是訓練管線自我改進的早期展示,可能大幅改變 AI 開發經濟學。

    AA-Omniscience 從 -40 到 +1 的提升是實證上的頭條。AA-Omniscience 設計用來衡量跨多元學術領域的推理能力,題目難度足以讓即使是強模型也遠低於隨機猜測基線。在 M2.5 → M2.7 過渡中可觀的絕對提升反映了更廣泛 RL 訓練週期帶來的可衡量能力提升,而非僅是針對狹窄基準的優化。

    原生推理整合消除了混合模式模型的營運複雜性。Qwen 3+、DeepSeek V3.2/V4 與類似的 2026 模型需要控制參數來在快速直接回應與延伸推理模式之間切換,而 M2.7 預設根據請求的明顯複雜度產生適當審慎的回應。這簡化了不想管理思考預算參數的團隊的提示工程。

    205K 上下文視窗對大多數生產工作負載而言慷慨,同時對推論經濟性仍可承受。結合從 M2.5 繼承並透過自主 RL 訓練進一步精煉的強大工具使用保真度,M2.7 非常適合需要可觀上下文與可靠結構化輸出行為的代理式部署。

    Fine-Tuning with Ertas

    在完整模型規模下,於 Ertas Studio 中對 MiniMax M2.7 進行 QLoRA 微調需要多 GPU 伺服器配置。在典型序列長度下總共需要約 280-340GB VRAM,可裝在 8 張 A100 80GB 或同等伺服器上。

    對於沒有該基礎設施的多數團隊,建議的模式是教師-學生蒸餾:使用 M2.7 作為教師產生合成訓練資料,然後在該資料上微調較小的基礎模型(Qwen 32B、Llama 70B,或 DeepSeek-R1 蒸餾變體之一)。這以單 GPU 部署成本產生領域特化模型,同時繼承 M2.7 的行為模式。

    對於微調資料集,M2.7 受益於包含多步驟推理軌跡、工具使用序列與複雜代理式執行模式的訓練資料。Ertas Studio 原生支援這些格式。當訓練資料包含適當審慎的回應模式時,原生推理行為會在微調過程中保留。

    訓練完成後,Ertas Studio 匯出為 GGUF(或更高吞吐量的 vLLM 原生格式)。完整 M2.7 模型的 Q4_K_M 量化很大——屬於多 GPU 伺服器部署範圍——但蒸餾到較小基礎的微調模型則以標準 7B-70B 大小匯出,適用於一般的單 GPU 部署。

    Use Cases

    M2.7 的主要使用情境反映了自我演化敘事與所產生的能力輪廓。研究輔助應用受益於模型廣泛的學術領域能力——AA-Omniscience 提升反映了真實的推理能力提升,可轉化為研究任務品質。長上下文分析工作流程受益於 205K 上下文結合原生推理深度。

    推理品質至關重要的代理式部署是個強勁契合。原生推理整合消除了混合模式模型引入的一類營運複雜性,且後訓練對工具使用保真度的強調可轉化為生產環境中可靠的代理行為。對於在受監管產業部署代理或一致推理比原始吞吐量更重要的應用,M2.7 與頂尖開源權重選項具有競爭力。

    對於對自我改進 AI 系統感到好奇的團隊,M2.7 是該研究方向中較有趣且可部署的成果之一。雖然訓練管線自我改進的長期意涵仍有爭議,但所產生的模型是具體且支援良好的。生產部署可在更廣泛關於該方法可擴展性與限制的研究問題持續被探索之際,受益於該能力提升。

    Hardware Requirements

    MiniMax M2.7 在 Q4_K_M 量化下約需 250GB 記憶體,可裝在 4 張 A100 80GB 或 4 張 H100 80GB 伺服器上,或具備 384GB+ RAM 的 CPU 推論主機上。一旦載入後,約 45B 的活躍參數量決定 token 生成吞吐量。

    對於較小部署,Q3_K_M 量化(約 190GB)以略低品質換取較少記憶體,可裝在 2 張 H100 80GB 或 3 張 A100 80GB 配置上。Q3 以下不建議用於生產部署——M2.7 與眾不同的原生推理行為依賴於跨多步驟推理鏈的一致品質,而激進的量化會引入錯誤累積,破壞此一致性。

    在 Ertas Studio 中進行微調:M2.7 QLoRA 約需 280-340GB 總 VRAM(多 GPU 伺服器)。對於沒有該規模的團隊,使用 M2.7 作為教師將其蒸餾至 Qwen 32B(40GB GPU)或 Llama 70B(48GB GPU),可在大幅較低的微調成本下交付領域特化代理。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.