Fine-Tune MiniMax M2.7 with Ertas

    MiniMax 2026 年 3 月发布的自进化模型——通过 100 多轮自主强化学习改进,具备原生推理、205K 上下文,并能自主完成 30-50% 的强化学习研究工作流。M2.5(此前 SWE-Bench Verified 80.2% 的领跑者)的继任者。

    456B-A45BMiniMax

    Overview

    MiniMax M2.7 由 MiniMax 于 2026 年 3 月 17 日发布,是本年度最具架构辨识度的开放权重发布之一——并非因为新的架构创新,而是因为其后训练流水线产出该模型的方式。M2.7 经过 100 多轮自主强化学习开发,模型本身执行了传统上由人类研究员主导的强化学习研究工作流的相当一部分。MiniMax 公布的描述估计,在这 100 多轮训练迭代中,模型自主完成了 30-50% 的强化学习研究工作流。

    自进化叙事在 2026 年 3-4 月引发了大量报道,既因技术成就(自我改进的训练流水线长期被讨论但鲜有实施),也因实际成果。AA-Omniscience 基准得分从 -40(M2.5)跃升至 +1(M2.7)——这是一个专为衡量跨多领域推理能力而设计的基准上的可观绝对提升。尽管该方法论在某些研究圈仍存争议(关于跨 100 多轮迭代中训练数据污染的疑问,关于强化学习工作流中「自主」定义的疑问),所产出的模型确实具备能力,并已被广泛部署。

    M2.7 是 M2.5 的继任者(M2.5 在 MiMo V2.5 Pro 和 Kimi K2.6 发布之前以 80.2% 占据 SWE-Bench Verified 榜首位置)。架构形态相似——都是活跃参数在 400-500 亿区间的大型专家混合——但后训练改进在推理、编码和通用智能基准上带来了可衡量的能力提升。原生推理已被整合,而非通过独立的思考模式开关进行门控,相较于混合模式替代方案简化了生产部署。

    M2.7 最初以专有模型形式发布,权重随后于 Hugging Face 上 MiniMax 组织名下公开。许可证属于商业宽容型,但针对具体部署场景值得审阅。205K 上下文窗口足以支撑大多数生产工作负载,同时在推理经济性上仍具可行性。

    Key Features

    通过 100 多轮自主强化学习实现的自进化是其方法论上的标志。大多数 LLM 训练流水线都由人类研究员主导每一轮训练迭代、评估结果并决定下一步。M2.7 的训练流水线则在这一工作流中自主执行了相当一部分——模型本身在跨迭代中提出训练数据调整、评估标准和强化学习奖励塑形。这是训练流水线自我改进的早期演示,若可推广,可能大幅改变 AI 开发的经济格局。

    AA-Omniscience 从 -40 到 +1 的提升是其实证性的标志。AA-Omniscience 旨在使用难度足以让强模型得分远低于随机基线的题目,衡量跨多元学术领域的推理能力。M2.5 → M2.7 转变中可观的绝对提升反映了更宽泛强化学习训练循环带来的可衡量能力增长,而非狭义的基准优化。

    原生推理整合消除了混合模式模型的运维复杂度。在 Qwen 3+、DeepSeek V3.2/V4 及类似 2026 模型需要控制参数在快速直接响应与延伸推理模式之间切换的情况下,M2.7 默认会根据请求的明显复杂度产出适当深思熟虑的响应。这为不希望管理思考预算参数的团队简化了提示工程。

    205K 上下文窗口对大多数生产工作负载而言较为宽裕,同时在推理经济性上仍具可行性。结合从 M2.5 继承并通过自主强化学习训练进一步精炼的强工具使用保真度,M2.7 非常适合需要兼顾大量上下文与可靠结构化输出行为的智能体部署。

    Fine-Tuning with Ertas

    在 Ertas Studio 中对 MiniMax M2.7 进行全模型规模 QLoRA 微调需要多 GPU 服务器配置。在典型序列长度下需要约 280-340GB 总 VRAM,可在 8x A100 80GB 或同等服务器上运行。

    对于大多数没有此类基础设施的团队,推荐的模式是教师-学生蒸馏:将 M2.7 用作教师生成合成训练数据,然后在该数据上微调更小的基础模型(Qwen 32B、Llama 70B 或 DeepSeek-R1 蒸馏变体之一)。这能以单 GPU 部署成本产出领域特化模型,同时继承 M2.7 的行为模式。

    微调数据集方面,M2.7 受益于包含多步推理轨迹、工具使用序列和复杂智能体执行模式的训练数据。Ertas Studio 原生支持这些格式。当训练数据包含适当深思熟虑的响应模式时,原生推理行为会通过微调得以保留。

    训练完成后,Ertas Studio 导出为 GGUF(或为更高吞吐使用 vLLM 原生格式)。完整 M2.7 模型的 Q4_K_M 量化体积庞大——属于多 GPU 服务器部署范畴——但蒸馏到较小基础模型上的微调以标准 7B-70B 规模导出,可用于常规单 GPU 部署。

    Use Cases

    M2.7 的主要用例反映了自进化叙事及由此带来的能力画像。研究辅助应用受益于该模型广泛的学术领域能力——AA-Omniscience 的提升反映了可转化为研究任务质量的真实推理增益。长上下文分析工作流则受益于 205K 上下文与原生推理深度的结合。

    以推理质量为重的智能体部署是其强契合场景。原生推理整合消除了混合模式模型引入的一类运维复杂度,而后训练对工具使用保真度的强调可在生产中转化为可靠的智能体行为。对于在受监管行业部署智能体或对一致推理重于原始吞吐的应用,M2.7 与顶级开放权重选项有竞争力。

    对于关注自我改进 AI 系统的团队,M2.7 是该研究方向中较为引人入胜的可部署成果之一。尽管训练流水线自我改进的长期影响仍有争议,但所产出的模型是具体且支持良好的。生产部署可从能力提升中获益,而关于该方法论可扩展性和局限性的更广泛研究问题则可继续探索。

    Hardware Requirements

    MiniMax M2.7 在 Q4_K_M 量化下约需 250GB 内存,可在 4x A100 80GB 或 4x H100 80GB 服务器上运行,或在配备 384GB+ RAM 的 CPU 推理主机上运行。约 450 亿的活跃参数量决定了加载后的 token 生成吞吐。

    对于较小的部署,Q3_K_M 量化(约 190GB)以适度的质量换取减少的内存,可在 2x H100 80GB 或 3x A100 80GB 配置上运行。低于 Q3 不推荐用于生产部署——使 M2.7 区别于其他模型的原生推理行为依赖于多步推理链中一致的质量,而激进的量化会引入误差累积,破坏这种一致性。

    在 Ertas Studio 中微调时:M2.7 QLoRA 需要约 280-340GB 总 VRAM(多 GPU 服务器)。对于没有此规模的团队,使用 M2.7 作为教师将其蒸馏到 Qwen 32B(40GB GPU)或 Llama 70B(48GB GPU)上,能以显著更低的微调成本产出领域特化智能体。

    Supported Quantizations

    Q3_K_MQ4_0Q4_K_MQ5_K_MQ6_KQ8_0

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.