MiMo V2.5 Pro
据小米称,胜过 Claude Opus 4.6
SWE-Bench Verified 的更高难度后继版本——专为抗污染设计,并基于较新的 GitHub issue 评估模型在更复杂多文件改动上的表现,是当前智能体编程能力的前沿基准。
SWE-Bench Pro 是 SWE-Bench Verified 的更高难度后继版本,旨在解决早期基准的两个局限。其一,它包含更复杂的多文件改动——这些任务的修复需要在多个文件之间进行协调编辑,而非局限于单文件的局部改动。其二,它取材于更近期的 GitHub issue,从而降低前沿模型在训练阶段已见过这些任务的风险(污染问题已影响了 SWE-Bench Verified 排行榜顶端的分数)。
到 2025 年末 / 2026 年初,SWE-Bench Pro 已成为认真评估智能体编程能力时的首选基准。各模型如今在 SWE-Bench Pro 排行榜上的竞争,与两年前在 SWE-Bench Verified 上的竞争如出一辙——区别在于 SWE-Bench Pro 的分数仍明显未达 100%,为模型在高位段拉开差距留出了空间。
评估方法类似 SWE-Bench Verified:每个任务包含 GitHub issue、仓库状态和隐藏的测试套件。模型必须产出能通过测试套件的代码改动。差异体现在任务选择上——SWE-Bench Pro 强调更难、跨多文件、更近期的任务——以及精挑细选过程中的严格度,以确保任务无歧义且可验证。
与 SWE-Bench Verified 一样,运行模型所用的智能体脚手架是一个有意义的变量。公布的 SWE-Bench Pro 分数通常使用标准化脚手架,但跨报告比较时应始终核查脚手架细节。一些报告还会区分 “纯模型” 分数与 “模型 + 脚手架” 分数;SWE-Bench Pro 的任务足够复杂,以至于脚手架的选择可使分数移动 5–10 个百分点。
在同一模型上,SWE-Bench Pro 的分数明显低于 SWE-Bench Verified——一个在 Verified 上得 80% 的模型在 Pro 上可能仅得 50–60%。这是设计使然:Pro 旨在成为能让前沿模型仍可能有意义地失败的更高难度评估。截至 2026 年 4 月,根据小米的评估,开源权重领先者据称为 MiMo V2.5 Pro(声称击败 Claude Opus 4.6),Claude Opus 4.7 在专有模型中以 64.3% 领先。这些声称的独立验证仍在进行中。在实际评估中,相比已日益受污染并趋于饱和的 Verified,SWE-Bench Pro 是衡量前沿智能体编程能力更可信的信号。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.