SWE-Bench Pro

SWE-Bench Verified 的更高难度后继版本——专为抗污染设计，并基于较新的 GitHub issue 评估模型在更复杂多文件改动上的表现，是当前智能体编程能力的前沿基准。

CodingUpdated 2026-04-30

What It Measures

SWE-Bench Pro 是 SWE-Bench Verified 的更高难度后继版本，旨在解决早期基准的两个局限。其一，它包含更复杂的多文件改动——这些任务的修复需要在多个文件之间进行协调编辑，而非局限于单文件的局部改动。其二，它取材于更近期的 GitHub issue，从而降低前沿模型在训练阶段已见过这些任务的风险（污染问题已影响了 SWE-Bench Verified 排行榜顶端的分数）。

到 2025 年末 / 2026 年初，SWE-Bench Pro 已成为认真评估智能体编程能力时的首选基准。各模型如今在 SWE-Bench Pro 排行榜上的竞争，与两年前在 SWE-Bench Verified 上的竞争如出一辙——区别在于 SWE-Bench Pro 的分数仍明显未达 100%，为模型在高位段拉开差距留出了空间。

How It Works

评估方法类似 SWE-Bench Verified：每个任务包含 GitHub issue、仓库状态和隐藏的测试套件。模型必须产出能通过测试套件的代码改动。差异体现在任务选择上——SWE-Bench Pro 强调更难、跨多文件、更近期的任务——以及精挑细选过程中的严格度，以确保任务无歧义且可验证。

与 SWE-Bench Verified 一样，运行模型所用的智能体脚手架是一个有意义的变量。公布的 SWE-Bench Pro 分数通常使用标准化脚手架，但跨报告比较时应始终核查脚手架细节。一些报告还会区分 “纯模型” 分数与 “模型 + 脚手架” 分数；SWE-Bench Pro 的任务足够复杂，以至于脚手架的选择可使分数移动 5–10 个百分点。

Current Leaders

MiMo V2.5 Pro

据小米称，胜过 Claude Opus 4.6

Leader (open-weight)

Kimi K2.6

Strong

DeepSeek V4

Strong

MiniMax M2.5

Strong

Qwen3-Coder

Competitive

How to Interpret Scores

在同一模型上，SWE-Bench Pro 的分数明显低于 SWE-Bench Verified——一个在 Verified 上得 80% 的模型在 Pro 上可能仅得 50–60%。这是设计使然：Pro 旨在成为能让前沿模型仍可能有意义地失败的更高难度评估。截至 2026 年 4 月，根据小米的评估，开源权重领先者据称为 MiMo V2.5 Pro（声称击败 Claude Opus 4.6），Claude Opus 4.7 在专有模型中以 64.3% 领先。这些声称的独立验证仍在进行中。在实际评估中，相比已日益受污染并趋于饱和的 Verified，SWE-Bench Pro 是衡量前沿智能体编程能力更可信的信号。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →