SWE-Bench Pro

SWE-Bench Verified 的更高難度後繼者，設計上具備抗污染特性，並以更近期的 GitHub issue 評估模型在更複雜多檔案變更上的能力——目前是智慧體編程能力的前沿基準。

CodingUpdated 2026-04-30

What It Measures

SWE-Bench Pro 是 SWE-Bench Verified 的更高難度後繼版本，旨在解決前一代基準的兩項限制。第一，它納入更複雜的多檔案變更——需要在多個檔案間進行協調編輯才能修復的任務，而非單一檔案內的局部變更。第二，題目取自更近期的 GitHub issue，降低前沿模型在訓練期間看過題目的風險（這個污染問題已影響到 SWE-Bench Verified 排行榜頂端的分數）。

到 2025 年末至 2026 年初，SWE-Bench Pro 已成為認真評估智慧體編程能力的首選基準。各模型如今競逐 SWE-Bench Pro 排行榜的方式，正如兩年前競逐 SWE-Bench Verified 一樣——差別在於 SWE-Bench Pro 的分數仍明顯被限制在 100% 以下，為模型提供在高分段彼此區分的空間。

How It Works

評估方法與 SWE-Bench Verified 類似：每項任務包含 GitHub issue、倉庫狀態及隱藏測試套件。模型必須產出能通過測試套件的程式碼變更。差異在於任務的選擇——SWE-Bench Pro 強調更困難、跨多檔案、更近期的任務——以及在篩選過程中的嚴謹度，以確保任務不含糊且可驗證。

與 SWE-Bench Verified 一樣，用於執行模型的智慧體執行環境是一項重要變因。公布的 SWE-Bench Pro 分數通常使用標準化執行環境，但跨報告比較時應始終確認執行環境的細節。部分報告也會區分「純模型」分數與「模型加上鷹架」分數；SWE-Bench Pro 的任務複雜度足以使鷹架選擇造成 5 至 10 個百分點的分數差異。

Current Leaders

MiMo V2.5 Pro

據小米表示，擊敗 Claude Opus 4.6

Leader (open-weight)

How to Interpret Scores

同一模型在 SWE-Bench Pro 上的分數會明顯低於 SWE-Bench Verified——在 Verified 上得 80% 的模型，在 Pro 上可能只有 50% 至 60%。這正是設計目的：Pro 是讓前沿模型仍會大幅失誤的更難評估。截至 2026 年 4 月，根據小米的評估，SWE-Bench Pro 的開源權重領先者據稱為 MiMo V2.5 Pro（聲稱擊敗 Claude Opus 4.6），而專有模型則由 Claude Opus 4.7 以 64.3% 領先。對於這些聲明的獨立驗證仍在進行中。在實務評估上，SWE-Bench Pro 比 Verified 更可信地反映前沿智慧體編程能力，後者已日益受到污染與飽和影響。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

SWE-Bench Pro

What It Measures

How It Works

Current Leaders

MiMo V2.5 Pro

Kimi K2.6

DeepSeek V4

MiniMax M2.5

Qwen3-Coder

How to Interpret Scores

Ship AI that runs on your users' devices.