SWE-Bench Pro

    SWE-Bench Verified 的更高難度後繼者,設計上具備抗污染特性,並以更近期的 GitHub issue 評估模型在更複雜多檔案變更上的能力——目前是智慧體編程能力的前沿基準。

    CodingUpdated 2026-04-30

    What It Measures

    SWE-Bench Pro 是 SWE-Bench Verified 的更高難度後繼版本,旨在解決前一代基準的兩項限制。第一,它納入更複雜的多檔案變更——需要在多個檔案間進行協調編輯才能修復的任務,而非單一檔案內的局部變更。第二,題目取自更近期的 GitHub issue,降低前沿模型在訓練期間看過題目的風險(這個污染問題已影響到 SWE-Bench Verified 排行榜頂端的分數)。

    到 2025 年末至 2026 年初,SWE-Bench Pro 已成為認真評估智慧體編程能力的首選基準。各模型如今競逐 SWE-Bench Pro 排行榜的方式,正如兩年前競逐 SWE-Bench Verified 一樣——差別在於 SWE-Bench Pro 的分數仍明顯被限制在 100% 以下,為模型提供在高分段彼此區分的空間。

    How It Works

    評估方法與 SWE-Bench Verified 類似:每項任務包含 GitHub issue、倉庫狀態及隱藏測試套件。模型必須產出能通過測試套件的程式碼變更。差異在於任務的選擇——SWE-Bench Pro 強調更困難、跨多檔案、更近期的任務——以及在篩選過程中的嚴謹度,以確保任務不含糊且可驗證。

    與 SWE-Bench Verified 一樣,用於執行模型的智慧體執行環境是一項重要變因。公布的 SWE-Bench Pro 分數通常使用標準化執行環境,但跨報告比較時應始終確認執行環境的細節。部分報告也會區分「純模型」分數與「模型加上鷹架」分數;SWE-Bench Pro 的任務複雜度足以使鷹架選擇造成 5 至 10 個百分點的分數差異。

    Current Leaders

    #1

    MiMo V2.5 Pro

    據小米表示,擊敗 Claude Opus 4.6

    Leader (open-weight)

    How to Interpret Scores

    同一模型在 SWE-Bench Pro 上的分數會明顯低於 SWE-Bench Verified——在 Verified 上得 80% 的模型,在 Pro 上可能只有 50% 至 60%。這正是設計目的:Pro 是讓前沿模型仍會大幅失誤的更難評估。截至 2026 年 4 月,根據小米的評估,SWE-Bench Pro 的開源權重領先者據稱為 MiMo V2.5 Pro(聲稱擊敗 Claude Opus 4.6),而專有模型則由 Claude Opus 4.7 以 64.3% 領先。對於這些聲明的獨立驗證仍在進行中。在實務評估上,SWE-Bench Pro 比 Verified 更可信地反映前沿智慧體編程能力,後者已日益受到污染與飽和影響。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.