SWE-Bench Verified

    用於評估語言模型在真實世界軟體工程任務上的基準,題目取自開源 GitHub 倉庫——衡量模型能否透過正確的多檔案程式碼變更,自主關閉 issue。

    CodingUpdated 2026-04-30

    What It Measures

    SWE-Bench Verified 在真實的軟體工程任務上評估語言模型:透過在一個或多個檔案中進行正確的程式碼變更,來關閉 GitHub issue。每項任務包含 issue 描述、相關的倉庫狀態,以及隱藏的測試套件。模型在每項任務上的得分為二元:模型提出的程式碼變更要嘛通過測試套件(解決),要嘛沒通過。「Verified」子集是經過人工審核的 500 項任務精選子集,移除了原始測試套件含糊不清、issue 描述具誤導性,或預期變更過度依賴實作細節的題目。

    這與 HumanEval 或 MBPP 等合成程式碼基準有根本上的不同,後者要求模型根據描述撰寫單一函式。SWE-Bench 的任務需要模型在既有程式碼庫中導航、理解跨檔案的關聯、找出正確的修改位置,並產出能與周遭程式碼順暢整合的編輯內容。作為衡量智慧體編程能力的指標,SWE-Bench Verified 目前被視為廣泛使用中最具實際意義的評估。

    How It Works

    SWE-Bench Verified 的每項任務提供:GitHub issue 文字、issue 回報當下的倉庫狀態,以及正確修復必須通過的隱藏測試套件。模型(或建構於該模型之上的智慧體)取得倉庫存取權後必須產出程式碼變更。變更被套用至倉庫,再執行隱藏的測試套件。若所有測試通過,模型在該任務的得分為 1,否則為 0。

    目前大多數評估都在智慧體執行環境(agent harness)中執行模型——這是一層處理倉庫導航、檔案讀取、程式碼編輯與測試執行的鷹架(scaffolding)。智慧體執行環境本身就是一個重要變因:相同模型搭配不同執行環境的實作,分數可能會有顯著差異。多數公布的 SWE-Bench Verified 分數使用標準化執行環境(通常是 CodeAct 風格或 SWE-agent 風格的鷹架),但跨報告比較分數時,應始終確認執行環境的細節。

    Current Leaders

    How to Interpret Scores

    SWE-Bench Verified 分數與真實世界編程智慧體的可靠度高度相關——明顯優於目前已被認為飽和且容易污染的 HumanEval。在 SWE-Bench Verified 上達 80% 以上,代表這個編程模型可以可信地自主處理相當比例的真實工程任務,雖然失敗的那 20% 會包含一些看似簡單卻因難以預測的原因失敗的題目。低於 50% 的分數則代表模型在多數任務上仍需大量人工審查。此基準的難度足以使 100% 在短期內難以達成,因為失敗模式包含 issue 描述的歧義,以及測試套件中的邊界情況——即使是強大的模型偶爾也會在這些地方失手。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.