SWE-Bench Verified

用於評估語言模型在真實世界軟體工程任務上的基準，題目取自開源 GitHub 倉庫——衡量模型能否透過正確的多檔案程式碼變更，自主關閉 issue。

CodingUpdated 2026-04-30

What It Measures

SWE-Bench Verified 在真實的軟體工程任務上評估語言模型：透過在一個或多個檔案中進行正確的程式碼變更，來關閉 GitHub issue。每項任務包含 issue 描述、相關的倉庫狀態，以及隱藏的測試套件。模型在每項任務上的得分為二元：模型提出的程式碼變更要嘛通過測試套件（解決），要嘛沒通過。「Verified」子集是經過人工審核的 500 項任務精選子集，移除了原始測試套件含糊不清、issue 描述具誤導性，或預期變更過度依賴實作細節的題目。

這與 HumanEval 或 MBPP 等合成程式碼基準有根本上的不同，後者要求模型根據描述撰寫單一函式。SWE-Bench 的任務需要模型在既有程式碼庫中導航、理解跨檔案的關聯、找出正確的修改位置，並產出能與周遭程式碼順暢整合的編輯內容。作為衡量智慧體編程能力的指標，SWE-Bench Verified 目前被視為廣泛使用中最具實際意義的評估。

How It Works

SWE-Bench Verified 的每項任務提供：GitHub issue 文字、issue 回報當下的倉庫狀態，以及正確修復必須通過的隱藏測試套件。模型（或建構於該模型之上的智慧體）取得倉庫存取權後必須產出程式碼變更。變更被套用至倉庫，再執行隱藏的測試套件。若所有測試通過，模型在該任務的得分為 1，否則為 0。

目前大多數評估都在智慧體執行環境（agent harness）中執行模型——這是一層處理倉庫導航、檔案讀取、程式碼編輯與測試執行的鷹架（scaffolding）。智慧體執行環境本身就是一個重要變因：相同模型搭配不同執行環境的實作，分數可能會有顯著差異。多數公布的 SWE-Bench Verified 分數使用標準化執行環境（通常是 CodeAct 風格或 SWE-agent 風格的鷹架），但跨報告比較分數時，應始終確認執行環境的細節。

Current Leaders

MiniMax M2.5

80.2%

MiMo V2.5 Pro

78.0%

GLM-5

77.8%

Kimi K2.6

76.8%

DeepSeek V4

V4 維持 V3.2 的基線水準

~73%

How to Interpret Scores

SWE-Bench Verified 分數與真實世界編程智慧體的可靠度高度相關——明顯優於目前已被認為飽和且容易污染的 HumanEval。在 SWE-Bench Verified 上達 80% 以上，代表這個編程模型可以可信地自主處理相當比例的真實工程任務，雖然失敗的那 20% 會包含一些看似簡單卻因難以預測的原因失敗的題目。低於 50% 的分數則代表模型在多數任務上仍需大量人工審查。此基準的難度足以使 100% 在短期內難以達成，因為失敗模式包含 issue 描述的歧義，以及測試套件中的邊界情況——即使是強大的模型偶爾也會在這些地方失手。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →