HumanEval

較舊的 Python 編程基準——164 道手寫的程式設計題，搭配隱藏測試套件。曾是標準的編程基準；如今普遍被視為已飽和且容易污染，前沿模型分數達 95% 以上。

CodingUpdated 2026-04-30

What It Measures

HumanEval 是 OpenAI 於 2021 年發表、由 164 道手寫 Python 程式設計題組成的基準。每道題目提供函式簽名、描述函式應行為的 docstring，以及一組隱藏的測試套件。模型必須產生能通過測試套件的函式主體。此基準曾數年是標準的編程評估，至今仍被廣泛引用以作回溯比較。

到 2026 年，HumanEval 被認為已飽和且容易污染。前沿模型例行得到 95% 以上——Kimi K2.5 創下了 99.0 的開源權重紀錄——而頂尖模型之間的差距由雜訊主導，而非真正的能力差異。原始題目也已直接或以重新表述的形式被納入許多訓練語料庫，使得污染在排行榜頂端成為相當大的疑慮。

How It Works

每道題目提供函式簽名與 docstring。模型被要求產生函式主體。函式接著針對隱藏的測試套件執行，模型在該題的得分為二元——所有測試通過為 1，否則為 0。HumanEval 的綜合分數為通過所有測試的題目佔 164 題的百分比。

目前大多數評估使用「pass@1」計分——模型對每題產出一次嘗試，並針對測試套件評估該次嘗試。較早期的評估有時使用「pass@k」（多次嘗試，只要任一次通過即計為成功），但 pass@1 如今是跨報告比較的標準。

Current Leaders

How to Interpret Scores

在 2026 年解讀 HumanEval 分數時應格外小心。前沿模型得 95% 至 99%，可能受惠於訓練資料污染與真實能力兼具——原始題目年代久遠且廣為發布，現今沒有任何模型是首次遇到它們。對於實務模型評估，SWE-Bench Verified 或 SWE-Bench Pro 才是真實世界編程能力更具意義的訊號。HumanEval 仍可作為健全性檢查（在 HumanEval 上得分低於 80% 的模型不太可能適用於正式編程環境）以及對舊有模型的回溯比較，但不應作為前沿模型選型的主要訊號。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

HumanEval

What It Measures

How It Works

Current Leaders

Kimi K2.6

DeepSeek V4

MiMo V2.5 Pro

Qwen3-Coder

MiniMax M2.5

How to Interpret Scores

Ship AI that runs on your users' devices.