HumanEval

较早期的 Python 编程基准——164 道手写编程题，配有隐藏测试套件。曾是标准编程基准；如今普遍被认为已饱和且易受污染，前沿模型得分均在 95% 以上。

CodingUpdated 2026-04-30

What It Measures

HumanEval 是 OpenAI 于 2021 年发布的 164 道手写 Python 编程题基准。每道题提供函数签名、描述函数功能的文档字符串和隐藏测试套件。模型必须生成能通过测试套件的函数体。该基准多年来一直是标准编程评估，至今仍被广泛引用以便回溯比较。

到 2026 年，HumanEval 已被认为饱和且易受污染。前沿模型普遍得分 95% 以上——Kimi K2.5 创下 99.0 的开源权重纪录——顶尖模型间的差距更多体现的是噪声而非真实能力差异。原始题目也已直接或经改写的形式出现在许多训练语料中，使排行榜高位段的污染问题愈发突出。

How It Works

每道题提供函数签名和文档字符串。模型被要求生成函数体。生成结果在隐藏测试套件上运行，模型在该题的得分是二元的——要么所有测试通过，要么不通过。HumanEval 综合分数即模型能让全部测试通过的题目占 164 题的百分比。

当前评估多采用 pass@1 评分——模型每题生成一次尝试，并以该尝试在测试套件上的结果计分。早期评估有时使用 pass@k（多次尝试，只要任一次通过即视为成功），但跨报告比较时 pass@1 已成为标准。

Current Leaders

How to Interpret Scores

在 2026 年，HumanEval 分数应被谨慎解读。前沿模型得分 95–99%，更多可能受益于训练数据污染而非真实能力——原始题目年代足够久且广为发布，当前任何模型都不会是首次见到。在实际模型评估中，SWE-Bench Verified 或 SWE-Bench Pro 才是更具实际意义的现实编程能力信号。HumanEval 仍可作为合理性检查（HumanEval 得分低于 80% 的模型不太可能用于生产编程），并便于与较旧模型回溯比较，但不应作为前沿模型选型的主要信号。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

HumanEval

What It Measures

How It Works

Current Leaders

Kimi K2.6

DeepSeek V4

MiMo V2.5 Pro

Qwen3-Coder

MiniMax M2.5

How to Interpret Scores

Ship AI that runs on your users' devices.