HumanEval

    较早期的 Python 编程基准——164 道手写编程题,配有隐藏测试套件。曾是标准编程基准;如今普遍被认为已饱和且易受污染,前沿模型得分均在 95% 以上。

    CodingUpdated 2026-04-30

    What It Measures

    HumanEval 是 OpenAI 于 2021 年发布的 164 道手写 Python 编程题基准。每道题提供函数签名、描述函数功能的文档字符串和隐藏测试套件。模型必须生成能通过测试套件的函数体。该基准多年来一直是标准编程评估,至今仍被广泛引用以便回溯比较。

    到 2026 年,HumanEval 已被认为饱和且易受污染。前沿模型普遍得分 95% 以上——Kimi K2.5 创下 99.0 的开源权重纪录——顶尖模型间的差距更多体现的是噪声而非真实能力差异。原始题目也已直接或经改写的形式出现在许多训练语料中,使排行榜高位段的污染问题愈发突出。

    How It Works

    每道题提供函数签名和文档字符串。模型被要求生成函数体。生成结果在隐藏测试套件上运行,模型在该题的得分是二元的——要么所有测试通过,要么不通过。HumanEval 综合分数即模型能让全部测试通过的题目占 164 题的百分比。

    当前评估多采用 pass@1 评分——模型每题生成一次尝试,并以该尝试在测试套件上的结果计分。早期评估有时使用 pass@k(多次尝试,只要任一次通过即视为成功),但跨报告比较时 pass@1 已成为标准。

    Current Leaders

    #1

    Kimi K2.6

    K2.5 创下开源权重纪录

    ~99.0%

    How to Interpret Scores

    在 2026 年,HumanEval 分数应被谨慎解读。前沿模型得分 95–99%,更多可能受益于训练数据污染而非真实能力——原始题目年代足够久且广为发布,当前任何模型都不会是首次见到。在实际模型评估中,SWE-Bench Verified 或 SWE-Bench Pro 才是更具实际意义的现实编程能力信号。HumanEval 仍可作为合理性检查(HumanEval 得分低于 80% 的模型不太可能用于生产编程),并便于与较旧模型回溯比较,但不应作为前沿模型选型的主要信号。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.