Humanity's Last Exam (HLE)
覆盖各学科的专家级题目基准——被设计为前沿模型难以攻克的 “最后一关”,在数千道经专家验证的题目上,当前领先者得分仍明显低于 50%。
What It Measures
Humanity's Last Exam(HLE)是一个跨学科的专家级题目基准——涵盖数学、物理、生物、化学、计算机科学、历史、哲学、古典学等。题目由领域专家撰写并由其他专家验证,明确的设计目标是成为前沿 AI 模型仍会感到困难的 “最后一场考试”。按设计,即便最好的当前模型在 HLE 上的得分也明显低于 50%——这为前沿能力的进步留出了充足的区分空间。
将该基准定位为 “人类最后一次考试” 反映了研究界的一种关切:随着各类基准(MMLU、HumanEval)逐渐饱和,它们已不再为前沿评估提供有意义的区分。HLE 被刻意构造为多年内仍保持高难度,借助跨学科最深的专家知识。该基准发布有数千道题目,确保即便有相当程度的训练数据纳入,也只会对分数产生边际影响。
How It Works
每道题为开放形式的专家级学术问题,通常需要深层专业知识与推理才能作答。一些题目为多选题;另一些为短答题,要求精确正确。评分为整套基准上答对题目的百分比。
与可通过猜测获得基线的多选基准不同,HLE 的混合题型(包含大量短答题)使随机猜测基线实质上为零。这意味着每个百分点的得分都反映模型的真实能力,而非猜测人为造成的假象。
Current Leaders
How to Interpret Scores
HLE 得分低于 25% 表明在跨学科的专家级推理上存在明显短板。25–40% 的分数表明具备前沿水平的能力——即当前顶尖模型的水平。50% 以上的分数将意味着在各学科上具备明显超越人类的能力,截至 2026 年 4 月尚无模型达到该水平。在专门评估前沿模型能力时,HLE 是值得关注的最有用单一基准之一,因为它具备充足的提升空间,并凭借题目难度与广度抗污染。强劲的 HLE 表现叠加强劲的 GPQA Diamond 表现,是兼具深度(GPQA)与广度(HLE)的可信信号。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.