Humanity's Last Exam (HLE)

覆盖各学科的专家级题目基准——被设计为前沿模型难以攻克的 “最后一关”，在数千道经专家验证的题目上，当前领先者得分仍明显低于 50%。

General KnowledgeUpdated 2026-04-30

What It Measures

Humanity's Last Exam（HLE）是一个跨学科的专家级题目基准——涵盖数学、物理、生物、化学、计算机科学、历史、哲学、古典学等。题目由领域专家撰写并由其他专家验证，明确的设计目标是成为前沿 AI 模型仍会感到困难的 “最后一场考试”。按设计，即便最好的当前模型在 HLE 上的得分也明显低于 50%——这为前沿能力的进步留出了充足的区分空间。

将该基准定位为 “人类最后一次考试” 反映了研究界的一种关切：随着各类基准（MMLU、HumanEval）逐渐饱和，它们已不再为前沿评估提供有意义的区分。HLE 被刻意构造为多年内仍保持高难度，借助跨学科最深的专家知识。该基准发布有数千道题目，确保即便有相当程度的训练数据纳入，也只会对分数产生边际影响。

How It Works

每道题为开放形式的专家级学术问题，通常需要深层专业知识与推理才能作答。一些题目为多选题；另一些为短答题，要求精确正确。评分为整套基准上答对题目的百分比。

与可通过猜测获得基线的多选基准不同，HLE 的混合题型（包含大量短答题）使随机猜测基线实质上为零。这意味着每个百分点的得分都反映模型的真实能力，而非猜测人为造成的假象。

Current Leaders

How to Interpret Scores

HLE 得分低于 25% 表明在跨学科的专家级推理上存在明显短板。25–40% 的分数表明具备前沿水平的能力——即当前顶尖模型的水平。50% 以上的分数将意味着在各学科上具备明显超越人类的能力，截至 2026 年 4 月尚无模型达到该水平。在专门评估前沿模型能力时，HLE 是值得关注的最有用单一基准之一，因为它具备充足的提升空间，并凭借题目难度与广度抗污染。强劲的 HLE 表现叠加强劲的 GPQA Diamond 表现，是兼具深度（GPQA）与广度（HLE）的可信信号。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Humanity's Last Exam (HLE)

What It Measures

How It Works

Current Leaders

DeepSeek V4

Kimi K2.6

Qwen 3.5

Qwen 3.6

MiMo V2.5 Pro

How to Interpret Scores

Ship AI that runs on your users' devices.