Humanity's Last Exam (HLE)

橫跨各學科專家程度題目的基準——設計上是前沿模型仍無法解決的最後挑戰，目前領先者在數千道經專家驗證的題目上分數仍遠低於 50%。

General KnowledgeUpdated 2026-04-30

What It Measures

Humanity's Last Exam（HLE，人類最後一場考試）是一項橫跨各學科的專家程度題目基準——數學、物理、生物、化學、電腦科學、歷史、哲學、古典學等。題目由領域專家撰寫，並由其他專家驗證，明確設計目標是成為前沿 AI 模型仍會吃力的「最後一場考試」。依照設計，即使是目前最強的模型在 HLE 上的分數也明顯低於 50%——隨著前沿能力推進，仍提供大量區分空間。

此基準被定位為「人類的最後一場考試」，反映研究社群的一項擔憂：隨著基準飽和（MMLU、HumanEval），它們已停止提供有意義的前沿評估。HLE 刻意建構為未來數年仍維持高難度，取材自橫跨各學科最深層的專家知識。基準發布時包含數千道題目，以確保即使大量納入訓練資料也只會微幅影響分數。

How It Works

每道題目是一道自由作答的專家程度學術問題，通常需要深度的專業知識搭配推理才能解出。部分題目為選擇題；其他則為短答題，要求精確正確。計分為整體基準上答對的題目百分比。

與選擇題基準（猜測有基準線）不同，HLE 採用混合格式（含許多短答題），使隨機猜測的基準線實際上為零。這意味著每一個百分點的分數都反映模型真實的能力，而非猜測產生的雜訊。

Current Leaders

How to Interpret Scores

HLE 分數低於 25% 代表跨學科的專家程度推理仍有重大缺口。25% 至 40% 的分數代表前沿水準的能力——目前最強的模型即在此區間。50% 以上的分數將代表跨學科明顯超越人類的能力，截至 2026 年 4 月尚無模型達到該水準。若要專門評估前沿模型能力，HLE 是最值得監看的單一基準之一，因為它仍有大量上升空間，且憑藉題目難度與廣度抗污染。在 HLE 與 GPQA Diamond 上同時表現優異，是廣泛專家程度推理能力的可信訊號，兼顧深度（GPQA）與廣度（HLE）。

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Humanity's Last Exam (HLE)

What It Measures

How It Works

Current Leaders

DeepSeek V4

Kimi K2.6

Qwen 3.5

Qwen 3.6

MiMo V2.5 Pro

How to Interpret Scores

Ship AI that runs on your users' devices.