Humanity's Last Exam (HLE)

    橫跨各學科專家程度題目的基準——設計上是前沿模型仍無法解決的最後挑戰,目前領先者在數千道經專家驗證的題目上分數仍遠低於 50%。

    General KnowledgeUpdated 2026-04-30

    What It Measures

    Humanity's Last Exam(HLE,人類最後一場考試)是一項橫跨各學科的專家程度題目基準——數學、物理、生物、化學、電腦科學、歷史、哲學、古典學等。題目由領域專家撰寫,並由其他專家驗證,明確設計目標是成為前沿 AI 模型仍會吃力的「最後一場考試」。依照設計,即使是目前最強的模型在 HLE 上的分數也明顯低於 50%——隨著前沿能力推進,仍提供大量區分空間。

    此基準被定位為「人類的最後一場考試」,反映研究社群的一項擔憂:隨著基準飽和(MMLU、HumanEval),它們已停止提供有意義的前沿評估。HLE 刻意建構為未來數年仍維持高難度,取材自橫跨各學科最深層的專家知識。基準發布時包含數千道題目,以確保即使大量納入訓練資料也只會微幅影響分數。

    How It Works

    每道題目是一道自由作答的專家程度學術問題,通常需要深度的專業知識搭配推理才能解出。部分題目為選擇題;其他則為短答題,要求精確正確。計分為整體基準上答對的題目百分比。

    與選擇題基準(猜測有基準線)不同,HLE 採用混合格式(含許多短答題),使隨機猜測的基準線實際上為零。這意味著每一個百分點的分數都反映模型真實的能力,而非猜測產生的雜訊。

    Current Leaders

    How to Interpret Scores

    HLE 分數低於 25% 代表跨學科的專家程度推理仍有重大缺口。25% 至 40% 的分數代表前沿水準的能力——目前最強的模型即在此區間。50% 以上的分數將代表跨學科明顯超越人類的能力,截至 2026 年 4 月尚無模型達到該水準。若要專門評估前沿模型能力,HLE 是最值得監看的單一基準之一,因為它仍有大量上升空間,且憑藉題目難度與廣度抗污染。在 HLE 與 GPQA Diamond 上同時表現優異,是廣泛專家程度推理能力的可信訊號,兼顧深度(GPQA)與廣度(HLE)。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.