AI Model Benchmarks

    What each benchmark measures, how to interpret scores, and which models lead.

    AIME 2025

    Math

    美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力,多數沒有受過專門訓練的成年人都會吃力。

    5 ranked leaders·Updated 2026-04-30

    ARC-AGI

    Reasoning

    François Chollet 的抽象與推理語料庫——一組視覺型樣式辨識謎題,旨在測試流體智力。ARC-AGI-2 與 ARC-AGI-3 接續了原版 ARC,前沿模型分數仍遠低於人類基準線。

    5 ranked leaders·Updated 2026-04-30

    GPQA Diamond

    Reasoning

    研究所程度的科學問答基準,設計上無法靠網路搜尋解出——題目由各領域博士生撰寫,測試在物理、化學與生物學中的深度專業知識。

    5 ranked leaders·Updated 2026-04-30

    Humanity's Last Exam (HLE)

    General Knowledge

    橫跨各學科專家程度題目的基準——設計上是前沿模型仍無法解決的最後挑戰,目前領先者在數千道經專家驗證的題目上分數仍遠低於 50%。

    5 ranked leaders·Updated 2026-04-30

    HumanEval

    Coding

    較舊的 Python 編程基準——164 道手寫的程式設計題,搭配隱藏測試套件。曾是標準的編程基準;如今普遍被視為已飽和且容易污染,前沿模型分數達 95% 以上。

    5 ranked leaders·Updated 2026-04-30

    LiveBench

    General Knowledge

    每月更新題目以抗污染的基準——題目取自當前時事與近期學術內容,降低前沿模型在訓練期間看過測試資料的風險。

    5 ranked leaders·Updated 2026-04-30

    MMLU-Pro

    General Knowledge

    原始 MMLU 基準的更高難度版本——多學科知識與推理題目,答案選項由 4 個增加為 10 個,旨在解決前沿模型在原版 MMLU 上飽和與污染的問題。

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Pro

    Coding

    SWE-Bench Verified 的更高難度後繼者,設計上具備抗污染特性,並以更近期的 GitHub issue 評估模型在更複雜多檔案變更上的能力——目前是智慧體編程能力的前沿基準。

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Verified

    Coding

    用於評估語言模型在真實世界軟體工程任務上的基準,題目取自開源 GitHub 倉庫——衡量模型能否透過正確的多檔案程式碼變更,自主關閉 issue。

    5 ranked leaders·Updated 2026-04-30

    TauBench

    Tool Use

    在擬真多回合客戶服務互動中,評估具工具使用能力的語言模型——衡量模型能否正確使用 API,跨多元領域完成使用者請求。

    5 ranked leaders·Updated 2026-04-30