AI Model Benchmarks

    What each benchmark measures, how to interpret scores, and which models lead.

    AIME 2025

    Math

    美国数学邀请赛(American Invitational Mathematics Examination)——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理,难度足以让大多数未受过专门训练的成年人感到吃力。

    5 ranked leaders·Updated 2026-04-30

    ARC-AGI

    Reasoning

    François Chollet 提出的抽象与推理语料库(Abstraction and Reasoning Corpus)——一组用于考察流体智力的视觉模式识别谜题基准。ARC-AGI-2 与 ARC-AGI-3 接替原版 ARC,前沿模型的得分仍明显低于人类基线。

    5 ranked leaders·Updated 2026-04-30

    GPQA Diamond

    Reasoning

    研究生水平的科学问答基准,专为难以通过网络搜索作答而设计——题目由相关领域博士生撰写,考察物理、化学和生物学领域的深层专业知识。

    5 ranked leaders·Updated 2026-04-30

    Humanity's Last Exam (HLE)

    General Knowledge

    覆盖各学科的专家级题目基准——被设计为前沿模型难以攻克的 “最后一关”,在数千道经专家验证的题目上,当前领先者得分仍明显低于 50%。

    5 ranked leaders·Updated 2026-04-30

    HumanEval

    Coding

    较早期的 Python 编程基准——164 道手写编程题,配有隐藏测试套件。曾是标准编程基准;如今普遍被认为已饱和且易受污染,前沿模型得分均在 95% 以上。

    5 ranked leaders·Updated 2026-04-30

    LiveBench

    General Knowledge

    每月刷新的抗污染基准——题目源自时事和近期学术内容,降低前沿模型在训练阶段已见过测试数据的风险。

    5 ranked leaders·Updated 2026-04-30

    MMLU-Pro

    General Knowledge

    原版 MMLU 基准的更高难度版本——多学科知识与推理题,每题 10 个选项而非 4 个,旨在解决普通 MMLU 在前沿模型上的饱和与污染问题。

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Pro

    Coding

    SWE-Bench Verified 的更高难度后继版本——专为抗污染设计,并基于较新的 GitHub issue 评估模型在更复杂多文件改动上的表现,是当前智能体编程能力的前沿基准。

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Verified

    Coding

    用于评估语言模型处理真实软件工程任务能力的基准——任务来源于开源 GitHub 仓库,衡量模型能否通过正确的多文件代码修改自主关闭 issue。

    5 ranked leaders·Updated 2026-04-30

    TauBench

    Tool Use

    用于在真实多轮客服交互中评估工具调用型语言模型的基准——衡量模型能否在多种领域中正确使用 API 来完成用户请求。

    5 ranked leaders·Updated 2026-04-30