AI Model Benchmarks

What each benchmark measures, how to interpret scores, and which models lead.

AIME 2025

美国数学邀请赛（American Invitational Mathematics Examination）——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理，难度足以让大多数未受过专门训练的成年人感到吃力。

François Chollet 提出的抽象与推理语料库（Abstraction and Reasoning Corpus）——一组用于考察流体智力的视觉模式识别谜题基准。ARC-AGI-2 与 ARC-AGI-3 接替原版 ARC，前沿模型的得分仍明显低于人类基线。

研究生水平的科学问答基准，专为难以通过网络搜索作答而设计——题目由相关领域博士生撰写，考察物理、化学和生物学领域的深层专业知识。

覆盖各学科的专家级题目基准——被设计为前沿模型难以攻克的 “最后一关”，在数千道经专家验证的题目上，当前领先者得分仍明显低于 50%。

较早期的 Python 编程基准——164 道手写编程题，配有隐藏测试套件。曾是标准编程基准；如今普遍被认为已饱和且易受污染，前沿模型得分均在 95% 以上。

每月刷新的抗污染基准——题目源自时事和近期学术内容，降低前沿模型在训练阶段已见过测试数据的风险。

原版 MMLU 基准的更高难度版本——多学科知识与推理题，每题 10 个选项而非 4 个，旨在解决普通 MMLU 在前沿模型上的饱和与污染问题。

SWE-Bench Verified 的更高难度后继版本——专为抗污染设计，并基于较新的 GitHub issue 评估模型在更复杂多文件改动上的表现，是当前智能体编程能力的前沿基准。

用于评估语言模型处理真实软件工程任务能力的基准——任务来源于开源 GitHub 仓库，衡量模型能否通过正确的多文件代码修改自主关闭 issue。

用于在真实多轮客服交互中评估工具调用型语言模型的基准——衡量模型能否在多种领域中正确使用 API 来完成用户请求。