AIME 2025
Math美国数学邀请赛(American Invitational Mathematics Examination)——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理,难度足以让大多数未受过专门训练的成年人感到吃力。
What each benchmark measures, how to interpret scores, and which models lead.
美国数学邀请赛(American Invitational Mathematics Examination)——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理,难度足以让大多数未受过专门训练的成年人感到吃力。
François Chollet 提出的抽象与推理语料库(Abstraction and Reasoning Corpus)——一组用于考察流体智力的视觉模式识别谜题基准。ARC-AGI-2 与 ARC-AGI-3 接替原版 ARC,前沿模型的得分仍明显低于人类基线。
研究生水平的科学问答基准,专为难以通过网络搜索作答而设计——题目由相关领域博士生撰写,考察物理、化学和生物学领域的深层专业知识。
覆盖各学科的专家级题目基准——被设计为前沿模型难以攻克的 “最后一关”,在数千道经专家验证的题目上,当前领先者得分仍明显低于 50%。
较早期的 Python 编程基准——164 道手写编程题,配有隐藏测试套件。曾是标准编程基准;如今普遍被认为已饱和且易受污染,前沿模型得分均在 95% 以上。
每月刷新的抗污染基准——题目源自时事和近期学术内容,降低前沿模型在训练阶段已见过测试数据的风险。
原版 MMLU 基准的更高难度版本——多学科知识与推理题,每题 10 个选项而非 4 个,旨在解决普通 MMLU 在前沿模型上的饱和与污染问题。
SWE-Bench Verified 的更高难度后继版本——专为抗污染设计,并基于较新的 GitHub issue 评估模型在更复杂多文件改动上的表现,是当前智能体编程能力的前沿基准。
用于评估语言模型处理真实软件工程任务能力的基准——任务来源于开源 GitHub 仓库,衡量模型能否通过正确的多文件代码修改自主关闭 issue。
用于在真实多轮客服交互中评估工具调用型语言模型的基准——衡量模型能否在多种领域中正确使用 API 来完成用户请求。