AIME 2025

美国数学邀请赛（American Invitational Mathematics Examination）——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理，难度足以让大多数未受过专门训练的成年人感到吃力。

MathUpdated 2026-04-30

What It Measures

AIME（美国数学邀请赛）是美国数学奥林匹克的资格选拔考。题目为高难度的高中水平数学：数论、组合、几何、代数和概率——明显高于一般校园数学，但题目定义清晰，可通过推理解决而非依赖专门的高级知识。AIME 2025 特指 2025 年版本的题目，被用于 2026 年初的模型评估。

对语言模型而言，AIME 是一个有用的基准，因为题目要求多步推理、细致运算和结构化解题。与前沿模型几乎能拿到满分的简单数学基准（基础算术、GSM8K）不同，AIME 能将排行榜拉得足够开，提供有意义的区分度。该基准已成为 2026 年代模型推理能力评估的标准组成部分。

How It Works

每场 AIME 考试包含 15 道题，每题答案为 0 至 999 之间的整数。模型获得题面后必须给出正确的整数答案。评分为这 15 道题（或同年 AIME I 与 AIME II 合并使用时的 30 道题）中答对题目的百分比。

对语言模型而言，结果通常以模型在扩展推理模式下答对题目的百分比报告。具备混合思考模式的模型（Qwen 3+、DeepSeek V3.2/V4、Hermes 4）通常需要在其推理配置下评估，才能在 AIME 排行榜的高位段竞争。

Current Leaders

How to Interpret Scores

AIME 2025 分数与通用数学推理能力相关性较好，是模型处理多步问题求解的有意义信号。Falcon H1R-7B 在 AIME 2025 上以仅 7B 参数取得 83.1%，尤为引人注目，表明针对性训练与架构创新可以在小规模上产出可观的推理能力。QwQ-32B 在 AIME 上得 79%、并在相关 MATH 基准上达到 95%，展现了 32B 规模上的同一规律。AIME 2025 的强劲表现是 2026 年代模型中真实推理能力较可信的指标之一。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

AIME 2025

What It Measures

How It Works

Current Leaders

Falcon H1R-7B

DeepSeek-R1

DeepSeek V4

Hermes 4

Qwen 3.5

How to Interpret Scores

Ship AI that runs on your users' devices.