AIME 2025

美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力，多數沒有受過專門訓練的成年人都會吃力。

MathUpdated 2026-04-30

What It Measures

AIME（American Invitational Mathematics Examination，美國邀請數學考試）是美國數學奧林匹亞的資格考。題目為具挑戰性的高中程度數學：數論、組合、幾何、代數與機率——比典型校內數學困難許多，但題目定義明確，可透過推理而非高深的專業知識解出。AIME 2025 特別指 2025 年版的試題，被用作 2026 年初模型評估的基準。

對語言模型而言，AIME 是一個有用的基準，因為題目需要多步驟推理、細心的算術以及結構化的解題。與較簡單的數學基準（基本算術、GSM8K）不同——前沿模型在這些上幾乎達 100%——AIME 將排行榜拉開到足以提供有意義的區分。此基準已成為評估 2026 世代模型推理能力的標準組成部分之一。

How It Works

每場 AIME 考試由 15 題組成，每題答案為介於 0 至 999 之間的整數。模型獲得題目敘述後，必須產出正確的整數答案。計分為 15 題中答對的百分比（若使用同一年的 AIME I 與 AIME II，則為合併 30 題的百分比）。

對於語言模型，結果通常以模型在延伸推理模式下答對的百分比來呈現。具備混合思考模式的模型（Qwen 3+、DeepSeek V3.2/V4、Hermes 4）通常需要在其推理組態下評估，才能在 AIME 排行榜的高端競爭。

Current Leaders

How to Interpret Scores

AIME 2025 分數與通用數學推理能力高度相關，是模型處理多步驟解題能力的有意義訊號。Falcon H1R-7B 在 AIME 2025 上以僅 7B 參數取得 83.1%，特別值得注意，展現了在小規模上透過針對性訓練與架構創新，仍可產生相當的推理能力。QwQ-32B 取得 79%，並在相關 MATH 基準上達到 95%，在 32B 規模上展現相同模式。AIME 2025 的優異表現是 2026 世代模型中真正具備推理能力的可信指標之一。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

AIME 2025

What It Measures

How It Works

Current Leaders

Falcon H1R-7B

DeepSeek-R1

DeepSeek V4

Hermes 4

Qwen 3.5

How to Interpret Scores

Ship AI that runs on your users' devices.