AIME 2025

    美國邀請數學考試——美國數學奧林匹亞的資格考。2025 年的題目測試高階高中數學推理能力,多數沒有受過專門訓練的成年人都會吃力。

    MathUpdated 2026-04-30

    What It Measures

    AIME(American Invitational Mathematics Examination,美國邀請數學考試)是美國數學奧林匹亞的資格考。題目為具挑戰性的高中程度數學:數論、組合、幾何、代數與機率——比典型校內數學困難許多,但題目定義明確,可透過推理而非高深的專業知識解出。AIME 2025 特別指 2025 年版的試題,被用作 2026 年初模型評估的基準。

    對語言模型而言,AIME 是一個有用的基準,因為題目需要多步驟推理、細心的算術以及結構化的解題。與較簡單的數學基準(基本算術、GSM8K)不同——前沿模型在這些上幾乎達 100%——AIME 將排行榜拉開到足以提供有意義的區分。此基準已成為評估 2026 世代模型推理能力的標準組成部分之一。

    How It Works

    每場 AIME 考試由 15 題組成,每題答案為介於 0 至 999 之間的整數。模型獲得題目敘述後,必須產出正確的整數答案。計分為 15 題中答對的百分比(若使用同一年的 AIME I 與 AIME II,則為合併 30 題的百分比)。

    對於語言模型,結果通常以模型在延伸推理模式下答對的百分比來呈現。具備混合思考模式的模型(Qwen 3+、DeepSeek V3.2/V4、Hermes 4)通常需要在其推理組態下評估,才能在 AIME 排行榜的高端競爭。

    Current Leaders

    #4
    Strong (對比 Llama 3 基底)

    How to Interpret Scores

    AIME 2025 分數與通用數學推理能力高度相關,是模型處理多步驟解題能力的有意義訊號。Falcon H1R-7B 在 AIME 2025 上以僅 7B 參數取得 83.1%,特別值得注意,展現了在小規模上透過針對性訓練與架構創新,仍可產生相當的推理能力。QwQ-32B 取得 79%,並在相關 MATH 基準上達到 95%,在 32B 規模上展現相同模式。AIME 2025 的優異表現是 2026 世代模型中真正具備推理能力的可信指標之一。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.