Falcon H1R-7B
在 7B 规模上表现卓越
美国数学邀请赛(American Invitational Mathematics Examination)——美国数学奥林匹克的资格选拔考。2025 年题目考察高级中学数学推理,难度足以让大多数未受过专门训练的成年人感到吃力。
AIME(美国数学邀请赛)是美国数学奥林匹克的资格选拔考。题目为高难度的高中水平数学:数论、组合、几何、代数和概率——明显高于一般校园数学,但题目定义清晰,可通过推理解决而非依赖专门的高级知识。AIME 2025 特指 2025 年版本的题目,被用于 2026 年初的模型评估。
对语言模型而言,AIME 是一个有用的基准,因为题目要求多步推理、细致运算和结构化解题。与前沿模型几乎能拿到满分的简单数学基准(基础算术、GSM8K)不同,AIME 能将排行榜拉得足够开,提供有意义的区分度。该基准已成为 2026 年代模型推理能力评估的标准组成部分。
每场 AIME 考试包含 15 道题,每题答案为 0 至 999 之间的整数。模型获得题面后必须给出正确的整数答案。评分为这 15 道题(或同年 AIME I 与 AIME II 合并使用时的 30 道题)中答对题目的百分比。
对语言模型而言,结果通常以模型在扩展推理模式下答对题目的百分比报告。具备混合思考模式的模型(Qwen 3+、DeepSeek V3.2/V4、Hermes 4)通常需要在其推理配置下评估,才能在 AIME 排行榜的高位段竞争。
AIME 2025 分数与通用数学推理能力相关性较好,是模型处理多步问题求解的有意义信号。Falcon H1R-7B 在 AIME 2025 上以仅 7B 参数取得 83.1%,尤为引人注目,表明针对性训练与架构创新可以在小规模上产出可观的推理能力。QwQ-32B 在 AIME 上得 79%、并在相关 MATH 基准上达到 95%,展现了 32B 规模上的同一规律。AIME 2025 的强劲表现是 2026 年代模型中真实推理能力较可信的指标之一。
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.