AIME 2025

El American Invitational Mathematics Examination — el examen clasificatorio para la Olimpiada Matemática de EE. UU. Los problemas de 2025 ponen a prueba el razonamiento matemático avanzado de nivel preuniversitario en un nivel en el que la mayoría de los adultos sin formación especializada tendrían dificultades.

MathUpdated 2026-04-30

What It Measures

AIME (American Invitational Mathematics Examination) es el examen clasificatorio para la United States of America Mathematical Olympiad. Los problemas son matemáticas exigentes de nivel preuniversitario: teoría de números, combinatoria, geometría, álgebra y probabilidad — sustancialmente más difíciles que las matemáticas escolares típicas, pero bien definidas y resolubles mediante razonamiento en lugar de conocimientos avanzados especializados. AIME 2025 se refiere específicamente a los problemas de la edición de 2025, utilizados como benchmark en las evaluaciones de modelos de principios de 2026.

Para los modelos de lenguaje, AIME es un benchmark útil porque los problemas requieren razonamiento en varios pasos, aritmética cuidadosa y resolución estructurada de problemas. A diferencia de benchmarks matemáticos más simples (aritmética básica, GSM8K) en los que los modelos de frontera puntúan cerca del 100%, AIME extiende lo suficiente la tabla como para ofrecer una diferenciación significativa. El benchmark se ha convertido en un componente estándar de la evaluación de la capacidad de razonamiento en los modelos de generación 2026.

How It Works

Cada examen AIME consta de 15 problemas, cada uno con una respuesta entera entre 0 y 999. Se le da al modelo el enunciado del problema y debe producir la respuesta entera correcta. La puntuación es el porcentaje de respuestas correctas a través de los 15 problemas (o de los 30 problemas combinados si se utilizan tanto AIME I como AIME II de un mismo año).

Para los modelos de lenguaje, los resultados se reportan típicamente como el porcentaje de problemas respondidos correctamente con el modelo ejecutándose en modo de razonamiento extendido. Los modelos con modos de pensamiento híbrido (Qwen 3+, DeepSeek V3.2/V4, Hermes 4) generalmente necesitan ser evaluados en su configuración de razonamiento para competir en la franja alta de la tabla de AIME.

Current Leaders

Falcon H1R-7B

Excepcional para 7B

83.1%

DeepSeek-R1

Strong (matches o1)

DeepSeek V4

High 70s%

Hermes 4

Strong (vs Llama 3 base)

Qwen 3.5

Strong

How to Interpret Scores

Las puntuaciones de AIME 2025 se correlacionan bien con la capacidad general de razonamiento matemático y son una señal significativa de cómo un modelo maneja la resolución de problemas en varios pasos. Que Falcon H1R-7B obtenga un 83.1% en AIME 2025 — con solo 7B de parámetros — es particularmente notable, ya que demuestra que el entrenamiento dirigido y la innovación arquitectónica pueden producir una capacidad de razonamiento sustancial a pequeña escala. Que QwQ-32B obtenga un 79% y alcance el 95% en benchmarks MATH relacionados muestra el mismo patrón a la escala de 32B. Un buen rendimiento en AIME 2025 es uno de los indicadores más creíbles de la capacidad de razonamiento genuina en los modelos de la era 2026.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →