AI Model Benchmarks

What each benchmark measures, how to interpret scores, and which models lead.

AIME 2025

El American Invitational Mathematics Examination — el examen clasificatorio para la Olimpiada Matemática de EE. UU. Los problemas de 2025 ponen a prueba el razonamiento matemático avanzado de nivel preuniversitario en un nivel en el que la mayoría de los adultos sin formación especializada tendrían dificultades.

5 ranked leaders·Updated 2026-04-30

ARC-AGI

Reasoning

El Abstraction and Reasoning Corpus de François Chollet: un benchmark de acertijos de reconocimiento de patrones visuales diseñado para evaluar la inteligencia fluida. ARC-AGI-2 y ARC-AGI-3 suceden al ARC original, y los modelos de frontera siguen puntuando muy por debajo de la línea base humana.

5 ranked leaders·Updated 2026-04-30

GPQA Diamond

Reasoning

Un benchmark de preguntas y respuestas científicas de nivel posgrado diseñado para no poder resolverse mediante búsqueda web: preguntas redactadas por estudiantes de doctorado del área que ponen a prueba conocimiento profundo y especializado en física, química y biología.

5 ranked leaders·Updated 2026-04-30

Humanity's Last Exam (HLE)

General Knowledge

Un benchmark de preguntas de nivel experto en disciplinas académicas, diseñado para ser el último reto que los modelos de frontera no puedan resolver: los líderes actuales puntúan muy por debajo del 50% en miles de preguntas validadas por expertos.

5 ranked leaders·Updated 2026-04-30

HumanEval

Coding

Un benchmark más antiguo de programación en Python: 164 problemas escritos a mano con conjuntos de pruebas ocultos. En su día fue el benchmark de referencia para programación; hoy se considera ampliamente saturado y propenso a contaminación, con los modelos de frontera puntuando por encima del 95%.

5 ranked leaders·Updated 2026-04-30

LiveBench

General Knowledge

Un benchmark con actualización mensual diseñado para resistir la contaminación: las preguntas se obtienen de eventos actuales y de contenido académico reciente, reduciendo el riesgo de que los modelos de frontera hayan visto los datos de prueba durante el entrenamiento.

5 ranked leaders·Updated 2026-04-30

MMLU-Pro

General Knowledge

Una versión más difícil del benchmark original MMLU: preguntas de conocimiento y razonamiento en múltiples materias con 10 opciones de respuesta en lugar de 4, diseñada para abordar la saturación y la contaminación del MMLU clásico en la frontera.

5 ranked leaders·Updated 2026-04-30

SWE-Bench Pro

Coding

Un sucesor más difícil de SWE-Bench Verified, diseñado para resistir la contaminación y evaluar a los modelos en cambios multi-archivo más complejos extraídos de incidencias recientes de GitHub: el benchmark de frontera actual para la capacidad de codificación agéntica.

5 ranked leaders·Updated 2026-04-30

SWE-Bench Verified

Coding

Un benchmark para evaluar modelos de lenguaje en tareas reales de ingeniería de software extraídas de repositorios públicos de GitHub: mide si el modelo puede cerrar incidencias de forma autónoma realizando los cambios de código correctos en uno o varios archivos.

5 ranked leaders·Updated 2026-04-30

TauBench

Tool Use

Un benchmark para evaluar modelos de lenguaje que utilizan herramientas en interacciones realistas multi-turno de atención al cliente: mide si el modelo puede usar correctamente APIs para completar las solicitudes del usuario en una variedad de dominios.

5 ranked leaders·Updated 2026-04-30