AI Model Benchmarks

    What each benchmark measures, how to interpret scores, and which models lead.

    AIME 2025

    Math

    El American Invitational Mathematics Examination — el examen clasificatorio para la Olimpiada Matemática de EE. UU. Los problemas de 2025 ponen a prueba el razonamiento matemático avanzado de nivel preuniversitario en un nivel en el que la mayoría de los adultos sin formación especializada tendrían dificultades.

    5 ranked leaders·Updated 2026-04-30

    ARC-AGI

    Reasoning

    El Abstraction and Reasoning Corpus de François Chollet: un benchmark de acertijos de reconocimiento de patrones visuales diseñado para evaluar la inteligencia fluida. ARC-AGI-2 y ARC-AGI-3 suceden al ARC original, y los modelos de frontera siguen puntuando muy por debajo de la línea base humana.

    5 ranked leaders·Updated 2026-04-30

    GPQA Diamond

    Reasoning

    Un benchmark de preguntas y respuestas científicas de nivel posgrado diseñado para no poder resolverse mediante búsqueda web: preguntas redactadas por estudiantes de doctorado del área que ponen a prueba conocimiento profundo y especializado en física, química y biología.

    5 ranked leaders·Updated 2026-04-30

    Humanity's Last Exam (HLE)

    General Knowledge

    Un benchmark de preguntas de nivel experto en disciplinas académicas, diseñado para ser el último reto que los modelos de frontera no puedan resolver: los líderes actuales puntúan muy por debajo del 50% en miles de preguntas validadas por expertos.

    5 ranked leaders·Updated 2026-04-30

    HumanEval

    Coding

    Un benchmark más antiguo de programación en Python: 164 problemas escritos a mano con conjuntos de pruebas ocultos. En su día fue el benchmark de referencia para programación; hoy se considera ampliamente saturado y propenso a contaminación, con los modelos de frontera puntuando por encima del 95%.

    5 ranked leaders·Updated 2026-04-30

    LiveBench

    General Knowledge

    Un benchmark con actualización mensual diseñado para resistir la contaminación: las preguntas se obtienen de eventos actuales y de contenido académico reciente, reduciendo el riesgo de que los modelos de frontera hayan visto los datos de prueba durante el entrenamiento.

    5 ranked leaders·Updated 2026-04-30

    MMLU-Pro

    General Knowledge

    Una versión más difícil del benchmark original MMLU: preguntas de conocimiento y razonamiento en múltiples materias con 10 opciones de respuesta en lugar de 4, diseñada para abordar la saturación y la contaminación del MMLU clásico en la frontera.

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Pro

    Coding

    Un sucesor más difícil de SWE-Bench Verified, diseñado para resistir la contaminación y evaluar a los modelos en cambios multi-archivo más complejos extraídos de incidencias recientes de GitHub: el benchmark de frontera actual para la capacidad de codificación agéntica.

    5 ranked leaders·Updated 2026-04-30

    SWE-Bench Verified

    Coding

    Un benchmark para evaluar modelos de lenguaje en tareas reales de ingeniería de software extraídas de repositorios públicos de GitHub: mide si el modelo puede cerrar incidencias de forma autónoma realizando los cambios de código correctos en uno o varios archivos.

    5 ranked leaders·Updated 2026-04-30

    TauBench

    Tool Use

    Un benchmark para evaluar modelos de lenguaje que utilizan herramientas en interacciones realistas multi-turno de atención al cliente: mide si el modelo puede usar correctamente APIs para completar las solicitudes del usuario en una variedad de dominios.

    5 ranked leaders·Updated 2026-04-30