Humanity's Last Exam (HLE)

Un benchmark de preguntas de nivel experto en disciplinas académicas, diseñado para ser el último reto que los modelos de frontera no puedan resolver: los líderes actuales puntúan muy por debajo del 50% en miles de preguntas validadas por expertos.

General KnowledgeUpdated 2026-04-30

What It Measures

Humanity's Last Exam (HLE) es un benchmark de preguntas de nivel experto procedentes de diversas disciplinas académicas: matemáticas, física, biología, química, informática, historia, filosofía, clásicas y más. Las preguntas están redactadas por expertos del área y validadas por otros expertos, con el objetivo de diseño explícito de ser el 'último examen' con el que los modelos de IA de frontera tendrán dificultades. Por diseño, incluso los mejores modelos actuales puntúan muy por debajo del 50% en HLE, ofreciendo un margen de diferenciación sustancial a medida que avanza la capacidad de frontera.

El posicionamiento del benchmark como 'el último examen de la humanidad' refleja una preocupación de la comunidad investigadora: a medida que los benchmarks se han ido saturando (MMLU, HumanEval), han dejado de ofrecer una evaluación significativa de la frontera. HLE está construido intencionadamente para seguir siendo difícil durante años, basándose en el conocimiento experto más profundo disponible en distintas disciplinas. El benchmark se publica con miles de preguntas para garantizar que incluso una inclusión sustancial en datos de entrenamiento solo afectaría marginalmente a las puntuaciones.

How It Works

Cada pregunta es un problema académico de nivel experto en formato libre, que típicamente requiere un conocimiento especializado profundo además de razonamiento para resolverse. Algunas preguntas son de opción múltiple; otras son de respuesta corta y exigen una corrección exacta. La puntuación es el porcentaje de preguntas respondidas correctamente en todo el benchmark.

A diferencia de los benchmarks de opción múltiple, en los que adivinar proporciona una línea base, la mezcla de formatos de HLE (con muchas preguntas de respuesta corta) hace que la línea base de adivinación aleatoria sea efectivamente cero. Esto significa que cada punto porcentual de puntuación refleja una capacidad genuina del modelo en lugar de artefactos del azar.

Current Leaders

DeepSeek V4

Top open-weight

Kimi K2.6

Strong

Qwen 3.5

Strong

Qwen 3.6

Competitive

MiMo V2.5 Pro

Competitive

How to Interpret Scores

Puntuaciones de HLE por debajo del 25% indican lagunas sustanciales en el razonamiento de nivel experto a través de disciplinas. Puntuaciones del 25-40% indican una capacidad de nivel de frontera — los mejores modelos actuales. Puntuaciones por encima del 50% indicarían una capacidad sustancialmente sobrehumana en disciplinas académicas, y ningún modelo ha alcanzado ese nivel a abril de 2026. Para evaluar específicamente la capacidad de los modelos de frontera, HLE es uno de los benchmarks individuales más útiles para monitorizar, ya que tiene un margen de mejora considerable y resiste la contaminación gracias a la dificultad y amplitud de sus preguntas. Un buen rendimiento en HLE combinado con un buen rendimiento en GPQA Diamond es una señal creíble de capacidad amplia de razonamiento de nivel experto, tanto en profundidad (GPQA) como en amplitud (HLE).

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →