HumanEval

Un benchmark más antiguo de programación en Python: 164 problemas escritos a mano con conjuntos de pruebas ocultos. En su día fue el benchmark de referencia para programación; hoy se considera ampliamente saturado y propenso a contaminación, con los modelos de frontera puntuando por encima del 95%.

CodingUpdated 2026-04-30

What It Measures

HumanEval es un benchmark de 164 problemas de programación en Python escritos a mano, publicado por OpenAI en 2021. Cada problema proporciona una firma de función, una docstring que describe lo que la función debe hacer y un conjunto de pruebas oculto. El modelo debe generar el cuerpo de la función de forma que pase el conjunto de pruebas. El benchmark fue la evaluación estándar de programación durante varios años y se sigue citando ampliamente para comparaciones retrospectivas.

En 2026, HumanEval se considera saturado y propenso a contaminación. Los modelos de frontera puntúan habitualmente por encima del 95% — Kimi K2.5 estableció el récord de pesos abiertos con 99.0 — y la diferencia entre los mejores modelos está dominada por el ruido más que por diferencias genuinas de capacidad. Los problemas originales también se han incluido en muchos corpus de entrenamiento de forma directa o reformulada, lo que convierte la contaminación en una preocupación sustancial en el extremo alto de la tabla.

How It Works

Cada problema proporciona una firma de función y una docstring. Se pide al modelo que genere el cuerpo de la función. La función se ejecuta luego contra un conjunto de pruebas oculto, y la puntuación del modelo en el problema es binaria: o todas las pruebas pasan o no. La puntuación agregada de HumanEval es el porcentaje de los 164 problemas en los que la solución del modelo pasa todas las pruebas.

La mayoría de las evaluaciones actuales utilizan la puntuación 'pass@1': el modelo genera un único intento por problema, y ese intento se evalúa frente al conjunto de pruebas. Las evaluaciones anteriores a veces utilizaban 'pass@k' (varios intentos, contando éxito si alguno pasa), pero pass@1 es ahora el estándar para la comparación entre informes.

Current Leaders

Kimi K2.6

K2.5 estableció el récord de pesos abiertos

~99.0%

DeepSeek V4

97-99%

MiMo V2.5 Pro

97-99%

Qwen3-Coder

95-98%

MiniMax M2.5

95-98%

How to Interpret Scores

Las puntuaciones de HumanEval en 2026 deben interpretarse con cuidado. Que los modelos de frontera puntúen entre 95-99% probablemente se debe tanto a contaminación de los datos de entrenamiento como a capacidad genuina: los problemas originales son lo suficientemente antiguos y conocidos como para que ningún modelo actual los esté encontrando por primera vez. Para la evaluación práctica de modelos, SWE-Bench Verified o SWE-Bench Pro son señales sustancialmente más significativas de la capacidad de programación en el mundo real. HumanEval sigue siendo útil como prueba de cordura (un modelo que puntúa por debajo del 80% en HumanEval difícilmente sea útil para programación en producción) y para la comparación retrospectiva con modelos antiguos, pero no debería ser la señal principal para seleccionar modelos de frontera.

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →