LiveBench
Un benchmark con actualización mensual diseñado para resistir la contaminación: las preguntas se obtienen de eventos actuales y de contenido académico reciente, reduciendo el riesgo de que los modelos de frontera hayan visto los datos de prueba durante el entrenamiento.
What It Measures
LiveBench es un benchmark resistente a la contaminación que cubre una amplia gama de áreas de capacidad: matemáticas, razonamiento, programación, seguimiento de instrucciones, lenguaje y análisis de datos. Su característica distintiva es la cadencia de actualización mensual: cada mes se añaden preguntas a partir de fuentes actuales (noticias recientes, artículos académicos recientes, bases de código abiertas modificadas recientemente) y las preguntas más antiguas se rotan fuera. Esto hace que LiveBench sea sustancialmente más difícil de manipular mediante la inclusión en datos de entrenamiento que los benchmarks fijos, ya que el conjunto de pruebas avanza constantemente en el tiempo.
A medida que benchmarks tradicionales como MMLU y HumanEval se saturaron y se volvieron propensos a la contaminación en 2024-2025, LiveBench surgió como una de las alternativas más creíbles para evaluar la capacidad de los modelos de frontera. El benchmark cubre suficientes áreas de capacidad como para que una puntuación alta en LiveBench sea una señal significativa de inteligencia general, mientras que la actualización mensual hace que el ranking sea particularmente informativo a medida que se lanzan modelos.
How It Works
Cada mes se obtienen nuevas preguntas a partir de los eventos y contenidos del mes anterior. El conjunto de pruebas rota: las preguntas más antiguas que una ventana fija se eliminan y se añaden las nuevas. Esto significa que una 'puntuación de LiveBench' tiene una marca temporal implícita: la puntuación reportada corresponde al conjunto de pruebas vigente en la evaluación de ese mes. Las puntuaciones de distintos periodos no son directamente comparables, aunque el benchmark publica datos de tendencias mes a mes.
La metodología de puntuación agrega los resultados de las áreas de capacidad (matemáticas, razonamiento, programación, etc.) en una puntuación compuesta y en puntuaciones por categoría. Para comparar modelos, lo más habitual es citar la puntuación compuesta, aunque las puntuaciones por categoría pueden revelar fortalezas y debilidades específicas de cada modelo.
Current Leaders
How to Interpret Scores
Las puntuaciones de LiveBench son generalmente una mejor señal de la capacidad de los modelos de frontera que las de benchmarks más antiguos, porque la resistencia a la contaminación mantiene la comparación significativa. Un modelo que mejora en MMLU podría estar mejorando genuinamente o podría estar beneficiándose de la contaminación de los datos de entrenamiento; un modelo que mejora en LiveBench tiene más probabilidades de estar mejorando genuinamente. A abril de 2026, el líder global en LiveBench es o3-mini de OpenAI con 0.846, y los modelos cerrados de frontera encabezan la tabla. Entre los modelos de pesos abiertos, los del primer escalón (DeepSeek V4, Kimi K2.6, MiMo V2.5 Pro) puntúan de forma competitiva pero típicamente por debajo de los líderes cerrados. Para seguir la frontera, LiveBench es uno de los benchmarks individuales más útiles a monitorizar mensualmente.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.