What is BLEU Score?

Una métrica que evalúa la calidad del texto generado por máquinas midiendo la superposición de n-gramas entre la salida generada y uno o más textos de referencia humanos.

Definition

BLEU (Bilingual Evaluation Understudy) es una métrica de evaluación de texto automatizada desarrollada originalmente para traducción automática que mide la precisión de coincidencias de n-gramas entre un texto generado (candidato) y uno o más textos de referencia. La puntuación va de 0 a 1 (a menudo expresada como 0-100), donde 1 indica superposición perfecta con la referencia. BLEU calcula la precisión en múltiples niveles de n-gramas (de unigrama a 4-grama por defecto) y los combina usando una media geométrica, luego aplica una penalización por brevedad para penalizar salidas más cortas que la referencia.

A pesar de haber sido diseñado para traducción automática, BLEU ha sido ampliamente adoptado como métrica de generación de texto de propósito general. Se usa comúnmente para evaluar resumen de texto, parafraseo, generación de código y sistemas de diálogo. Sin embargo, sus limitaciones están bien documentadas: BLEU mide la superposición léxica superficial, no la similitud semántica, lo que significa que una paráfrasis perfectamente válida con diferentes opciones de palabras puede recibir una puntuación BLEU baja mientras que un texto semánticamente incorrecto con vocabulario similar puede obtener una puntuación alta.

En la era de los LLM, BLEU está siendo cada vez más complementado o reemplazado por métricas de evaluación basadas en modelos como BERTScore (que usa embeddings contextuales para similitud semántica) y enfoques de LLM-como-juez (donde un modelo potente califica la calidad del texto generado). Sin embargo, BLEU sigue siendo ampliamente reportado porque es rápido de calcular, determinista, reproducible y bien comprendido — lo que lo convierte en una métrica de base útil junto a enfoques de evaluación más sofisticados.

Why It Matters

Las métricas de evaluación automatizadas son esenciales para la iteración rápida durante el desarrollo de modelos. Evaluar manualmente cada salida del modelo es prohibitivamente lento y costoso, especialmente al comparar múltiples configuraciones de entrenamiento. BLEU proporciona una señal de calidad instantánea y reproducible que se correlaciona razonablemente bien con el juicio humano para muchas tareas de generación.

Para benchmarking e investigación, la naturaleza determinista de BLEU lo hace valioso para comparaciones reproducibles. Dos equipos evaluando diferentes modelos en el mismo conjunto de pruebas obtendrán puntuaciones BLEU idénticas, permitiendo una comparación significativa. Esta reproducibilidad, combinada con su trayectoria de décadas, explica por qué BLEU sigue siendo reportado junto a métricas más nuevas en la mayoría de los artículos de NLP.

How It Works

El cálculo de BLEU involucra varios pasos. Primero, se calcula la precisión de n-gramas para cada tamaño de n-grama (1 a 4 por defecto). Para cada tamaño de n-grama, la cantidad de n-gramas en el candidato que aparecen en la referencia se divide por el número total de n-gramas en el candidato. Un mecanismo de recorte asegura que cada n-grama de referencia pueda coincidir como máximo una vez, previniendo puntuaciones infladas por salidas repetitivas.

Las precisiones modificadas para cada tamaño de n-grama se combinan usando una media geométrica ponderada (pesos iguales de 0.25 por defecto). Finalmente, se aplica una penalización por brevedad: si el candidato es más corto que la referencia, la puntuación se multiplica por exp(1 - longitud_referencia/longitud_candidato). Esta penalización evita que el modelo manipule la métrica produciendo salidas muy cortas y de alta precisión. La puntuación BLEU final es el producto de la media geométrica de precisión y la penalización por brevedad.

Example Use Case

Un equipo que ajusta un modelo para resumen de correos de clientes evalúa las salidas del modelo contra 500 resúmenes escritos por humanos. El modelo base logra una puntuación BLEU-4 de 18.3, mientras que el modelo ajustado alcanza 31.7 — una mejora del 73% que se correlaciona con la preferencia de los evaluadores humanos por los resúmenes del modelo ajustado. También calculan BERTScore y ejecutan evaluación de LLM-como-juez para confirmar la mejora, usando BLEU como verificación rápida durante la iteración rápida.

Key Takeaways

BLEU mide la superposición de precisión de n-gramas entre textos generados y de referencia, puntuado de 0 a 1.
Es rápido, determinista y reproducible, lo que lo convierte en una métrica de evaluación base útil.
BLEU captura similitud léxica pero no significado semántico — las paráfrasis válidas pueden obtener puntuaciones bajas.
La penalización por brevedad evita la manipulación mediante la producción de salidas cortas y de alta precisión.
La evaluación moderna combina BLEU con métricas semánticas como BERTScore y enfoques de LLM-como-juez.

How Ertas Helps

Ertas Studio incluye BLEU entre sus métricas de evaluación automatizada, permitiendo a los usuarios evaluar rápidamente las salidas de modelos ajustados contra respuestas de referencia y rastrear las mejoras de calidad a través de ejecuciones de entrenamiento.

Related Resources

Benchmark

Hallucination

Model Evaluation

Perplexity

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →