What is Perplexity?

Una métrica que mide qué tan bien un modelo de lenguaje predice una secuencia de texto, con valores más bajos indicando mejor predicción y comprensión del lenguaje más fluida.

Definition

Perplexity es una métrica de evaluación estándar para modelos de lenguaje que cuantifica qué tan sorprendido está el modelo por una secuencia de texto dada. Matemáticamente, es el exponencial del promedio negativo del log-verosimilitud de los tokens en la secuencia: PPL = exp(-1/N * sum(log P(token_i | context_i))). Una perplexity de 10 significa que el modelo está, en promedio, tan incierto como si estuviera eligiendo uniformemente entre 10 tokens igualmente probables en cada posición. Una perplexity más baja indica mejor modelado del lenguaje — el modelo asigna mayor probabilidad a los tokens que realmente aparecen.

Perplexity es la métrica de evaluación intrínseca más comúnmente usada para modelos de lenguaje. A diferencia de las métricas específicas de tarea (precisión, F1, BLEU) que miden el rendimiento en tareas posteriores, perplexity mide la comprensión fundamental del lenguaje del modelo. Un modelo con baja perplexity en un corpus específico del dominio ha aprendido el vocabulario, la sintaxis y los patrones de ese dominio efectivamente.

En el contexto del fine-tuning, la perplexity en un conjunto de validación apartado sirve como la señal principal para monitorear el progreso del entrenamiento. A medida que el modelo aprende los patrones en los datos de entrenamiento, la perplexity de validación disminuye. Cuando la perplexity de validación deja de disminuir o comienza a aumentar mientras la perplexity de entrenamiento continúa bajando, el modelo se está sobreajustando — una señal para detener el entrenamiento o aplicar regularización más fuerte.

Why It Matters

Perplexity proporciona una medida universal e independiente de la tarea de la calidad del modelo de lenguaje. Aunque las evaluaciones específicas de la tarea son en última instancia más relevantes para decisiones de producción, perplexity da una señal rápida y confiable durante el desarrollo. Un modelo ajustado debería tener menor perplexity en texto específico del dominio que el modelo base — si no la tiene, algo salió mal en el entrenamiento.

Perplexity también es valiosa para comparar la calidad de cuantización. Cuando un modelo se cuantiza de FP16 a precisión de 4 bits, el aumento en perplexity mide cuánta capacidad de modelado del lenguaje se perdió. Una cuantización que aumenta la perplexity en 0.2 en un corpus de referencia es aceptable; un aumento de 2.0 sugiere una degradación significativa de calidad. Esto hace de perplexity la métrica estándar para evaluar métodos de cuantización.

How It Works

Calcular perplexity implica ejecutar el modelo en una secuencia de texto en modo de evaluación (sin cálculo de gradientes) y registrar la log-probabilidad asignada a cada token dado su contexto precedente. Estas log-probabilidades se promedian a través de todos los tokens y se exponencian. Para modelos de lenguaje causales, solo los tokens después del primero se puntúan, ya que el primer token no tiene contexto precedente.

Una sutileza surge con la longitud del contexto. Para modelos con ventanas de contexto finitas, textos muy largos deben dividirse en ventanas superpuestas o deslizantes. La elección del paso (superposición entre ventanas) afecta el cálculo de perplexity. Un paso igual a la longitud del contexto produce segmentos no superpuestos, mientras que un paso de 1 da la perplexity por token más precisa pero es computacionalmente costoso. La práctica común usa un paso de la mitad de la longitud del contexto como compromiso práctico.

Example Use Case

Un equipo ajusta un modelo con literatura médica y rastrea perplexity en un conjunto apartado de artículos de revistas médicas. El modelo base comienza con una perplexity de 45 en este corpus. Después del fine-tuning, la perplexity baja a 12, confirmando que el modelo ha aprendido el vocabulario y los patrones de escritura médicos. Luego cuantizan el modelo ajustado a 4 bits y miden el aumento de perplexity: solo 0.4 puntos (a 12.4), confirmando que la cuantización preservó la calidad del modelo.

Key Takeaways

Perplexity mide qué tan bien un modelo de lenguaje predice texto — menor es mejor.
Es la métrica intrínseca estándar para evaluar la calidad de modelos de lenguaje.
La perplexity de validación durante el fine-tuning señala cuándo detener el entrenamiento para evitar sobreajuste.
El aumento de perplexity durante la cuantización mide el costo de calidad de la compresión.
Proporciona una señal universal e independiente de la tarea que complementa las evaluaciones específicas de la tarea.

How Ertas Helps

Ertas Studio rastrea perplexity en datos de validación a lo largo de las ejecuciones de fine-tuning y la muestra en gráficos en tiempo real, ayudando a los usuarios a identificar el checkpoint óptimo y detectar sobreajuste antes de que degrade la calidad del modelo.

Related Resources

Benchmark

Checkpoint

Model Evaluation

Overfitting

Quantization

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →