What is Top-p (Nucleus Sampling)?
Una estrategia de muestreo que selecciona del conjunto más pequeño de tokens cuya probabilidad acumulada supera un umbral p, equilibrando la calidad de salida con la diversidad.
Definition
El muestreo top-p, también conocido como muestreo de núcleo (nucleus sampling), es una estrategia de decodificación introducida por Holtzman et al. en 2019 que selecciona dinámicamente el grupo de tokens candidatos basándose en su probabilidad acumulada. En lugar de considerar todos los tokens del vocabulario (que incluye muchas opciones extremadamente improbables) o un número fijo de tokens principales (top-k), top-p incluye el conjunto más pequeño de tokens cuya masa de probabilidad combinada supera el umbral p. Por ejemplo, con top-p = 0.9, el modelo considera solo los tokens más probables que juntos representan el 90% de la probabilidad total, descartando el 10% restante de tokens improbables.
La idea clave detrás de top-p es que el número de tokens 'razonables' como siguiente token varía drásticamente según el contexto. Después de la palabra 'the', miles de tokens son plausibles. Después de 'the capital of France is', esencialmente solo un token ('Paris') es razonable. Un valor fijo de top-k no puede adaptarse a esta variación — o incluye demasiados tokens improbables en el primer caso o restringe innecesariamente las opciones en el segundo. Top-p se adapta naturalmente: cuando el modelo está seguro, el núcleo es pequeño; cuando el modelo está inseguro, el núcleo crece para incluir más opciones.
Top-p se usa típicamente en combinación con la temperatura. La temperatura moldea la distribución de probabilidad general, mientras que top-p trunca la cola larga de tokens improbables. Una configuración de producción común es temperatura 0.7 con top-p 0.9, que permite creatividad moderada mientras evita que el modelo seleccione tokens verdaderamente extravagantes. Establecer top-p en 1.0 efectivamente lo desactiva (todos los tokens son candidatos), mientras que valores muy bajos como 0.1 hacen al modelo casi tan determinista como la decodificación voraz.
Why It Matters
Top-p es esencial para generar texto de alta calidad que sea tanto coherente como no repetitivo. La decodificación voraz pura (siempre elegir el token más probable) produce texto aburrido y repetitivo. El muestreo aleatorio de la distribución completa produce texto incoherente. Top-p logra el equilibrio al permitir variedad dentro de los límites de la plausibilidad. Es la estrategia de muestreo predeterminada en la mayoría de los despliegues y APIs de LLM en producción porque produce texto consistentemente natural en contextos diversos. Comprender top-p ayuda a los profesionales a ajustar su pipeline de inferencia para el equilibrio correcto entre calidad y creatividad.
How It Works
Después de que el modelo produce logits y se aplica la temperatura, la función softmax genera una distribución de probabilidad sobre todo el vocabulario. Los tokens se ordenan por probabilidad en orden descendente. Comenzando desde el token más probable, las probabilidades se acumulan hasta que la suma acumulada supera el umbral p. Todos los tokens incluidos en esta suma acumulada forman el 'núcleo' — el conjunto de candidatos para el muestreo. Los tokens fuera del núcleo se enmascaran (sus probabilidades se establecen en cero), y las probabilidades restantes se renormalizan para sumar 1.0. El token final se muestrea entonces de esta distribución renormalizada. Este proceso se repite para cada token generado.
Example Use Case
Un equipo de desarrollo de chatbot nota que su modelo ocasionalmente produce respuestas absurdas e inconexas en conversaciones con clientes. La investigación revela que están usando temperatura 0.8 sin filtrado top-p, permitiendo al modelo muestrear ocasionalmente de la cola extrema de la distribución. Agregan top-p = 0.9, que elimina los peores tokens atípicos mientras preserva la variedad conversacional natural. Las respuestas absurdas desaparecen, y las puntuaciones de satisfacción del cliente mejoran un 12% — todo por un solo cambio de parámetro en tiempo de inferencia.
Key Takeaways
- Top-p (muestreo de núcleo) selecciona dinámicamente el conjunto de tokens más pequeño cuya probabilidad acumulada supera p.
- Se adapta al contexto: núcleo estrecho cuando el modelo está seguro, más amplio cuando está inseguro.
- Los valores de producción comunes son 0.85–0.95, a menudo combinados con temperatura 0.5–0.8.
- Top-p evita el muestreo de la cola extrema de la distribución, reduciendo salidas incoherentes.
- Establecer top-p en 1.0 lo desactiva; valores muy bajos se aproximan a la decodificación voraz.
How Ertas Helps
Ertas soporta top-p como parámetro de inferencia configurable tanto en el playground de evaluación de Studio como en los despliegues de la API de Ertas Cloud. Cuando los usuarios prueban sus modelos ajustados en Studio, pueden experimentar con diferentes valores de top-p junto con la temperatura para encontrar la configuración de muestreo óptima para su caso de uso. Estos ajustes pueden luego incorporarse en la configuración de despliegue, asegurando un comportamiento consistente en producción.
Related Resources
Context Window
Inference
Prompt Engineering
Temperature
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.