What is Temperature?

Un parámetro de muestreo que controla la aleatoriedad de la salida de un modelo de lenguaje — valores más bajos producen respuestas más deterministas, valores más altos aumentan la creatividad y variedad.

Definition

La temperatura es un parámetro escalar aplicado durante la fase de muestreo de tokens de la generación de texto que controla cuán 'aleatorias' o 'creativas' son las salidas del modelo. Técnicamente, la temperatura escala los logits (puntuaciones de predicción en bruto) antes de que la función softmax los convierta en una distribución de probabilidad sobre el vocabulario. Una temperatura de 1.0 usa las probabilidades en bruto del modelo tal como están. Valores por debajo de 1.0 agudizan la distribución, haciendo que los tokens más probables sean aún más probables (más determinista). Valores por encima de 1.0 aplanan la distribución, dando a los tokens menos probables una mayor probabilidad de ser seleccionados (más aleatorio y creativo).

En el extremo, una temperatura de 0 (o cercana a cero) hace que el modelo siempre seleccione el token más probable — esto se llama decodificación voraz y produce salida completamente determinista. Una temperatura de 2.0, por otro lado, crea una distribución casi uniforme donde el modelo podría seleccionar tokens oscuros o inusuales, a menudo produciendo texto incoherente. La mayoría de las aplicaciones prácticas usan temperaturas entre 0.0 y 1.0, con el punto óptimo dependiendo de la tarea.

La temperatura interactúa con otros parámetros de muestreo como top-p (muestreo de núcleo) y top-k para moldear el proceso final de selección de tokens. Estos parámetros trabajan juntos: la temperatura ajusta la forma general de la distribución, mientras que top-p y top-k truncan la distribución para excluir los tokens menos probables. Comprender cómo interactúan estos parámetros es clave para lograr el equilibrio correcto entre consistencia y variedad en las salidas del modelo.

Why It Matters

La temperatura es uno de los parámetros más visibles para el usuario en el despliegue de LLM porque afecta directamente la personalidad percibida del modelo. Los chatbots de soporte al cliente típicamente usan temperaturas bajas (0.1–0.3) para respuestas consistentes y fiables. Los asistentes de escritura creativa usan temperaturas más altas (0.7–1.0) para prosa diversa y sorprendente. Configurar mal la temperatura puede hacer que un sistema factual de preguntas y respuestas sea poco fiable (demasiado alta) o que una herramienta creativa sea aburrida y repetitiva (demasiado baja). Para modelos ajustados, la temperatura óptima también depende de cómo fue entrenado el modelo — los modelos entrenados con salidas diversas pueden necesitar temperaturas más bajas para estabilizarse, mientras que los modelos entrenados con salidas uniformes pueden tolerar valores más altos.

How It Works

Después de que el pase hacia adelante del modelo produce un vector de logits (una puntuación por token del vocabulario), la temperatura se aplica dividiendo cada logit por el valor de temperatura: logit_ajustado = logit / temperatura. Estos logits ajustados se pasan luego a través de la función softmax para producir probabilidades. Cuando la temperatura es menor que 1, la división amplifica las diferencias entre logits, concentrando la masa de probabilidad en los tokens principales. Cuando la temperatura es mayor que 1, la división comprime las diferencias, distribuyendo la probabilidad más uniformemente. El token final se muestrea entonces de esta distribución de probabilidad ajustada (o de una versión truncada si top-p o top-k también están aplicados).

Example Use Case

Una plataforma de generación de contenido ofrece a los usuarios un 'deslizador de creatividad' que se mapea al parámetro de temperatura del modelo. Para descripciones de productos (factuales, consistentes), el deslizador establece la temperatura en 0.2. Para eslóganes de marketing (creativos, variados), establece la temperatura en 0.8. Para sesiones de lluvia de ideas (máxima variedad), sube hasta 1.2. El mismo modelo ajustado sirve los tres casos de uso, con la temperatura siendo el único parámetro que cambia — demostrando cómo este único parámetro puede cambiar dramáticamente el comportamiento del modelo.

Key Takeaways

La temperatura escala los logits antes del softmax, controlando la aleatoriedad de la selección de tokens.
Valores más bajos (0.0–0.3) producen salidas deterministas y consistentes; valores más altos (0.7–1.2) aumentan la creatividad.
La temperatura 0 da decodificación voraz (siempre elige el token más probable).
Funciona junto con top-p y top-k para moldear la distribución final de muestreo.
La temperatura óptima depende de la tarea: las tareas factuales necesitan valores bajos, las tareas creativas necesitan valores más altos.

How Ertas Helps

Cuando los usuarios evalúan sus modelos ajustados en Ertas Studio, pueden ajustar el parámetro de temperatura en el playground de inferencia para ver cómo afecta la calidad y variedad de la salida. Las opciones de despliegue de Ertas — ya sea a través de las APIs de Ertas Cloud o inferencia local vía exportaciones GGUF — todas soportan la temperatura como parámetro configurable, dando a los usuarios finales control sobre el equilibrio creatividad-consistencia en aplicaciones en producción.