What is Speculative Decoding?
Una técnica de aceleración de inferencia que usa un modelo borrador pequeño y rápido para proponer múltiples tokens a la vez, que el modelo objetivo más grande verifica en paralelo.
Definition
La decodificación especulativa es una técnica de optimización de inferencia que acelera la generación de texto de grandes modelos de lenguaje sin cambiar la distribución de salida. La idea clave es que la inferencia de LLM está limitada por el ancho de banda de memoria — el cuello de botella es leer los pesos del modelo desde la memoria, no computar con ellos. Un solo pase hacia adelante que procesa 5 tokens cuesta casi lo mismo que uno que procesa 1 token, porque el costo de carga de pesos domina. La decodificación especulativa explota esto usando un modelo borrador pequeño y rápido para predecir varios tokens adelante, luego verificando todas las predicciones en un solo pase hacia adelante del modelo objetivo grande.
La técnica funciona en tres pasos: (1) el modelo borrador genera K tokens candidatos autorregresivamente (rápido, porque el modelo borrador es pequeño), (2) el modelo objetivo procesa todos los K candidatos en un solo pase hacia adelante (calculando la probabilidad que asigna a cada uno), y (3) un paso de verificación acepta el prefijo más largo de candidatos con el que el modelo objetivo está de acuerdo, rechazando el resto. Crucialmente, el criterio de aceptación está diseñado para que la distribución de salida final sea matemáticamente idéntica a la decodificación autorregresiva estándar del modelo objetivo — la decodificación especulativa es sin pérdida.
La aceleración depende de la tasa de aceptación — con qué frecuencia las predicciones del modelo borrador coinciden con lo que el modelo objetivo habría generado. Cuando el modelo borrador es una buena aproximación del objetivo (por ejemplo, un modelo de 1B haciendo borradores para un modelo de 70B de la misma familia), las tasas de aceptación del 70-90% son comunes, produciendo aceleraciones de 2-3x en tokens por segundo sin ninguna degradación de calidad.
Why It Matters
La latencia de inferencia de LLM impacta directamente la experiencia del usuario y el costo. Los usuarios perciben retrasos superiores a 200ms entre tokens como lentos, y las tareas de generación largas (resúmenes, generación de código) pueden tomar decenas de segundos. La decodificación especulativa reduce esta latencia en 2-3x sin ningún cambio en la calidad de salida, convirtiéndola en una de las pocas optimizaciones que es verdaderamente gratuita en términos de compromisos de calidad.
Para proveedores de inferencia, la decodificación especulativa reduce las horas de GPU requeridas por solicitud, disminuyendo directamente los costos de servicio. A diferencia de la cuantización, que intercambia calidad por velocidad, la decodificación especulativa tiene la garantía matemática de producir la misma distribución de salida que la decodificación estándar. Esto la hace adecuada para aplicaciones donde la calidad de salida no puede comprometerse.
How It Works
El modelo borrador ejecuta decodificación autorregresiva estándar para generar K tokens (típicamente K=4-8). Esto es rápido porque el modelo borrador es 10-50x más pequeño que el modelo objetivo. El modelo objetivo luego procesa la secuencia completa (contexto original más K tokens borrador) en un solo pase hacia adelante, produciendo distribuciones de probabilidad para cada posición.
El paso de verificación recorre los K tokens borrador secuencialmente. Para cada posición, compara el token elegido por el modelo borrador con la distribución del modelo objetivo. Si el modelo objetivo asigna suficiente probabilidad al token borrador (usando un esquema de muestreo por rechazo modificado), el token es aceptado. Si es rechazado, la verificación se detiene, y la distribución del modelo objetivo en el punto de rechazo se usa para muestrear un token de reemplazo. Esto garantiza que la distribución de salida coincida con la decodificación estándar del modelo objetivo mientras típicamente acepta la mayoría de los tokens borrador.
Example Use Case
Una plataforma de inferencia sirve Llama 3 70B a usuarios que solicitan generación de contenido largo. La generación promedio toma 45 segundos para 2,000 tokens. Al desplegar Llama 3 8B como modelo borrador con decodificación especulativa (K=5, tasa de aceptación promedio del 78%), reducen el tiempo de generación a 18 segundos — una aceleración de 2.5x con calidad de salida idéntica. Los usuarios reportan una experiencia significativamente mejor, y el costo de GPU por solicitud de la plataforma cae un 60%.
Key Takeaways
- La decodificación especulativa usa un modelo borrador pequeño para proponer tokens verificados por el modelo objetivo grande.
- Produce salidas matemáticamente idénticas a la decodificación estándar — cero pérdida de calidad.
- Las aceleraciones típicas son de 2-3x, dependiendo de la calidad del modelo borrador y la tasa de aceptación.
- La técnica explota el hecho de que la inferencia de LLM está limitada por el ancho de banda de memoria, no por el cómputo.
- Los modelos borrador de la misma familia que el modelo objetivo producen las tasas de aceptación más altas.
How Ertas Helps
Los modelos ajustados en Ertas Studio pueden desplegarse con decodificación especulativa emparejando un modelo grande ajustado con un modelo borrador más pequeño de la misma familia, ambos exportados como archivos GGUF para inferencia local eficiente.
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.