What is Quantization?

El proceso de reducir la precisión numérica de los pesos de un modelo (por ejemplo, de FP16 a INT8 o INT4) para reducir su huella de memoria y acelerar la inferencia sin sacrificar drásticamente la precisión.

Definition

La cuantización es una técnica de compresión de modelos que convierte los números de punto flotante de alta precisión usados durante el entrenamiento en representaciones de menor precisión para la inferencia. Durante el entrenamiento, las redes neuronales típicamente usan pesos de punto flotante de 16 bits (FP16) o 32 bits (FP32) para mantener la resolución de gradientes necesaria para el aprendizaje. Sin embargo, una vez que un modelo está entrenado, gran parte de esa precisión es redundante para generar predicciones. La cuantización aprovecha esta redundancia mapeando los pesos — y a veces las activaciones — a tipos de datos más pequeños como enteros de 8 bits (INT8) o incluso enteros de 4 bits (INT4).

Existen dos grandes familias de cuantización. La cuantización post-entrenamiento (PTQ) toma un modelo completamente entrenado y convierte sus pesos después del hecho, a veces usando un pequeño dataset de calibración para minimizar la pérdida de precisión. El entrenamiento consciente de cuantización (QAT), por el contrario, simula la aritmética de baja precisión durante el propio proceso de entrenamiento, permitiendo al modelo adaptar sus pesos al régimen cuantizado. PTQ es más rápida y simple; QAT típicamente produce mayor precisión a anchos de bits muy bajos.

Los formatos de cuantización modernos como GGUF codifican no solo los pesos cuantizados sino también los metadatos necesarios para descuantizarlos durante la inferencia. Técnicas como GPTQ, AWQ y los métodos k-quant usados por llama.cpp ofrecen diferentes equilibrios entre ratio de compresión, velocidad y calidad. Un modelo de 7B bien cuantizado a precisión de 4 bits puede caber en 4 GB de RAM y ejecutarse en un CPU de laptop — un marcado contraste con los 14 GB requeridos para el mismo modelo en FP16.

Why It Matters

Sin cuantización, ejecutar grandes modelos de lenguaje requiere hardware de GPU costoso con VRAM sustancial. Un modelo de 70B parámetros en FP16 necesita aproximadamente 140 GB de memoria — muy por encima de cualquier GPU de consumo individual. La cuantización democratiza el acceso a modelos poderosos al hacerlos ejecutables en hardware convencional, dispositivos de borde e incluso teléfonos móviles. Para las organizaciones, esto se traduce directamente en menores costos de infraestructura, menor latencia y la capacidad de desplegar IA en entornos sensibles a la privacidad donde los datos no pueden salir del dispositivo local.

How It Works

El pipeline de cuantización comienza analizando la distribución de valores de pesos en cada capa del modelo entrenado. Luego se calcula una función de mapeo que convierte cada peso de punto flotante a su contraparte de baja precisión más cercana mientras minimiza el error de reconstrucción general. Para la cuantización INT8, esto típicamente implica calcular un factor de escala y un punto cero por tensor o por canal. Para esquemas agresivos de 4 bits, las estrategias de agrupación (por ejemplo, cuantizar en bloques de 32 o 128 pesos) ayudan a preservar la precisión. El modelo cuantizado se serializa entonces en un formato listo para despliegue como GGUF, que almacena los pesos cuantizados junto con los parámetros de descuantización necesarios en tiempo de inferencia.

Example Use Case

Una startup de salud necesita ejecutar un modelo médico de preguntas y respuestas de 13B ajustado en estaciones de trabajo hospitalarias que no tienen GPU dedicada. Al cuantizar el modelo de FP16 a Q4_K_M usando el formato GGUF de llama.cpp, reducen el tamaño del modelo de 26 GB a 7.4 GB. El modelo cuantizado funciona a 12 tokens por segundo solo en CPU, con una degradación inferior al 1% en su benchmark médico — habilitando soporte clínico de decisión en tiempo real sin enviar datos de pacientes a la nube.

Key Takeaways

La cuantización reduce la precisión del modelo (FP16 a INT8 a INT4) para reducir los requisitos de memoria en 2–4x o más.
La cuantización post-entrenamiento es rápida y fácil; el entrenamiento consciente de cuantización produce mejores resultados a anchos de bits muy bajos.
GGUF es el formato más popular para distribuir modelos cuantizados para inferencia local.
Una cuantización bien ejecutada preserva el 95–99% de la calidad del modelo mientras reduce drásticamente los requisitos de hardware.
La cuantización es esencial para desplegar LLMs en dispositivos de borde, laptops y entornos sensibles a la privacidad.

How Ertas Helps

Ertas simplifica el flujo de trabajo de cuantización como parte de su pipeline de exportación de modelos. Después del fine-tuning en Ertas Studio, los usuarios pueden exportar sus modelos directamente a GGUF en varios niveles de cuantización (Q4_K_M, Q5_K_M, Q8_0, etc.) con un solo clic — sin necesidad de herramientas de línea de comandos. Esto facilita ir de un modelo ajustado a un artefacto desplegable optimizado para inferencia local con Ollama o llama.cpp, manteniendo todo el flujo de trabajo dentro de la interfaz sin código de Ertas.