What is GPTQ?

Generalized Post-Training Quantization (Cuantización Generalizada Post-Entrenamiento) — método de cuantización de pesos a 4 bits que usa información de segundo orden de un dataset de calibración para minimizar el error de cuantización capa por capa, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua.

Definition

GPTQ (Generalized Post-Training Quantization) es un método de cuantización post-entrenamiento que comprime los pesos del modelo a precisión de 4 bits mientras preserva sustancialmente más calidad que la cuantización uniforme ingenua. La técnica funciona capa por capa: para cada matriz de pesos, GPTQ usa información de un pequeño dataset de calibración para calcular estadísticas de segundo orden sobre cómo el error de cuantización en diferentes pesos se propaga a través de la capa, luego elige valores de cuantización que minimizan el error total de la capa.

El resultado práctico es que un modelo cuantizado GPTQ a 4 bits típicamente retiene 95-99% de la precisión original al usar aproximadamente 4× menos memoria. GPTQ está ampliamente soportado en frameworks de inferencia — vLLM, TensorRT-LLM, ExLlamaV2 y otros consumen modelos cuantizados GPTQ directamente.

Why It Matters

La cuantización es la diferencia entre un modelo que cabe en tu hardware y uno que no. GPTQ produce modelos cuantizados a 4 bits de alta calidad ampliamente desplegables — el formato está bien soportado en frameworks de inferencia, y muchas versiones cuantizadas por la comunidad de modelos open-weight populares están disponibles en Hugging Face.

Key Takeaways

GPTQ es un método de cuantización de pesos a 4 bits post-entrenamiento — sin requerir fine-tuning
Usa estadísticas de segundo orden de datos de calibración para minimizar el error de cuantización a nivel de capa
Típicamente retiene 95-99% de precisión FP16 con ~4× reducción de memoria
Ampliamente soportado en vLLM, TensorRT-LLM, ExLlamaV2 y otros frameworks de inferencia
Alternativa común a AWQ — la calidad relativa varía según la familia de modelos

How Ertas Helps

Después de ajustar un modelo en Ertas Studio, GPTQ es una de las opciones de exportación de cuantización disponibles junto a GGUF y AWQ. Elegir entre ellos depende de tu framework de inferencia: vLLM y TensorRT-LLM aceptan GPTQ y AWQ; Ollama y llama.cpp prefieren GGUF.