What is GPTQ?

    Generalized Post-Training Quantization (Cuantización Generalizada Post-Entrenamiento) — método de cuantización de pesos a 4 bits que usa información de segundo orden de un dataset de calibración para minimizar el error de cuantización capa por capa, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua.

    Definition

    GPTQ (Generalized Post-Training Quantization) es un método de cuantización post-entrenamiento que comprime los pesos del modelo a precisión de 4 bits mientras preserva sustancialmente más calidad que la cuantización uniforme ingenua. La técnica funciona capa por capa: para cada matriz de pesos, GPTQ usa información de un pequeño dataset de calibración para calcular estadísticas de segundo orden sobre cómo el error de cuantización en diferentes pesos se propaga a través de la capa, luego elige valores de cuantización que minimizan el error total de la capa.

    El resultado práctico es que un modelo cuantizado GPTQ a 4 bits típicamente retiene 95-99% de la precisión original al usar aproximadamente 4× menos memoria. GPTQ está ampliamente soportado en frameworks de inferencia — vLLM, TensorRT-LLM, ExLlamaV2 y otros consumen modelos cuantizados GPTQ directamente.

    Why It Matters

    La cuantización es la diferencia entre un modelo que cabe en tu hardware y uno que no. GPTQ produce modelos cuantizados a 4 bits de alta calidad ampliamente desplegables — el formato está bien soportado en frameworks de inferencia, y muchas versiones cuantizadas por la comunidad de modelos open-weight populares están disponibles en Hugging Face.

    Key Takeaways

    • GPTQ es un método de cuantización de pesos a 4 bits post-entrenamiento — sin requerir fine-tuning
    • Usa estadísticas de segundo orden de datos de calibración para minimizar el error de cuantización a nivel de capa
    • Típicamente retiene 95-99% de precisión FP16 con ~4× reducción de memoria
    • Ampliamente soportado en vLLM, TensorRT-LLM, ExLlamaV2 y otros frameworks de inferencia
    • Alternativa común a AWQ — la calidad relativa varía según la familia de modelos

    How Ertas Helps

    Después de ajustar un modelo en Ertas Studio, GPTQ es una de las opciones de exportación de cuantización disponibles junto a GGUF y AWQ. Elegir entre ellos depende de tu framework de inferencia: vLLM y TensorRT-LLM aceptan GPTQ y AWQ; Ollama y llama.cpp prefieren GGUF.

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.