What is AWQ?

Activation-aware Weight Quantization (Cuantización de Pesos Consciente de Activaciones) — método de cuantización a 4 bits que protege los pesos salientes según la magnitud de activación, produciendo modelos comprimidos de mayor calidad que la cuantización ingenua al mismo ancho de bits.

Definition

AWQ (Activation-aware Weight Quantization) es una técnica de cuantización post-entrenamiento que comprime los pesos del modelo a precisión de 4 bits mientras preserva sustancialmente más calidad que la cuantización uniforme ingenua. La idea central: no todos los pesos son igualmente importantes para la salida del modelo. Los pesos que operan sobre activaciones de magnitud alta tienen una influencia desproporcionada en las predicciones. AWQ identifica el ~1% superior de canales de pesos 'salientes' usando estadísticas de activación de un pequeño dataset de calibración, luego escala esos canales para protegerlos del error de cuantización.

El resultado práctico es que un modelo cuantizado AWQ a 4 bits típicamente retiene 95-99% de la precisión original al usar aproximadamente 4× menos memoria que el FP16 original. Esto hace de AWQ una opción popular para despliegues de inferencia donde la memoria es la restricción.

Why It Matters

La cuantización es la diferencia entre un modelo que cabe en tu hardware y uno que no. Un modelo de 70B parámetros en FP16 necesita ~140 GB de memoria; el mismo modelo con AWQ 4 bits cabe en ~40 GB. AWQ produce modelos cuantizados a 4 bits de mayor calidad que métodos más antiguos como RTN y es competitivo con o mejor que GPTQ para muchas familias de modelos.

Key Takeaways

AWQ es un método de cuantización de pesos a 4 bits post-entrenamiento — sin requerir fine-tuning
Identifica y protege ~1% de pesos salientes según la magnitud de activación
Típicamente retiene 95-99% de precisión FP16 con ~4× reducción de memoria
Soportado por vLLM, TensorRT-LLM, llama.cpp y otros frameworks de inferencia principales
Alternativa común a GPTQ — diferentes métodos pueden ganar en diferentes familias de modelos

How Ertas Helps

Después de ajustar un modelo en Ertas Studio, AWQ es uno de los formatos de exportación admitidos junto con GGUF y otros formatos. Elegir entre AWQ, GPTQ y GGUF depende de tu framework de inferencia: vLLM y TensorRT-LLM prefieren AWQ/GPTQ; Ollama y llama.cpp prefieren GGUF. El pipeline de exportación de Ertas Studio maneja los tres.