What is AWQ?

Activation-aware Weight Quantization（激活感知权重量化）——一种 4 位量化方法，根据激活幅度保护显著权重，在相同位宽下产生比朴素量化更高质量的压缩模型。

Definition

AWQ（激活感知权重量化）是一种训练后量化技术，将模型权重压缩至 4 位精度，同时比朴素均匀量化保留显著更多质量。核心见解：并非所有权重对模型输出同等重要。在高幅度激活上运算的权重对预测有不成比例的影响，而在接近零激活上运算的权重贡献较小。AWQ 使用来自小型校准数据集的激活统计识别前 1% 左右的“显著”权重通道，然后缩放这些通道以保护它们免受量化误差影响。

实际结果是，AWQ 量化的 4 位模型通常在标准基准上保留 95-99% 的原始模型准确性，而内存使用约比 FP16 原版少 4 倍。这使 AWQ 成为内存受限推理部署的热门选择。

Why It Matters

量化是模型能否适配您的硬件之间的差异。70B 参数 FP16 模型需要约 140 GB 内存；同一模型使用 AWQ 4 位则适配约 40 GB。AWQ 比 RTN 等较旧方法产生更高质量的 4 位量化模型，且与 GPTQ 在许多模型族中具有竞争力或更优。对于 vLLM 和 TensorRT-LLM 等推理框架，AWQ 已成为与 GPTQ 并列的标准量化选项。

Key Takeaways

AWQ 是训练后 4 位权重量化方法——无需微调
根据激活幅度识别并保护约 1% 的显著权重
通常以约 4 倍内存减少保留 95-99% 的 FP16 准确性
由 vLLM、TensorRT-LLM、llama.cpp 等主要推理框架支持
GPTQ 的常见替代方案——不同方法在不同模型族上各有胜出

How Ertas Helps

在 Ertas Studio 中微调模型后，AWQ 是与 GGUF（使用 Q4_K_M 等不同量化格式）和其他格式并列的导出目标之一。在 AWQ、GPTQ 和 GGUF 量化之间选择取决于您的推理框架：vLLM 和 TensorRT-LLM 偏好 AWQ/GPTQ；Ollama 和 llama.cpp 偏好 GGUF。Ertas Studio 的导出管道处理这三种。