What is AWQ?

    Activation-aware Weight Quantization(激活感知权重量化)——一种 4 位量化方法,根据激活幅度保护显著权重,在相同位宽下产生比朴素量化更高质量的压缩模型。

    Definition

    AWQ(激活感知权重量化)是一种训练后量化技术,将模型权重压缩至 4 位精度,同时比朴素均匀量化保留显著更多质量。核心见解:并非所有权重对模型输出同等重要。在高幅度激活上运算的权重对预测有不成比例的影响,而在接近零激活上运算的权重贡献较小。AWQ 使用来自小型校准数据集的激活统计识别前 1% 左右的“显著”权重通道,然后缩放这些通道以保护它们免受量化误差影响。

    实际结果是,AWQ 量化的 4 位模型通常在标准基准上保留 95-99% 的原始模型准确性,而内存使用约比 FP16 原版少 4 倍。这使 AWQ 成为内存受限推理部署的热门选择。

    Why It Matters

    量化是模型能否适配您的硬件之间的差异。70B 参数 FP16 模型需要约 140 GB 内存;同一模型使用 AWQ 4 位则适配约 40 GB。AWQ 比 RTN 等较旧方法产生更高质量的 4 位量化模型,且与 GPTQ 在许多模型族中具有竞争力或更优。对于 vLLM 和 TensorRT-LLM 等推理框架,AWQ 已成为与 GPTQ 并列的标准量化选项。

    Key Takeaways

    • AWQ 是训练后 4 位权重量化方法——无需微调
    • 根据激活幅度识别并保护约 1% 的显著权重
    • 通常以约 4 倍内存减少保留 95-99% 的 FP16 准确性
    • 由 vLLM、TensorRT-LLM、llama.cpp 等主要推理框架支持
    • GPTQ 的常见替代方案——不同方法在不同模型族上各有胜出

    How Ertas Helps

    在 Ertas Studio 中微调模型后,AWQ 是与 GGUF(使用 Q4_K_M 等不同量化格式)和其他格式并列的导出目标之一。在 AWQ、GPTQ 和 GGUF 量化之间选择取决于您的推理框架:vLLM 和 TensorRT-LLM 偏好 AWQ/GPTQ;Ollama 和 llama.cpp 偏好 GGUF。Ertas Studio 的导出管道处理这三种。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.