What is AWQ(活化感知權重量化)?

    Activation-aware Weight Quantization——一種 4-bit 量化方法,依活化值大小保護關鍵權重,在相同位元寬下產生比樸素量化更高品質的壓縮模型。

    Definition

    AWQ(Activation-aware Weight Quantization,活化感知權重量化)是一種訓練後量化技術,能將模型權重壓縮至 4-bit 精度,同時保留遠多於樸素均勻量化的品質。其核心觀察是:並非所有權重對模型輸出都同等重要。作用於高量級活化值的權重對預測影響特別大,而作用於接近零之活化值的權重貢獻很小。AWQ 透過小型校正資料集的活化統計,識別出排序前約 1% 的「關鍵」權重通道,並對這些通道進行縮放以避免量化誤差傷害。

    實務結果是:經 AWQ 量化的 4-bit 模型,在標準基準上通常能保留原始模型 95-99% 的準確度,而記憶體需求約為 FP16 原版的四分之一。這使 AWQ 成為以記憶體為瓶頸的推論部署熱門選擇——尤其適合在消費級 GPU 上服務大型模型,或在伺服器硬體上容納更多並行請求。

    Why It Matters

    量化往往決定了模型能否在您的硬體上運作。一個 70B 參數的模型在 FP16 下需要約 140 GB 記憶體;同一模型以 AWQ 4-bit 約只需 40 GB。AWQ 產出的 4-bit 量化模型品質優於 RTN(最近捨入)等較舊方法,並在許多模型家族上與 GPTQ 不相上下甚至更佳。在 vLLM 與 TensorRT-LLM 等推論框架中,AWQ 已與 GPTQ 並列為標準量化選項。

    Key Takeaways

    • AWQ 是一種訓練後 4-bit 權重量化方法——無需微調
    • 依活化值大小辨識並保護約 1% 的關鍵權重
    • 通常可在約 4 倍記憶體縮減下保留 FP16 模型 95-99% 的準確度
    • 獲 vLLM、TensorRT-LLM、llama.cpp 等主流推論框架支援
    • GPTQ 的常見替代方案——不同方法在不同模型家族上各擅勝場

    How Ertas Helps

    在 Ertas Studio 完成模型微調後,AWQ 是支援的匯出目標之一,與 GGUF(採用 Q4_K_M 等不同量化格式)及其他格式並列。AWQ、GPTQ 與 GGUF 之間的選擇取決於您的推論框架:vLLM 與 TensorRT-LLM 偏好 AWQ/GPTQ;Ollama 與 llama.cpp 則偏好 GGUF。Ertas Studio 的匯出管線三者皆可處理。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.