What is AWQ（活化感知權重量化）?

Activation-aware Weight Quantization——一種 4-bit 量化方法，依活化值大小保護關鍵權重，在相同位元寬下產生比樸素量化更高品質的壓縮模型。

Definition

AWQ（Activation-aware Weight Quantization，活化感知權重量化）是一種訓練後量化技術，能將模型權重壓縮至 4-bit 精度，同時保留遠多於樸素均勻量化的品質。其核心觀察是：並非所有權重對模型輸出都同等重要。作用於高量級活化值的權重對預測影響特別大，而作用於接近零之活化值的權重貢獻很小。AWQ 透過小型校正資料集的活化統計，識別出排序前約 1% 的「關鍵」權重通道，並對這些通道進行縮放以避免量化誤差傷害。

實務結果是：經 AWQ 量化的 4-bit 模型，在標準基準上通常能保留原始模型 95-99% 的準確度，而記憶體需求約為 FP16 原版的四分之一。這使 AWQ 成為以記憶體為瓶頸的推論部署熱門選擇——尤其適合在消費級 GPU 上服務大型模型，或在伺服器硬體上容納更多並行請求。

Why It Matters

量化往往決定了模型能否在您的硬體上運作。一個 70B 參數的模型在 FP16 下需要約 140 GB 記憶體；同一模型以 AWQ 4-bit 約只需 40 GB。AWQ 產出的 4-bit 量化模型品質優於 RTN（最近捨入）等較舊方法，並在許多模型家族上與 GPTQ 不相上下甚至更佳。在 vLLM 與 TensorRT-LLM 等推論框架中，AWQ 已與 GPTQ 並列為標準量化選項。

Key Takeaways

AWQ 是一種訓練後 4-bit 權重量化方法——無需微調
依活化值大小辨識並保護約 1% 的關鍵權重
通常可在約 4 倍記憶體縮減下保留 FP16 模型 95-99% 的準確度
獲 vLLM、TensorRT-LLM、llama.cpp 等主流推論框架支援
GPTQ 的常見替代方案——不同方法在不同模型家族上各擅勝場

How Ertas Helps

在 Ertas Studio 完成模型微調後，AWQ 是支援的匯出目標之一，與 GGUF（採用 Q4_K_M 等不同量化格式）及其他格式並列。AWQ、GPTQ 與 GGUF 之間的選擇取決於您的推論框架：vLLM 與 TensorRT-LLM 偏好 AWQ/GPTQ；Ollama 與 llama.cpp 則偏好 GGUF。Ertas Studio 的匯出管線三者皆可處理。