What is GPTQ（廣義訓練後量化）?

Generalized Post-Training Quantization——一種 4-bit 權重量化方法，使用校正資料集的二階資訊逐層最小化量化誤差，產出比樸素量化更高品質的壓縮模型。

Definition

GPTQ（Generalized Post-Training Quantization，廣義訓練後量化）是一種訓練後量化方法，可將模型權重壓縮至 4-bit 精度，同時保留遠多於樸素均勻量化的品質。此技術逐層運作：對於每個權重矩陣，GPTQ 使用小型校正資料集的資訊計算二階統計量，分析不同權重的量化誤差如何在該層內傳播，並選擇能最小化整層誤差（而非單一權重誤差）的量化值。

實務結果是：經 GPTQ 量化的 4-bit 模型，在標準基準上通常能保留 FP16 原版 95-99% 的準確度，記憶體用量約縮減為四分之一。GPTQ 在各推論框架上獲廣泛支援——vLLM、TensorRT-LLM、ExLlamaV2 等皆可直接使用 GPTQ 量化模型。它是 AWQ 的常見替代方案，相對表現會因模型家族而有所不同。

Why It Matters

量化往往決定了模型能否在您的硬體上運作。GPTQ 產出高品質、可廣泛部署的 4-bit 量化模型——格式在各推論框架上獲得良好支援，且 Hugging Face 上有大量社群提供的熱門開源權重模型 GPTQ 版本。對於在消費級 GPU 上運行推論、或希望在伺服器硬體上容納更多並行請求的團隊而言，GPTQ 是標配工具。

Key Takeaways

GPTQ 是一種訓練後 4-bit 權重量化方法——無需微調
使用校正資料的二階統計量最小化各層的量化誤差
通常可在約 4 倍記憶體縮減下保留 FP16 模型 95-99% 的準確度
獲 vLLM、TensorRT-LLM、ExLlamaV2 等推論框架廣泛支援
AWQ 的常見替代方案——相對品質依模型家族而異

How Ertas Helps

在 Ertas Studio 完成模型微調後，GPTQ 是可選的匯出量化選項之一，與 GGUF 和 AWQ 並列。三者間的選擇取決於您的推論框架：vLLM 與 TensorRT-LLM 接受 GPTQ 與 AWQ；Ollama 與 llama.cpp 偏好 GGUF。Ertas Studio 的匯出管線三種格式皆可處理，並會根據您指定的部署目標套用合理預設。