您已微調了一個模型。您已將其導出為 GGUF。現在您需要選擇一個量化級別——命名慣例看起來像密碼生成器的產物：Q4_K_M、Q5_K_S、Q6_K、Q8_0、IQ3_XS。

本指南消除這些困惑。以下是如何根據您的硬體、用例和品質要求選擇正確的量化級別。

量化做什麼（30 秒版）

神經網路權重是數字。全精度權重每個數字使用 16 或 32 位。量化將其降低到 8、5、4、3 甚至 2 位。

位數越少 = 文件越小 = 記憶體越少 = 推理越快。

權衡：精度越低意味著一些精確度損失。問題是損失多少，以及對您的任務是否重要。

有關 GGUF 格式本身的更深入探討，請參閱我們的 GGUF 格式解說。本指南專門關注在量化級別之間做出選擇。

量化階梯

以下是 7–8B 參數模型的每個常見 GGUF 量化級別，從最小到最大排序：

量化	位數	文件大小（8B 模型）	品質	最適合
IQ2_XXS	2.06	約 2.5 GB	差	僅極端記憶體限制
IQ3_XS	3.05	約 3.3 GB	尚可	限制嚴格的行動/IoT
Q3_K_M	3.44	約 3.6 GB	尚可	預算有限的邊緣設備
Q4_K_M	4.83	約 4.9 GB	良好	大多數部署的默認
Q4_K_S	4.58	約 4.6 GB	良好	當 Q4_K_M 稍微太大時
Q5_K_M	5.69	約 5.7 GB	非常好	品質重要的生產環境
Q5_K_S	5.54	約 5.5 GB	非常好	比 Q5_K_M 稍微節省空間
Q6_K	6.57	約 6.6 GB	優秀	高品質且大小合理
Q8_0	8.50	約 8.5 GB	接近無損	品質關鍵，記憶體充足
F16	16.0	約 16 GB	無損	僅參考/研究

粗體的三個級別——Q4_K_M、Q5_K_M 和 Q8_0——涵蓋 90% 的實際用例。從這裡開始。

理解 K-Quants

Q4_K_M 中的「K」代表 k-quant——一種在模型內使用混合精度的技術。k-quant 不是對每一層相同地量化，而是識別哪些權重對模型品質最重要，並以更高精度保留這些權重，同時更積極地壓縮不那麼關鍵的權重。

這就是為什麼 Q4_K_M 在文件大小相似的情況下明顯優於傳統 Q4_0。「M」後綴表示中等——品質和壓縮之間的平衡。「S」（小）更積極地壓縮；「L」（大）保留更多精度。

實際含義：始終使用 K-quant 變體。沒有理由再使用傳統格式（Q4_0、Q5_0）——K-quant 在相似大小下嚴格更好。

按硬體限制選擇

您硬體的可用記憶體是硬性限制。模型必須完全適合 VRAM（GPU）或 RAM（CPU 推理），並為 KV 快取留有餘地（隨上下文長度增長）。

經驗法則：在模型文件大小之外留 2–3 GB 餘量。

可用記憶體	最大量化	建議
4 GB	IQ3_XS 或更小	邊緣——考慮較小的模型
8 GB	Q4_K_M（短上下文）	7B 模型用 Q4_K_M
12 GB	Q5_K_M 或 Q6_K	最佳品質/大小用 Q5_K_M
16 GB	Q8_0	Q5_K_M（為更長上下文留餘地）
24 GB 以上	Q8_0 或 F16	Q8_0（接近無損，餘地充足）

按設備類型：

智慧型手機/IoT（2–4 GB AI 預算）： IQ3_XS 或 Q3_K_M。品質妥協是真實的。考慮使用較小的基礎模型（3B）在 Q4_K_M 而不是較大的模型在極端量化下——在 Q4 下調整良好的 3B 通常優於被壓縮的 8B 在 IQ2 下。

筆記型電腦/消費者 PC（8–16 GB）： Q4_K_M 是安全的默認值。如果您有 16 GB，延伸到 Q5_K_M 可以獲得明顯更好的推理和連貫性。

Apple Silicon Mac（16–128 GB 統一記憶體）： 統一記憶體架構特別適合本地 LLM 推理。M4 Pro（24 GB）可以輕鬆運行 8B 在 Q8_0。M4 Max（64–128 GB）可以在 Q4_K_M 下運行 700 億模型。詳情請參閱我們的 Apple Silicon 部署指南。

桌面 GPU（RTX 4090/5090——24 GB VRAM）： 8B 模型 Q8_0 有充足餘地。13–14B 模型 Q4_K_M。消費者 GPU 是認真的推理硬體。

專用推理硬體（Taalas HC1）： 使用燒入矽片的專有 3 位量化——與 GGUF 量化不同的方法。模型權重在電晶體中，LoRA 適配器權重單獨加載。

按用例選擇

硬體設置上限。您的用例決定您在範圍內的目標位置。

Q4_K_M：默認值

使用時機：

您需要品質和性能的良好平衡
您的任務定義明確（分類、提取、簡單問答）
您已為您的領域微調模型（微調補償量化損失）
記憶體是限制

品質影響： 複雜推理和細緻語言略有退化。對特定領域任務影響最小，其中模型已被微調。大多數用戶無法在例行任務上區分 Q4_K_M 輸出和全精度輸出。

Q5_K_M：生產甜蜜點

使用時機：

品質重要且有記憶體餘地
您正在部署到輸出品質直接影響用戶的生產環境
任務涉及推理、摘要或內容生成
您希望在 Q4_K_M 之上有安全邊際而不支付全額 Q8 成本

品質影響： 大多數任務幾乎察覺不到的退化。這是大多數「這和雲端 API 一樣好嗎？」比較開始回答「是」的級別。

Q8_0：品質關鍵

使用時機：

輸出品質不可妥協（醫療、法律、金融文件）
您有充足記憶體（24 GB 以上 VRAM 或 32 GB 以上 RAM）
您想最大限度地降低量化偽影的風險
您正在運行評估，需要與全精度性能的公平比較

品質影響： 接近無損。對於實際目的而言，與全精度效果相同。文件大小約為 Q4_K_M 的 2 倍，意味著兩倍的記憶體和稍慢的推理——但品質差異可以忽略不計。

量化和微調：相互作用

如果您正在微調模型（如果您在 Ertas 博客上閱讀這篇文章，您應該是這樣），量化以重要的方式與您的訓練管道互動。

以全精度微調，為部署量化

始終以全精度（BF16 或 FP16）進行微調。如果不小心，微調的小品質損失加上量化的小品質損失可能會疊加。從全精度乾淨開始，僅在導出時量化，可以給出最好的結果。

這是 Ertas 遵循的工作流程：訓練在雲端 GPU 上以全精度進行，然後您匯出到目標量化級別。

微調補償量化

這裡有一個反直覺的見解：在特定領域任務上，Q4_K_M 的微調模型通常優於 Q8_0 的通用模型。

為什麼？微調教導模型您用例的特定模式、術語和輸出格式。模型不需要從通用提示「弄清楚」您想要什麼——它知道，因為您訓練了它。這種聚焦的知識比通用推理更能抵抗量化。

對於特定任務的微調 8B 模型，Q4_K_M 通常已經足夠。微調做了重要的工作；量化只是交付機制。

LoRA 適配器精度

如果您在量化基礎模型上部署 LoRA 適配器，適配器權重通常以更高精度（FP16 或 BF16）存儲，而基礎模型被量化。這沒問題——適配器權重很小（50–200 MB），以更高精度保留它們可以保留微調品質，而基礎模型壓縮處理大部分記憶體節省。

快速決策流程圖

您的可用記憶體是多少？ → 這設置您的上限量化級別。
您是否微調了模型？ → 如果是，您可以使用更低的量化（Q4_K_M 通常足夠）。如果否，目標更高（Q5_K_M 或 Q8_0）。
任務是特定領域的還是通用的？ → 特定領域任務更能容忍量化。通用知識任務更敏感。
輸出品質是否直接面對客戶？ → 如果是，至少目標 Q5_K_M。如果是內部/批量處理，Q4_K_M 足夠。
您在比較模型嗎？ → 使用 Q8_0 或更高進行公平比較。量化偽影可能掩蓋模型變體之間的真實品質差異。

實際建議

對於大多數部署微調模型的團隊：

開發和測試： 使用 Q8_0 建立品質基準
生產（記憶體充足）： Q5_K_M——品質和效率的最佳平衡
生產（記憶體受限）： Q4_K_M——對微調領域模型足夠
邊緣/行動： 在滿足您精確度標準的最小模型上使用 Q4_K_M
評估和比較： 始終使用 Q8_0 或 F16——不要讓量化偽影影響您的判斷

從 Ertas 以您的目標量化級別導出您的微調模型。以全精度進行一次微調，根據您的硬體需求以任何量化方式部署。

參考資料：實用 GGUF 量化指南、選擇 GGUF 模型——K-Quants 和 I-Quants、Local AI Zone 量化指南。

量化級別詳解：Q4 vs Q5 vs Q8 及各自的適用時機

量化做什麼（30 秒版）

量化階梯

理解 K-Quants

按硬體限制選擇

經驗法則：在模型文件大小之外留 2–3 GB 餘量。

按設備類型：

按用例選擇

Q4_K_M：默認值

Q5_K_M：生產甜蜜點

Q8_0：品質關鍵

量化和微調：相互作用

以全精度微調，為部署量化

微調補償量化

LoRA 適配器精度

快速決策流程圖

實際建議

Ship AI that runs on your users' devices.

Keep reading

GGUF 說明：讓 AI 在任何地方運行的開放格式

Apple Silicon 微調：在 M 系列 Mac 上運行自訂模型

在本地運行 AI 模型：本地 LLM 推理完整指南