
量化級別詳解:Q4 vs Q5 vs Q8 及各自的適用時機
本地 AI 部署選擇 GGUF 量化級別的實用指南。涵蓋 Q4_K_M、Q5_K_M、Q8_0,以及硬體限制、微調和用例要求如何決定您模型的正確量化方式。
您已微調了一個模型。您已將其導出為 GGUF。現在您需要選擇一個量化級別——命名慣例看起來像密碼生成器的產物:Q4_K_M、Q5_K_S、Q6_K、Q8_0、IQ3_XS。
本指南消除這些困惑。以下是如何根據您的硬體、用例和品質要求選擇正確的量化級別。
量化做什麼(30 秒版)
神經網路權重是數字。全精度權重每個數字使用 16 或 32 位。量化將其降低到 8、5、4、3 甚至 2 位。
位數越少 = 文件越小 = 記憶體越少 = 推理越快。
權衡:精度越低意味著一些精確度損失。問題是損失多少,以及對您的任務是否重要。
有關 GGUF 格式本身的更深入探討,請參閱我們的 GGUF 格式解說。本指南專門關注在量化級別之間做出選擇。
量化階梯
以下是 7–8B 參數模型的每個常見 GGUF 量化級別,從最小到最大排序:
| 量化 | 位數 | 文件大小(8B 模型) | 品質 | 最適合 |
|---|---|---|---|---|
| IQ2_XXS | 2.06 | 約 2.5 GB | 差 | 僅極端記憶體限制 |
| IQ3_XS | 3.05 | 約 3.3 GB | 尚可 | 限制嚴格的行動/IoT |
| Q3_K_M | 3.44 | 約 3.6 GB | 尚可 | 預算有限的邊緣設備 |
| Q4_K_M | 4.83 | 約 4.9 GB | 良好 | 大多數部署的默認 |
| Q4_K_S | 4.58 | 約 4.6 GB | 良好 | 當 Q4_K_M 稍微太大時 |
| Q5_K_M | 5.69 | 約 5.7 GB | 非常好 | 品質重要的生產環境 |
| Q5_K_S | 5.54 | 約 5.5 GB | 非常好 | 比 Q5_K_M 稍微節省空間 |
| Q6_K | 6.57 | 約 6.6 GB | 優秀 | 高品質且大小合理 |
| Q8_0 | 8.50 | 約 8.5 GB | 接近無損 | 品質關鍵,記憶體充足 |
| F16 | 16.0 | 約 16 GB | 無損 | 僅參考/研究 |
粗體的三個級別——Q4_K_M、Q5_K_M 和 Q8_0——涵蓋 90% 的實際用例。從這裡開始。
理解 K-Quants
Q4_K_M 中的「K」代表 k-quant——一種在模型內使用混合精度的技術。k-quant 不是對每一層相同地量化,而是識別哪些權重對模型品質最重要,並以更高精度保留這些權重,同時更積極地壓縮不那麼關鍵的權重。
這就是為什麼 Q4_K_M 在文件大小相似的情況下明顯優於傳統 Q4_0。「M」後綴表示中等——品質和壓縮之間的平衡。「S」(小)更積極地壓縮;「L」(大)保留更多精度。
實 際含義:始終使用 K-quant 變體。沒有理由再使用傳統格式(Q4_0、Q5_0)——K-quant 在相似大小下嚴格更好。
按硬體限制選擇
您硬體的可用記憶體是硬性限制。模型必須完全適合 VRAM(GPU)或 RAM(CPU 推理),並為 KV 快取留有餘地(隨上下文長度增長)。
經驗法則:在模型文件大小之外留 2–3 GB 餘量。
| 可用記憶體 | 最大量化 | 建議 |
|---|---|---|
| 4 GB | IQ3_XS 或更小 | 邊緣——考慮較小的模型 |
| 8 GB | Q4_K_M(短上下文) | 7B 模型用 Q4_K_M |
| 12 GB | Q5_K_M 或 Q6_K | 最佳品質/大小用 Q5_K_M |
| 16 GB | Q8_0 | Q5_K_M(為更長上下文留餘地) |
| 24 GB 以上 | Q8_0 或 F16 | Q8_0(接近無損,餘地充足) |
按設備類型:
智慧型手機/IoT(2–4 GB AI 預算): IQ3_XS 或 Q3_K_M。品質妥協是真實的。考慮使用較小的基礎模型(3B)在 Q4_K_M 而不是較大的模型在極端量化下——在 Q4 下調整良好的 3B 通常優於被壓縮的 8B 在 IQ2 下。
筆記型電腦/消費者 PC(8–16 GB): Q4_K_M 是安全的默認值。如果您有 16 GB,延伸到 Q5_K_M 可以獲得明顯更好的推理和連貫性。
Apple Silicon Mac(16–128 GB 統一記憶體): 統一記憶體架構特別適合本地 LLM 推理。M4 Pro(24 GB)可以輕鬆運行 8B 在 Q8_0。M4 Max(64–128 GB)可以在 Q4_K_M 下運行 700 億模型。詳情請參閱我們的 Apple Silicon 部署指南。
桌面 GPU(RTX 4090/5090——24 GB VRAM): 8B 模型 Q8_0 有充足餘地。13–14B 模型 Q4_K_M。消費者 GPU 是認真的推理硬體。
專用推理硬體(Taalas HC1): 使用燒入矽片的專有 3 位量化——與 GGUF 量化不同的方法。模型權重在電晶體中,LoRA 適配器權重單獨加載。
按用例選擇
硬體設置上限。您的用例決定您在範圍內的目標位置。
Q4_K_M:默認值
使用時機:
- 您需要品質和性能的良好平衡
- 您的任務定義明確(分類、提取、簡單問答)
- 您已為您的領域微調模型(微調補償量化損失)
- 記憶體是限制
品質影響: 複雜推理和細緻語言略有退化。對特定領域任務影響最小,其中模型已被微調。大多數用戶無法在例行任務上區分 Q4_K_M 輸出和全精度輸出。
Q5_K_M:生產甜蜜點
使用時機:
- 品質重要且有記憶體餘地
- 您正在部署到輸出品質直接影響用戶的生產環境
- 任務涉及推理、摘要或內容生成
- 您希望在 Q4_K_M 之上有安全邊際而不支付全額 Q8 成本
品質影響: 大多數任務幾乎察覺不到的退化。這是大多數「這和雲端 API 一樣好嗎?」比較開始回答「是」的級別。
Q8_0:品質關鍵
使用時機:
- 輸出品質不可妥協(醫療、法律、金融文件)
- 您有充足記憶體(24 GB 以上 VRAM 或 32 GB 以上 RAM)
- 您想最大限度地降低量化偽影的風險
- 您正在運行評估,需要與全精度性能的公平比較
品質影響: 接近無損。對於實際目的而言,與全精度效果相同。文件大小約為 Q4_K_M 的 2 倍,意味著兩倍的記憶體和稍慢的推理——但品質差異可以忽略不計。
量化和微調:相互作用
如果您正在微調模型(如果您在 Ertas 博客上閱讀這篇文章,您應該是這樣),量化以重要的方式與您的訓練管道互動。
以全精度微調,為部署量化
始終以全精度(BF16 或 FP16)進行微調。如果不小心 ,微調的小品質損失加上量化的小品質損失可能會疊加。從全精度乾淨開始,僅在導出時量化,可以給出最好的結果。
這是 Ertas 遵循的工作流程:訓練在雲端 GPU 上以全精度進行,然後您匯出到目標量化級別。
微調補償量化
這裡有一個反直覺的見解:在特定領域任務上,Q4_K_M 的微調模型通常優於 Q8_0 的通用模型。
為什麼?微調教導模型您用例的特定模式、術語和輸出格式。模型不需要從通用提示「弄清楚」您想要什麼——它知道,因為您訓練了它。這種聚焦的知識比通用推理更能抵抗量化。
對於特定任務的微調 8B 模型,Q4_K_M 通常已經足夠。微調做了重要的工作;量化只是交付機制。
LoRA 適配器精度
如果您在量化基礎模型上部署 LoRA 適配器,適配器權重通常以更高精度(FP16 或 BF16)存儲,而基礎模型被量化。這沒問題——適配器權重很小(50–200 MB),以更高精度保留它們可以保留微調品質,而基礎模型壓縮處理大部分記憶體節省。
快速決策流程圖
- 您的可用記憶體是多少? → 這設置您的上限量化級別。
- 您是否微調了模型? → 如果是,您可以使用更低的量化(Q4_K_M 通常足夠)。如果否,目標更高(Q5_K_M 或 Q8_0)。
- 任務是特定領域的還是通用的? → 特定領域任務更能容忍量化。通用知識任務更敏感。
- 輸出品質是否直接面對客戶? → 如果是,至少目標 Q5_K_M。如果是內部/批量處理,Q4_K_M 足夠。
- 您在比較模型嗎? → 使用 Q8_0 或更高進行公平比較。量化偽影可能掩蓋模型變體之間的真實品質差異。
實際建議
對於大多數部署微調模型的團隊:
- 開發和測試: 使用 Q8_0 建立品質基準
- 生產(記憶體充足): Q5_K_M——品質和效率的最佳平衡
- 生產(記憶體受限): Q4_K_M——對微調領域模型足夠
- 邊緣/行動: 在滿足您精確度標準的最小模型上使用 Q4_K_M
- 評估和比較: 始終使用 Q8_0 或 F16——不要讓量化偽影影響您的判斷
從 Ertas 以您的目標量化級別導出您的微調模型。以全精度進行一次微調,根據您的硬體需求以任何量化方式部署。
參考資料:實用 GGUF 量化指南、選擇 GGUF 模型——K-Quants 和 I-Quants、Local AI Zone 量化指南。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

GGUF Explained: The Open Format That Runs AI Anywhere
GGUF is the file format that made running AI models on consumer hardware practical. Here's what it is, how it works, and why every AI builder should understand it.
Fine-Tuning for Apple Silicon: Running Custom Models on M-Series Macs
A practical guide to deploying fine-tuned AI models on Apple Silicon Macs. Covers M4 hardware capabilities, unified memory advantages, Ollama and MLX setup, quantization choices, and Core ML LoRA adapter support.

Running AI Models Locally: The Complete Guide to Local LLM Inference
Everything you need to know about running large language models on your own hardware — from hardware requirements and model formats to tools like Ollama, LM Studio, and llama.cpp.