Back to blog
    量化級別詳解:Q4 vs Q5 vs Q8 及各自的適用時機
    quantizationgguflocal-inferencedeploymenthardwaremodel-optimization

    量化級別詳解:Q4 vs Q5 vs Q8 及各自的適用時機

    本地 AI 部署選擇 GGUF 量化級別的實用指南。涵蓋 Q4_K_M、Q5_K_M、Q8_0,以及硬體限制、微調和用例要求如何決定您模型的正確量化方式。

    EErtas Team··Updated

    您已微調了一個模型。您已將其導出為 GGUF。現在您需要選擇一個量化級別——命名慣例看起來像密碼生成器的產物:Q4_K_M、Q5_K_S、Q6_K、Q8_0、IQ3_XS。

    本指南消除這些困惑。以下是如何根據您的硬體、用例和品質要求選擇正確的量化級別。

    量化做什麼(30 秒版)

    神經網路權重是數字。全精度權重每個數字使用 16 或 32 位。量化將其降低到 8、5、4、3 甚至 2 位。

    位數越少 = 文件越小 = 記憶體越少 = 推理越快。

    權衡:精度越低意味著一些精確度損失。問題是損失多少,以及對您的任務是否重要。

    有關 GGUF 格式本身的更深入探討,請參閱我們的 GGUF 格式解說。本指南專門關注在量化級別之間做出選擇。

    量化階梯

    以下是 7–8B 參數模型的每個常見 GGUF 量化級別,從最小到最大排序:

    量化位數文件大小(8B 模型)品質最適合
    IQ2_XXS2.06約 2.5 GB僅極端記憶體限制
    IQ3_XS3.05約 3.3 GB尚可限制嚴格的行動/IoT
    Q3_K_M3.44約 3.6 GB尚可預算有限的邊緣設備
    Q4_K_M4.83約 4.9 GB良好大多數部署的默認
    Q4_K_S4.58約 4.6 GB良好當 Q4_K_M 稍微太大時
    Q5_K_M5.69約 5.7 GB非常好品質重要的生產環境
    Q5_K_S5.54約 5.5 GB非常好比 Q5_K_M 稍微節省空間
    Q6_K6.57約 6.6 GB優秀高品質且大小合理
    Q8_08.50約 8.5 GB接近無損品質關鍵,記憶體充足
    F1616.0約 16 GB無損僅參考/研究

    粗體的三個級別——Q4_K_M、Q5_K_M 和 Q8_0——涵蓋 90% 的實際用例。從這裡開始。

    理解 K-Quants

    Q4_K_M 中的「K」代表 k-quant——一種在模型內使用混合精度的技術。k-quant 不是對每一層相同地量化,而是識別哪些權重對模型品質最重要,並以更高精度保留這些權重,同時更積極地壓縮不那麼關鍵的權重。

    這就是為什麼 Q4_K_M 在文件大小相似的情況下明顯優於傳統 Q4_0。「M」後綴表示中等——品質和壓縮之間的平衡。「S」(小)更積極地壓縮;「L」(大)保留更多精度。

    實際含義:始終使用 K-quant 變體。沒有理由再使用傳統格式(Q4_0、Q5_0)——K-quant 在相似大小下嚴格更好。

    按硬體限制選擇

    您硬體的可用記憶體是硬性限制。模型必須完全適合 VRAM(GPU)或 RAM(CPU 推理),並為 KV 快取留有餘地(隨上下文長度增長)。

    經驗法則:在模型文件大小之外留 2–3 GB 餘量。

    可用記憶體最大量化建議
    4 GBIQ3_XS 或更小邊緣——考慮較小的模型
    8 GBQ4_K_M(短上下文)7B 模型用 Q4_K_M
    12 GBQ5_K_M 或 Q6_K最佳品質/大小用 Q5_K_M
    16 GBQ8_0Q5_K_M(為更長上下文留餘地)
    24 GB 以上Q8_0 或 F16Q8_0(接近無損,餘地充足)

    按設備類型:

    智慧型手機/IoT(2–4 GB AI 預算): IQ3_XS 或 Q3_K_M。品質妥協是真實的。考慮使用較小的基礎模型(3B)在 Q4_K_M 而不是較大的模型在極端量化下——在 Q4 下調整良好的 3B 通常優於被壓縮的 8B 在 IQ2 下。

    筆記型電腦/消費者 PC(8–16 GB): Q4_K_M 是安全的默認值。如果您有 16 GB,延伸到 Q5_K_M 可以獲得明顯更好的推理和連貫性。

    Apple Silicon Mac(16–128 GB 統一記憶體): 統一記憶體架構特別適合本地 LLM 推理。M4 Pro(24 GB)可以輕鬆運行 8B 在 Q8_0。M4 Max(64–128 GB)可以在 Q4_K_M 下運行 700 億模型。詳情請參閱我們的 Apple Silicon 部署指南

    桌面 GPU(RTX 4090/5090——24 GB VRAM): 8B 模型 Q8_0 有充足餘地。13–14B 模型 Q4_K_M。消費者 GPU 是認真的推理硬體

    專用推理硬體(Taalas HC1): 使用燒入矽片的專有 3 位量化——與 GGUF 量化不同的方法。模型權重在電晶體中,LoRA 適配器權重單獨加載。

    按用例選擇

    硬體設置上限。您的用例決定您在範圍內的目標位置。

    Q4_K_M:默認值

    使用時機:

    • 您需要品質和性能的良好平衡
    • 您的任務定義明確(分類、提取、簡單問答)
    • 您已為您的領域微調模型(微調補償量化損失)
    • 記憶體是限制

    品質影響: 複雜推理和細緻語言略有退化。對特定領域任務影響最小,其中模型已被微調。大多數用戶無法在例行任務上區分 Q4_K_M 輸出和全精度輸出。

    Q5_K_M:生產甜蜜點

    使用時機:

    • 品質重要且有記憶體餘地
    • 您正在部署到輸出品質直接影響用戶的生產環境
    • 任務涉及推理、摘要或內容生成
    • 您希望在 Q4_K_M 之上有安全邊際而不支付全額 Q8 成本

    品質影響: 大多數任務幾乎察覺不到的退化。這是大多數「這和雲端 API 一樣好嗎?」比較開始回答「是」的級別。

    Q8_0:品質關鍵

    使用時機:

    • 輸出品質不可妥協(醫療、法律、金融文件)
    • 您有充足記憶體(24 GB 以上 VRAM 或 32 GB 以上 RAM)
    • 您想最大限度地降低量化偽影的風險
    • 您正在運行評估,需要與全精度性能的公平比較

    品質影響: 接近無損。對於實際目的而言,與全精度效果相同。文件大小約為 Q4_K_M 的 2 倍,意味著兩倍的記憶體和稍慢的推理——但品質差異可以忽略不計。

    量化和微調:相互作用

    如果您正在微調模型(如果您在 Ertas 博客上閱讀這篇文章,您應該是這樣),量化以重要的方式與您的訓練管道互動。

    以全精度微調,為部署量化

    始終以全精度(BF16 或 FP16)進行微調。如果不小心,微調的小品質損失加上量化的小品質損失可能會疊加。從全精度乾淨開始,僅在導出時量化,可以給出最好的結果。

    這是 Ertas 遵循的工作流程:訓練在雲端 GPU 上以全精度進行,然後您匯出到目標量化級別。

    微調補償量化

    這裡有一個反直覺的見解:在特定領域任務上,Q4_K_M 的微調模型通常優於 Q8_0 的通用模型

    為什麼?微調教導模型您用例的特定模式、術語和輸出格式。模型不需要從通用提示「弄清楚」您想要什麼——它知道,因為您訓練了它。這種聚焦的知識比通用推理更能抵抗量化。

    對於特定任務的微調 8B 模型,Q4_K_M 通常已經足夠。微調做了重要的工作;量化只是交付機制。

    LoRA 適配器精度

    如果您在量化基礎模型上部署 LoRA 適配器,適配器權重通常以更高精度(FP16 或 BF16)存儲,而基礎模型被量化。這沒問題——適配器權重很小(50–200 MB),以更高精度保留它們可以保留微調品質,而基礎模型壓縮處理大部分記憶體節省。

    快速決策流程圖

    1. 您的可用記憶體是多少? → 這設置您的上限量化級別。
    2. 您是否微調了模型? → 如果是,您可以使用更低的量化(Q4_K_M 通常足夠)。如果否,目標更高(Q5_K_M 或 Q8_0)。
    3. 任務是特定領域的還是通用的? → 特定領域任務更能容忍量化。通用知識任務更敏感。
    4. 輸出品質是否直接面對客戶? → 如果是,至少目標 Q5_K_M。如果是內部/批量處理,Q4_K_M 足夠。
    5. 您在比較模型嗎? → 使用 Q8_0 或更高進行公平比較。量化偽影可能掩蓋模型變體之間的真實品質差異。

    實際建議

    對於大多數部署微調模型的團隊:

    1. 開發和測試: 使用 Q8_0 建立品質基準
    2. 生產(記憶體充足): Q5_K_M——品質和效率的最佳平衡
    3. 生產(記憶體受限): Q4_K_M——對微調領域模型足夠
    4. 邊緣/行動: 在滿足您精確度標準的最小模型上使用 Q4_K_M
    5. 評估和比較: 始終使用 Q8_0 或 F16——不要讓量化偽影影響您的判斷

    Ertas 以您的目標量化級別導出您的微調模型。以全精度進行一次微調,根據您的硬體需求以任何量化方式部署。


    參考資料:實用 GGUF 量化指南選擇 GGUF 模型——K-Quants 和 I-QuantsLocal AI Zone 量化指南

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading