你微调了模型，导出为 GGUF。现在需要选择量化级别。本指南教你如何根据硬件、用例和质量要求选择正确的量化级别。

量化阶梯

量化	位	文件大小（8B 模型）	质量	最适合
IQ2_XXS	2.06	~2.5 GB	差	极端内存约束
Q3_K_M	3.44	~3.6 GB	一般	预算边缘设备
Q4_K_M	4.83	~4.9 GB	好	大多数部署的默认选择
Q5_K_M	5.69	~5.7 GB	很好	质量重要的生产环境
Q6_K	6.57	~6.6 GB	优秀	合理大小下的高质量
Q8_0	8.50	~8.5 GB	近乎无损	质量关键，内存充足

Q4_K_M、Q5_K_M 和 Q8_0 覆盖 90% 的实际用例。

按硬件选择

Q4_K_M：任务定义明确、模型已为领域微调、内存受限。

Q5_K_M：生产甜蜜点。质量重要且有内存空间时。"跟云 API 一样好吗「的比较开始回答」是"的级别。

Q8_0：质量关键。输出质量不可妥协时（医疗、法律、金融文档）。

**微调后的模型在 Q4_K_M 上的领域专属任务通常优于通用模型在 Q8_0 上的表现。**微调教会模型特定模式，这些知识对量化更有韧性。