GGUF 解析：让 AI 在任何地方运行的开放格式

GGUF（GGML Universal Format）是一种单文件格式，用于存储量化的大语言模型权重，专为消费级硬件上的高效本地推理而设计。它是 llama.cpp、Ollama 和 LM Studio 使用的标准文件格式。

根据 Hugging Face 的数据，截至 2026 年初，平台上托管了超过 50,000 个 GGUF 模型文件。GGUF 的 4-bit 量化 (Q4_K_M) 将模型压缩约 75%——14GB 模型变为约 4GB——基准测试上仅有 4-5% 的质量下降。

GGUF 是什么

GGUF 由 Georgi Gerganov（名字中的"GG"）创建，他是 llama.cpp 的开发者。

关键特性：

单一文件。 整个模型——权重、配置、分词器——在一个文件中。

自描述。 GGUF 文件包含关于模型架构、训练参数和量化配置的元数据。

内存映射。 支持 mmap，让操作系统只加载推理所需的部分。

量化优先设计。 GGUF 围绕量化模型构建。

7B 参数模型在完整 16-bit (FP16) 精度下占约 14GB 内存。量化通过降低精度来压缩模型权重，使 7B 模型可以舒适地放入 8GB VRAM。

典型文件名：Meta-Llama-3.2-7B-Instruct-Q4_K_M.gguf

量化	每权重比特	7B 模型大小	相对 F16 质量
F16	16	约 14 GB	基线
Q8_0	8	约 7 GB	约 99%
Q5_K_M	5	约 4.8 GB	约 97%
Q4_K_M	4	约 4.1 GB	约 95-96%
Q3_K_M	3	约 3.1 GB	约 90-93%

实用建议： Q4_K_M 是最常用的量化级别，平衡了大小减少和最小质量损失。

格式	使用者	说明
GGUF	llama.cpp, Ollama, LM Studio	消费级本地推理标准
Safetensors	Hugging Face 生态系统	模型仓库标准
ONNX	移动 NPU、原生 Windows、浏览器	通过 ONNX Runtime 跨平台（CoreML/QNN、DirectML、ORT Web）
TensorRT	NVIDIA GPU 推理	高吞吐服务器推理

使用 LoRA fine-tune 时，你产出一个 LoRA 适配器。部署时，将适配器合并回基础模型并导出为 GGUF。Ertas 自动处理此导出管道。

GGUF（GGML Universal Format）是用于存储大语言模型权重的文件格式，将模型权重、配置和分词器数据打包到一个自描述文件中，专为本地推理优化。

大多数用例推荐 Q4_K_M 作为起点。如果有额外的 VRAM 或 RAM，Q5_K_M 或 Q6_K 在精度敏感任务上提供更好质量。

大多数流行的开放权重语言模型可以使用 llama.cpp 包含的转换脚本转换为 GGUF。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.