GGUF vs SafeTensors
2026 年 GGUF 与 SafeTensors 模型格式对比。了解何时使用每种格式用于模型分发、推理和部署。
Overview
GGUF 和 SafeTensors 都服务于 LLM 生态系统但满足不同需求。GGUF(GGML 统一格式)为推理设计——专门用于在消费级硬件上使 用 llama.cpp、Ollama 或 LM Studio 高效运行模型。它支持内置量化(从 Q2 到 Q8 及各种 k-quant 变体),将所有模型元数据包含在单个文件中,并针对 CPU 和混合 CPU/GPU 推理优化。当人们谈论在笔记本电脑上本地运行模型时,他们几乎总是在谈论 GGUF 文件。
SafeTensors 为模型存储和分发设计。由 HuggingFace 创建,作为 Python pickle 格式(加载时可执行任意代码)的安全替代方案,SafeTensors 提供内存映射加载、零拷贝反序列化和安全保证。它是 HuggingFace Hub 上的标准格式,几乎所有训练框架都使用它保存和加载模型权重。SafeTensors 以原始训练精度存储权重——通常是 float16 或 bfloat16。
这些格式互补而非竞争。SafeTensors 是模型在训练期间和 Hub 上存在的地方。GGUF 是当您想在消费级硬件上高效运行模型时存在的地方。典型工作流是:训练模型(权重为 SafeTensors),转换为带量化的 GGUF,部署 GGUF 用于本地推理。
Feature Comparison
| Feature | GGUF | SafeTensors |
|---|---|---|
| 主要用途 | 高效推理 | 安全存储和加载 |
| 内置量化 | 广泛(Q2-Q8,k-quants) | 无(全精度) |
| 单文件分发 | 通常多文件(分片) | |
| CPU 推理优化 | ||
| 内存映射加载 | ||
| 安全性 | 安全(无代码执行) | 安全(无代码执行) |
| 包含元数据 | 完整(分词器、配置) | 仅张量数据 |
| HuggingFace Hub 标准 | 推理常用 | 默认格式 |
| 训练框架支持 | 不用于训练 | 通用 |
| 文件大小(7B 模型) | 2-7 GB(量化后) | 约 14 GB(fp16) |
Strengths
GGUF
- 广泛的内置量化支持将模型大小减少 2-7 倍,同时保持可用质量
- 单文件分发包含所有模型元数据、分词器配置和权重——一个文件就是全部
- 针对消费级硬件上的 CPU 和混合 CPU/GPU 推理优化——笔记本电脑、台式机、边缘设备
- 最流行本地推理工具的原生格式:llama.cpp、Ollama、LM Studio 和 GPT4All
- 自包含格式——运行模型无需外部配置文件、分词器文件或 Python 依赖
- 活跃开发,定期添加新的量化方法和架构支持
SafeTensors
- 安全设计——不能像其前身基于 pickle 的模型格式那样执行任意代码
- 零拷贝反序列化实现极快的模型加载,无需在内存中复制数据
- 通用训练框架支持——PyTorch、HuggingFace Transformers 和所有主要库原生支持
- HuggingFace Hub 上的标准格式——开源生态系统中模型分发的默认选择
- 存储全精度权重(fp16/bf16),为微调和研究保留最大模型质量
- 为超大模型提供高效分片——跨多文件分割并支持快速并行加载
Which Should You Choose?
GGUF 是 Ollama、LM Studio 和 llama.cpp 本地推理的标准格式。其量化选项让您可以在有限内存中运行大型模型。
SafeTensors 是训练框架的标准。所有主要库默认以 SafeTensors 格式保存和加载权重。
GGUF 将所有元数据包含在单个文件中。SafeTensors 模型通常需要额外的配置文件、分词器文件,有时还有分片的权重文件。
SafeTensors 以完整训练精度存储权重。GGUF 的量化以牺牲一些质量换取更小的文件大小和更快的推理。
GGUF 的量化选项(Q4、Q5 等)大幅减少模型大小和内存需求,使在边缘硬件上的部署成为可能。
Verdict
GGUF 和 SafeTensors 不是竞争格式——它们服务于模型生命周期的不同阶段。SafeTensors 是模型训练、存储和在 HuggingFace Hub 上分发的标准。它提供安全性、快速加载和全精度权重。GGUF 是本地推理的标准,提供为消费级硬件优化的量化模型。
大多数从业者在工作流中使用两种格式。模型以 SafeTensors 训练和存储,然后转换为 GGUF(带适当量化)用于部署。理解这个流程——并为您的质量和内存需求选择正确的量化级别—— 比在格式之间选择更重要。它们是模型部署拼图的互补部分。
How Ertas Fits In
Ertas Studio 以 GGUF 格式导出微调模型,这是使用 Ollama 和 LM Studio 本地部署的标准。一键 GGUF 导出自动处理从训练权重到量化 GGUF 的转换,用户无需运行转换脚本或手动选择量化参数。这使从微调到本地推理的路径变得无缝。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.