GGUF vs SafeTensors
比較 2026 年的 GGUF 和 SafeTensors 模型格式。了解何時使用每種格式進行模型分發、推理和部署。
Overview
GGUF 和 SafeTensors 服務於 LLM 生態系統但解決不同的需求。GGUF(GGML 統一格式)為推理設計—— 專門用於在消費級硬體上使用 llama.cpp、Ollama 或 LM Studio 高效運行模型。它支援內建量化(從 Q2 到 Q8 及各種 k-quant 變體),將所有模型中繼資料包含在單個檔案中,並針對 CPU 和混合 CPU/GPU 推理進行了最佳化。當人們談論在筆電上本地運行模型時,他們幾乎總是在談論 GGUF 檔案。
SafeTensors 為模型儲存和分發設計。由 HuggingFace 創建,作為 Python pickle 格式(載入時可以執行任意程式碼)的安全替代品,SafeTensors 提供記憶體映射載入、零拷貝反序列化和安全保證。它是 HuggingFace Hub 上的標準格式,幾乎所有訓練框架都用它來儲存和載入模型權重。SafeTensors 以原始訓練精度儲存權重——通常是 float16 或 bfloat16。
這些格式是互補的而非競爭的。SafeTensors 是模型在訓練期間和在 Hub 上存在的地方。GGUF 是當您想要在消費級硬體上高效運行模型時模型存在的地方。典型的工作流程是:訓練模型(權重以 SafeTensors 格式),轉換為帶量化的 GGUF,並部署 GGUF 進行本地推理。了解這兩種格式及其角色有助於您導航模型分發和部署生態系統。
Feature Comparison
| Feature | GGUF | SafeTensors |
|---|---|---|
| 主要用途 | 高效推理 | 安全儲存和載入 |
| 內建量化 | 廣泛(Q2-Q8、k-quants) | 否(完整精度) |
| 單檔案分發 | 通常多檔案(分片) | |
| CPU 推理最佳化 | ||
| 記憶體映射載入 | ||
| 安全性 | 安全(無程式碼執行) | 安全(無程式碼執行) |
| 包含中繼資料 | 完整(分詞器、配置) | 僅張量資料 |
| HuggingFace Hub 標準 | 常見用於推理 | 預設格式 |
| 訓練框架支援 | 不用於訓練 | 通用 |
| 檔案大小(7B 模型) | 2-7 GB(量 化) | 約 14 GB(fp16) |
Strengths
GGUF
- 廣泛的內建量化支援將模型大小減少 2-7 倍,同時保持可用品質
- 單檔案分發包含所有模型中繼資料、分詞器配置和權重——一個檔案就是您需要的一切
- 針對消費級硬體上的 CPU 和混合 CPU/GPU 推理進行最佳化——筆電、桌上型電腦、邊緣裝置
- 最受歡迎本地推理工具的原生格式:llama.cpp、Ollama、LM Studio 和 GPT4All
- 獨立自足的格 式——不需要外部配置檔、分詞器檔案或 Python 依賴即可運行
- 活躍開發中,定期添加新的量化方法和架構支援
SafeTensors
- 設計上安全——無法執行任意程式碼,不像之前的基於 pickle 的模型格式
- 零拷貝反序列化實現極快的模型載入,無需在記憶體中複製資料
- 通用訓練框架支援——PyTorch、HuggingFace Transformers 和所有主要程式庫原生支援
- HuggingFace Hub 上的標準格式——開源生態系統中模型分發的預設
- 以完整精度(fp16/bf16)儲存權重,為微調和研究保持最大模型品質
- 對超大模型的高效分片——跨多個檔案分割,具有快速平行載入
Which Should You Choose?
GGUF 是使用 Ollama、LM Studio 和 llama.cpp 進行本地推理的標準格式。其量化選項讓您在有限記憶體中容納大型模型。
SafeTensors 是訓練框架的標準。所有主要程式庫預設以 SafeTensors 格式儲存和載入權重。
GGUF 在單個檔案中包含所有中繼資料。SafeTensors 模型通常需要額外的配置檔、分詞器檔案,有時還有分片的權重檔案。
SafeTensors 以完整訓練精度儲存權重。GGUF 的量化以犧牲一些品質換取更小的檔案大小和更快的推理。
GGUF 的量化選項(Q4、Q5 等)大幅減少模型大小和記憶體需求,使邊緣硬體上的部署變得可行。
Verdict
GGUF 和 SafeTensors 不是競爭格式——它們服務於模型生命週期的不同階段。SafeTensors 是模型訓練、儲存和在 HuggingFace Hub 上分發的標準。它提供安全性、快速載入和完整精度權重。GGUF 是本地推理的標準,提供針對消費級硬體最佳化的量化模型。
大多數從業者在工作流程中使用兩種格式。模型以 SafeTensors 格式訓練和儲存,然後轉換為 GGUF(使用適當的量化)進行部署。了解這個管道——並為您的品質和記憶體需求選擇正確的量化等級——比在兩種格式之間選擇更重要。它們是模型部署拼圖中的互補部分。
How Ertas Fits In
Ertas Studio 以 GGUF 格式匯出微調模型,這是使用 Ollama 和 LM Studio 進行本地部署的標準。一鍵 GGUF 匯出自動處理從訓練權重到量化 GGUF 的轉換,使用者不需要手動運行轉換腳本或選擇量化參數。這使從微調到本地推理的路徑變得無縫。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.