vs

    GGUF vs SafeTensors

    GGUF vs SafeTensors(2026):GGUF 用於 llama.cpp 的量化本地推理;SafeTensors 用於訓練、分發及與 vLLM 的直接 GPU 服務。何時使用各個格式。

    Overview

    GGUF 和 SafeTensors 服務於 LLM 生態系統但解決不同的需求。GGUF(GGML 統一格式)為推理設計——專門用於在消費級硬體上使用 llama.cpp、Ollama 或 LM Studio 高效運行模型。它支援內建量化(從 Q2 到 Q8 及各種 k-quant 變體),將所有模型中繼資料包含在單個檔案中,並針對 CPU 和混合 CPU/GPU 推理進行了最佳化。當人們談論在筆電上本地運行模型時,他們幾乎總是在談論 GGUF 檔案。

    SafeTensors 為安全儲存、分發和服務而設計。由 HuggingFace 創建,作為 Python pickle 格式(載入時可以執行任意程式碼)的安全替代品,SafeTensors 提供記憶體映射載入、零拷貝反序列化和安全保證。它是 HuggingFace Hub 上的標準格式,幾乎所有訓練框架都使用它。它也是 GPU 推理伺服器直接載入的格式:vLLM、Text Generation Inference 和 Transformers 在 GPU 上服務 safetensors 權重,而 safetensors 形式的 LoRA 轉接器正是 vLLM 的 multi-LoRA 服務所載入,以在單一基礎模型上託管許多微調。因此 safetensors 不僅是模型在訓練期間存在的地方,也是一流的 GPU 服務格式。SafeTensors 以原始訓練精度儲存權重——通常是 float16 或 bfloat16。

    這些格式是互補的而非競爭的。現代模式是按格式路由,而非全部轉換:模型以 safetensors 訓練和儲存,然後要嘛轉換為 GGUF 以用 llama.cpp 進行可攜的本地與 CPU 推理,要嘛直接從 safetensors(完整權重或 LoRA 轉接器)以 vLLM 在 GPU 上服務。了解哪個格式對應哪個執行環境,比挑選單一贏家更有用。

    Feature Comparison

    FeatureGGUFSafeTensors
    主要用途高效本地推理安全儲存、分發和 GPU 服務
    內建量化廣泛(Q2-Q8、k-quants)否(完整精度;透過 AWQ/GPTQ/FP8 旁掛量化)
    單檔案分發通常多檔案(分片)
    CPU 推理最佳化
    GPU 服務執行環境llama.cpp / OllamavLLM / TGI / Transformers
    LoRA 轉接器服務合併到基礎模型一流(vLLM multi-LoRA)
    記憶體映射載入
    安全性安全(無程式碼執行)安全(無程式碼執行)
    包含中繼資料完整(分詞器、配置)僅張量資料
    HuggingFace Hub 標準常見用於推理預設格式
    檔案大小(7B 模型)2-7 GB(量化)約 14 GB(fp16)

    Strengths

    GGUF

    • 廣泛的內建量化支援將模型大小減少 2-7 倍,同時保持可用品質
    • 單檔案分發包含所有模型中繼資料、分詞器配置和權重——一個檔案就是您需要的一切
    • 針對消費級硬體上的 CPU 和混合 CPU/GPU 推理進行最佳化——筆電、桌上型電腦、邊緣裝置
    • 最受歡迎本地推理工具的原生格式:llama.cpp、Ollama、LM Studio 和 GPT4All
    • 獨立自足的格式——不需要外部配置檔、分詞器檔案或 Python 依賴即可運行
    • 活躍開發中,定期添加新的量化方法和架構支援

    SafeTensors

    • 設計上安全——無法執行任意程式碼,不像之前的基於 pickle 的模型格式
    • 零拷貝反序列化實現極快的模型載入,無需在記憶體中複製資料
    • 由 vLLM、TGI 和 Transformers 直接載入進行 GPU 服務,而 safetensors LoRA 轉接器饋入 vLLM 的 multi-LoRA 池,在單一基礎模型上託管許多微調
    • 通用訓練框架支援——PyTorch、HuggingFace Transformers 和所有主要程式庫原生支援
    • HuggingFace Hub 上的標準格式——開源生態系統中模型分發的預設
    • 以完整精度(fp16/bf16)儲存權重,為微調和研究保持最大模型品質,並對超大模型進行高效分片

    Which Should You Choose?

    您想在筆電或桌上型電腦上本地運行模型GGUF

    GGUF 是使用 Ollama、LM Studio 和 llama.cpp 進行本地推理的標準格式。其量化選項讓您在有限記憶體中容納大型模型。

    您正在訓練或微調模型,需要儲存/載入權重SafeTensors

    SafeTensors 是訓練框架的標準。所有主要程式庫預設以 SafeTensors 格式儲存和載入權重。

    您正在向 GPU 上的並發使用者服務微調模型或許多轉接器SafeTensors

    vLLM 和 TGI 直接載入 safetensors 權重,而 safetensors LoRA 轉接器可透過 vLLM multi-LoRA 多對一地服務。GGUF 則會路由到單獨的 llama.cpp 通道。

    您想將模型作為單個可下載檔案分發GGUF

    GGUF 在單個檔案中包含所有中繼資料。SafeTensors 模型通常需要額外的配置檔、分詞器檔案,有時還有分片的權重檔案。

    您需要最大模型品質用於研究或評估SafeTensors

    SafeTensors 以完整訓練精度儲存權重。GGUF 的量化以犧牲一些品質換取更小的檔案大小和更快的推理。

    您要在邊緣裝置或資源受限硬體上部署模型GGUF

    GGUF 的量化選項(Q4、Q5 等)大幅減少模型大小和記憶體需求,使邊緣硬體上的部署變得可行。

    Verdict

    GGUF 和 SafeTensors 不是競爭格式。它們服務於模型生命週期的不同階段和執行環境。SafeTensors 是訓練、儲存和在 HuggingFace Hub 上分發的標準,也是 GPU 推理伺服器(vLLM、TGI、Transformers)直接載入的格式,包括用於 multi-LoRA 服務的 LoRA 轉接器。GGUF 是使用 llama.cpp 進行本地推理的標準,提供針對消費級硬體最佳化的量化模型。

    大多數從業者兩者都用。模型以 SafeTensors 訓練和儲存,然後要嘛轉換為 GGUF 以進行本地/CPU 推理,要嘛直接從 SafeTensors 在 GPU 上服務。有用的心智模型是按格式路由:GGUF 到 llama.cpp 進行可攜的本地推理,SafeTensors 到 vLLM 進行高吞吐量 GPU 服務。為您的品質和記憶體預算選擇正確的量化等級,比在格式本身之間選擇更重要。

    How Ertas Fits In

    Ertas Studio 以 GGUF 匯出微調模型,用於 Ollama 和 LM Studio 的本地部署,自動處理轉換和量化,使用者不需要手動運行腳本或挑選量化參數。Ertas 也產生標準 safetensors LoRA 轉接器,這是 vLLM 等 GPU 伺服器直接載入的形式,包括 vLLM 的 multi-LoRA 池,其中許多轉接器共享單一基礎模型。因此用 Ertas 微調的模型已為兩條路徑做好準備:GGUF 用於可攜的本地推理,safetensors 用於高吞吐量 GPU 服務。

    Related Resources

    Ship AI that runs on your users' devices.

    Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.