What is GGUF?

一種用於儲存量化大型語言模型的二進位檔案格式，針對透過 llama.cpp 和相容執行時進行快速載入和高效 CPU 及 GPU 推論而優化。

Definition

GGUF（GPT-Generated Unified Format）是由 llama.cpp 社群建立的單一檔案二進位格式，作為舊版 GGML 格式的繼任者。它將運行大型語言模型所需的一切——架構元資料、分詞器配置、超參數和量化權重張量——打包到一個獨立的檔案中。

該格式支援從完整 16 位元浮點到激進 2 位元方案（Q2_K）的廣泛量化級別。GGUF 已成為本地和離線 LLM 推論的事實標準，原生支援 llama.cpp、Ollama、LM Studio、GPT4All 等工具。

Why It Matters

隨著組織因延遲、成本和資料隱私原因轉向內部部署和邊緣部署，擁有緊湊、可攜的模型格式至關重要。GGUF 支援多種量化級別，讓團隊為特定部署目標找到品質和資源限制之間的平衡。

How It Works

GGUF 檔案以魔術數字和版本標頭開始，接著是以鍵值對儲存的元資料部分。檔案其餘部分包含權重張量。載入時，執行時讀取元資料配置模型圖形，然後直接從磁碟記憶體映射張量資料。量化在轉換步驟中應用。

bash

# Convert a fine-tuned model to GGUF with Q4_K_M quantization
python convert_hf_to_gguf.py \
  --model ./fine-tuned-mistral-7b \
  --outfile ./models/clinical-assistant-q4km.gguf \
  --outtype q4_k_m

# Run inference with llama.cpp
./llama-cli \
  -m ./models/clinical-assistant-q4km.gguf \
  -p "Summarize the following discharge note:" \
  --ctx-size 4096 \
  --threads 8

Converting a fine-tuned Hugging Face model to GGUF format and running inference with llama.cpp.

Example Use Case

一家醫療新創公司在去識別化的臨床筆記上微調 Mistral 7B 模型，然後匯出為 Q4_K_M GGUF 檔案。4.1 GB 的檔案部署到醫院網路內的內部伺服器，患者資料永遠不離開設施。醫生透過本地網頁介面與模型互動，獲得亞秒級回應時間——滿足 HIPAA 要求和臨床工作流程需求。

Key Takeaways

GGUF 是將模型權重、分詞器和元資料打包用於可攜推論的單一檔案格式。
支援從 FP16 到 Q2_K 的量化級別，實現在資源受限硬體上的部署。
原生支援 llama.cpp、Ollama、LM Studio 和許多其他本地推論工具。
記憶體映射載入允許快速啟動，無需將檔案完全反序列化到 RAM。
GGUF 是資料隱私和低延遲至關重要的內部和邊緣部署的首選格式。

How Ertas Helps

Ertas 支援 GGUF 作為一級匯出格式。在 Ertas Studio 中微調模型後，使用者可以在選定的量化級別直接匯出為 GGUF——無需手動轉換腳本。這種端到端 GGUF 支援使 Ertas 成為從訓練資料到本地可部署模型檔案的最簡單路徑。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →