llama.cpp + Ertas
從 Ertas 匯出 GGUF 模型,使用 llama.cpp 在 CPU、GPU 或 Apple Silicon 上運行高效能推理,無需繁重的框架依賴。
Overview
llama.cpp 是純 C/C++ 實作的高效 LLM 推理參考實現,支援從消費級筆記型電腦到多 GPU 伺服器的廣泛硬體。透過消除對 Python 運行時和繁重 ML 框架的需求,llama.cpp 提供了本地推理中最快的每秒令牌速率之一。它支援進階量化方案(從 2 位元到 8 位元)、KV 快取最佳化、推測解碼和批次推理,使其成為許多生產級本地 AI 部署的骨幹。
對於使用 Ertas 微調領域特定模型的團隊,llama.cpp 提供將訓練權重轉變為生產就緒推理端點的效能層。無論您是將模型嵌入桌面應用程式、在邊緣裝置上運行推理,還是建構高吞吐量 API 伺服器,llama.cpp 都為您提供託管運行時無法匹配的記憶體使用、執行緒和 GPU 卸載的精細控制。
How Ertas Integrates
在 Ertas Studio 中微調後,您可以直接以 llama.cpp 使用的 GGUF 格式下載模型。在下載時,您可以從十幾種量化選項中選擇,Ertas 會根據您的驗證集顯示困惑度基準測試,以幫助您在模型大小和輸出品質之間做出正確的權衡。下載的 GGUF 檔案包括嵌入的聊天範本、分詞器設定和元資料,因此 llama.cpp 可以載入和服務模型而無需額外的設定檔案。
Ertas Studio 還在您的下載旁邊提供建議的 llama-server 啟動參數,基於您選擇的模型大小和量化級別。這些建議涵蓋上下文大小、批次大小和層卸載策略,消除了效能調校的猜測,幫助您的微調模型在特定硬體上以最佳效率運行。
Getting Started
- 1
在 Ertas Studio 中完成微調
在 Ertas Studio 中使用 LoRA 或全參數方法訓練模型。在匯出前根據測試集驗證品質。
- 2
選擇量化策略
根據部署限制選擇 GGUF 量化級別。Ertas 顯示每個選項的預估檔案大小和困惑度影響。
- 3
下載 GGUF 模型
從 Ertas Studio 以 GGUF 格式下載微調模型,包含嵌入的分詞器、聊天範本和元資料。檔案自包含且可直接用於 llama.cpp。
- 4
檢視建議的伺服器設定
Ertas Studio 在您的下載旁邊顯示建議的 llama-server 啟動參數,包括上下文大小、GPU 層卸載和執行緒數。
- 5
啟動 llama-server
使用匯出的模型啟動 llama.cpp HTTP 伺服器。伺服器提供用於聊天完成和嵌入的 OpenAI 相容 API 端點。
- 6
基準測試和迭代
運行內建基準測試套件,測量每秒令牌數、首令牌時間和記憶體使用量。將結果回饋到 Ertas 用於下一次訓練迭代。
# After downloading the Q4_K_M GGUF file from Ertas Studio,
# launch llama-server with the recommended settings
llama-server \
--model ./models/my-model.gguf \
--ctx-size 4096 \
--n-gpu-layers 35 \
--threads 8 \
--port 8080
# Test the endpoint
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "Hello"}]}'Benefits
- 推理無需 Python 運行時或 ML 框架依賴
- 在 CPU、GPU 和 Apple Silicon 上業界領先的推理速度
- 十幾種量化選項並提供困惑度影響預覽
- 自包含的 GGUF 檔案包含嵌入的分詞器和聊天範本
- GGUF 下載旁附帶建議的伺服器設定
- 適用於邊緣部署、桌面應用程式和高吞吐量伺服器
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Privacy-Conscious AI Development: Fine-Tune in the Cloud, Run on Your Terms
Running AI Models Locally: The Complete Guide to Local LLM Inference
Fine-Tuning Llama 3: A Practical Guide for Your Use Case
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
The Indie Dev's Guide to AI Model Costs in 2026
Hugging Face
KoboldCpp
LM Studio
Ollama
vLLM
Ertas for Healthcare
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for E-Commerce
Ertas for Indie Developers & Vibe-Coded Apps
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.