llama.cpp + Ertas

從 Ertas 匯出 GGUF 模型，使用 llama.cpp 在 CPU、GPU 或 Apple Silicon 上運行高效能推理，無需繁重的框架依賴。

Overview

llama.cpp 是純 C/C++ 實作的高效 LLM 推理參考實現，支援從消費級筆記型電腦到多 GPU 伺服器的廣泛硬體。透過消除對 Python 運行時和繁重 ML 框架的需求，llama.cpp 提供了本地推理中最快的每秒令牌速率之一。它支援進階量化方案（從 2 位元到 8 位元）、KV 快取最佳化、推測解碼和批次推理，使其成為許多生產級本地 AI 部署的骨幹。

對於使用 Ertas 微調領域特定模型的團隊，llama.cpp 提供將訓練權重轉變為生產就緒推理端點的效能層。無論您是將模型嵌入桌面應用程式、在邊緣裝置上運行推理，還是建構高吞吐量 API 伺服器，llama.cpp 都為您提供託管運行時無法匹配的記憶體使用、執行緒和 GPU 卸載的精細控制。

How Ertas Integrates

在 Ertas Studio 中微調後，您可以直接以 llama.cpp 使用的 GGUF 格式下載模型。在下載時，您可以從十幾種量化選項中選擇，Ertas 會根據您的驗證集顯示困惑度基準測試，以幫助您在模型大小和輸出品質之間做出正確的權衡。下載的 GGUF 檔案包括嵌入的聊天範本、分詞器設定和元資料，因此 llama.cpp 可以載入和服務模型而無需額外的設定檔案。

Ertas Studio 還在您的下載旁邊提供建議的 llama-server 啟動參數，基於您選擇的模型大小和量化級別。這些建議涵蓋上下文大小、批次大小和層卸載策略，消除了效能調校的猜測，幫助您的微調模型在特定硬體上以最佳效率運行。

Getting Started

1
在 Ertas Studio 中完成微調
在 Ertas Studio 中使用 LoRA 或全參數方法訓練模型。在匯出前根據測試集驗證品質。
2
選擇量化策略
根據部署限制選擇 GGUF 量化級別。Ertas 顯示每個選項的預估檔案大小和困惑度影響。
3
下載 GGUF 模型
從 Ertas Studio 以 GGUF 格式下載微調模型，包含嵌入的分詞器、聊天範本和元資料。檔案自包含且可直接用於 llama.cpp。
4
檢視建議的伺服器設定
Ertas Studio 在您的下載旁邊顯示建議的 llama-server 啟動參數，包括上下文大小、GPU 層卸載和執行緒數。
5
啟動 llama-server
使用匯出的模型啟動 llama.cpp HTTP 伺服器。伺服器提供用於聊天完成和嵌入的 OpenAI 相容 API 端點。
6
基準測試和迭代
運行內建基準測試套件，測量每秒令牌數、首令牌時間和記憶體使用量。將結果回饋到 Ertas 用於下一次訓練迭代。

bash

# After downloading the Q4_K_M GGUF file from Ertas Studio,
# launch llama-server with the recommended settings
llama-server \
  --model ./models/my-model.gguf \
  --ctx-size 4096 \
  --n-gpu-layers 35 \
  --threads 8 \
  --port 8080

# Test the endpoint
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"messages": [{"role": "user", "content": "Hello"}]}'

從 Ertas Studio 下載 GGUF 模型後，使用 llama.cpp 提供高效能本地推理服務。

Benefits

推理無需 Python 運行時或 ML 框架依賴
在 CPU、GPU 和 Apple Silicon 上業界領先的推理速度
十幾種量化選項並提供困惑度影響預覽
自包含的 GGUF 檔案包含嵌入的分詞器和聊天範本
GGUF 下載旁附帶建議的伺服器設定
適用於邊緣部署、桌面應用程式和高吞吐量伺服器

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

llama.cpp + Ertas

Overview

How Ertas Integrates

Getting Started

在 Ertas Studio 中完成微調

選擇量化策略

下載 GGUF 模型

檢視建議的伺服器設定

啟動 llama-server

基準測試和迭代

Benefits

Related Resources

Ship AI that runs on your users' devices.