llama.cpp + Ertas

    從 Ertas 匯出 GGUF 模型,使用 llama.cpp 在 CPU、GPU 或 Apple Silicon 上運行高效能推理,無需繁重的框架依賴。

    Overview

    llama.cpp 是純 C/C++ 實作的高效 LLM 推理參考實現,支援從消費級筆記型電腦到多 GPU 伺服器的廣泛硬體。透過消除對 Python 運行時和繁重 ML 框架的需求,llama.cpp 提供了本地推理中最快的每秒令牌速率之一。它支援進階量化方案(從 2 位元到 8 位元)、KV 快取最佳化、推測解碼和批次推理,使其成為許多生產級本地 AI 部署的骨幹。

    對於使用 Ertas 微調領域特定模型的團隊,llama.cpp 提供將訓練權重轉變為生產就緒推理端點的效能層。無論您是將模型嵌入桌面應用程式、在邊緣裝置上運行推理,還是建構高吞吐量 API 伺服器,llama.cpp 都為您提供託管運行時無法匹配的記憶體使用、執行緒和 GPU 卸載的精細控制。

    How Ertas Integrates

    在 Ertas Studio 中微調後,您可以直接以 llama.cpp 使用的 GGUF 格式下載模型。在下載時,您可以從十幾種量化選項中選擇,Ertas 會根據您的驗證集顯示困惑度基準測試,以幫助您在模型大小和輸出品質之間做出正確的權衡。下載的 GGUF 檔案包括嵌入的聊天範本、分詞器設定和元資料,因此 llama.cpp 可以載入和服務模型而無需額外的設定檔案。

    Ertas Studio 還在您的下載旁邊提供建議的 llama-server 啟動參數,基於您選擇的模型大小和量化級別。這些建議涵蓋上下文大小、批次大小和層卸載策略,消除了效能調校的猜測,幫助您的微調模型在特定硬體上以最佳效率運行。

    Getting Started

    1. 1

      在 Ertas Studio 中完成微調

      在 Ertas Studio 中使用 LoRA 或全參數方法訓練模型。在匯出前根據測試集驗證品質。

    2. 2

      選擇量化策略

      根據部署限制選擇 GGUF 量化級別。Ertas 顯示每個選項的預估檔案大小和困惑度影響。

    3. 3

      下載 GGUF 模型

      從 Ertas Studio 以 GGUF 格式下載微調模型,包含嵌入的分詞器、聊天範本和元資料。檔案自包含且可直接用於 llama.cpp。

    4. 4

      檢視建議的伺服器設定

      Ertas Studio 在您的下載旁邊顯示建議的 llama-server 啟動參數,包括上下文大小、GPU 層卸載和執行緒數。

    5. 5

      啟動 llama-server

      使用匯出的模型啟動 llama.cpp HTTP 伺服器。伺服器提供用於聊天完成和嵌入的 OpenAI 相容 API 端點。

    6. 6

      基準測試和迭代

      運行內建基準測試套件,測量每秒令牌數、首令牌時間和記憶體使用量。將結果回饋到 Ertas 用於下一次訓練迭代。

    bash
    # After downloading the Q4_K_M GGUF file from Ertas Studio,
    # launch llama-server with the recommended settings
    llama-server \
      --model ./models/my-model.gguf \
      --ctx-size 4096 \
      --n-gpu-layers 35 \
      --threads 8 \
      --port 8080
    
    # Test the endpoint
    curl http://localhost:8080/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{"messages": [{"role": "user", "content": "Hello"}]}'
    從 Ertas Studio 下載 GGUF 模型後,使用 llama.cpp 提供高效能本地推理服務。

    Benefits

    • 推理無需 Python 運行時或 ML 框架依賴
    • 在 CPU、GPU 和 Apple Silicon 上業界領先的推理速度
    • 十幾種量化選項並提供困惑度影響預覽
    • 自包含的 GGUF 檔案包含嵌入的分詞器和聊天範本
    • GGUF 下載旁附帶建議的伺服器設定
    • 適用於邊緣部署、桌面應用程式和高吞吐量伺服器

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.