vLLM + Ertas

    在 Ertas Studio 中微調模型並使用 vLLM 部署,實現具有連續批次處理、PagedAttention 和 OpenAI 相容 API 端點的生產級服務。

    Overview

    vLLM 是一個專為生產 LLM 服務設計的高吞吐量、記憶體高效推理引擎。其核心創新 PagedAttention 像虛擬記憶體頁面一樣管理 KV 快取,大幅減少記憶體浪費,使並行請求吞吐量比傳統推理框架顯著提高。vLLM 支援連續批次處理、跨多 GPU 的張量並行、推測解碼和 AWQ 及 GPTQ 等量化格式,使其成為需要以可預測延遲大規模服務模型的團隊的首選。

    與面向桌面的工具不同,vLLM 是為吞吐量、延遲百分位數和資源利用率至關重要的伺服器環境建構的。它開箱即提供 OpenAI 相容的 API 伺服器,支援串流回應,並與可觀測性工具整合以監控請求佇列、令牌生成率和 GPU 使用率。對於使用 Ertas 微調面向客戶應用程式模型的組織,vLLM 彌合了訓練模型和生產就緒推理服務之間的差距。

    How Ertas Integrates

    在 Ertas Studio 中微調後,您可以以與 vLLM 支援架構相容的格式匯出模型。對於 Hugging Face 格式的模型,Ertas 直接將微調權重推送到 Hub 儲存庫(公開或私有),vLLM 可以在啟動時從中拉取。對於基於 LoRA 的微調,Ertas 單獨匯出適配器權重,允許 vLLM 使用其內建的 LoRA 服務支援在基礎模型之上動態載入——使多個微調變體共享相同的基礎模型記憶體。

    此整合為模型需要處理數百或數千個並行請求的生產工作負載而設計。典型的工作流程涉及在 Ertas Studio 中微調客戶支援模型、匯出適配器,並在負載平衡器後面的 vLLM 上部署。vLLM 的連續批次處理確保即使在可變流量模式下也能高效利用 GPU,其 OpenAI 相容 API 意味著從雲端 AI 提供者遷移到自託管推理時應用程式程式碼無需更改。

    Getting Started

    1. 1

      在 Ertas Studio 中微調

      在 Ertas Studio 中使用 LoRA 或全參數微調訓練模型。LoRA 推薦用於 vLLM 部署,因為它支援高效的多適配器服務。

    2. 2

      匯出模型權重

      從 Ertas Studio 將微調模型或 LoRA 適配器推送到 Hugging Face Hub。完全微調匯出完整模型;LoRA 單獨匯出適配器權重。

    3. 3

      安裝並設定 vLLM

      在 GPU 伺服器上安裝 vLLM。根據硬體和流量需求設定服務參數,包括張量並行、最大模型長度和 GPU 記憶體使用率。

    4. 4

      啟動 vLLM 伺服器

      使用模型路徑或 Hugging Face 儲存庫 ID 啟動 vLLM。對於 LoRA 適配器,指定基礎模型和適配器路徑。vLLM 立即暴露 OpenAI 相容 API。

    5. 5

      負載測試和調校

      對 vLLM 端點運行負載測試,以在預期流量模式下驗證吞吐量和延遲。根據需要調整批次大小、最大並行請求和 GPU 記憶體分配。

    6. 6

      在負載平衡器後面部署

      將 vLLM 伺服器放在反向代理或負載平衡器後面用於生產流量。透過新增更多具有跨 GPU 張量並行的 vLLM 實例進行水平擴展。

    bash
    # After fine-tuning in Ertas Studio and pushing to Hugging Face,
    # serve the model with vLLM
    vllm serve my-org/my-fine-tuned-model \
      --tensor-parallel-size 2 \
      --max-model-len 4096 \
      --gpu-memory-utilization 0.9 \
      --port 8000
    
    # For LoRA adapter serving on a shared base model
    vllm serve meta-llama/Llama-3-8B \
      --enable-lora \
      --lora-modules my-adapter=my-org/my-lora-adapter \
      --port 8000
    
    # Query the endpoint
    curl http://localhost:8000/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "my-adapter",
        "messages": [{"role": "user", "content": "Hello"}]
      }'
    使用 vLLM 透過 OpenAI 相容 API 服務 Ertas 微調的模型或 LoRA 適配器,實現高吞吐量生產推理。

    Benefits

    • PagedAttention 比樸素推理實作提供高達 24 倍的吞吐量
    • 連續批次處理在可變流量負載下最大化 GPU 使用率
    • 內建 LoRA 服務支援在單一基礎模型上運行多個微調變體
    • OpenAI 相容 API 實現從雲端提供者的零變更遷移
    • 張量並行用於跨多 GPU 服務大型模型
    • 生產就緒,具有串流、指標和健康檢查端點

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.