ExLlamaV2 + Ertas

使用 ExLlamaV2 高度最佳化的量化推理引擎部署 Ertas 微調的模型，在消費級和資料中心 NVIDIA GPU 上實現出色的生成速度和記憶體效率。

Overview

ExLlamaV2 是一個高效能推理函式庫，專注於在 NVIDIA GPU 上從量化語言模型中提取最大速度。它實作了專門針對量化矩陣乘法最佳化的自訂 CUDA 核心，在獨立基準測試中持續保持最快的生成速度。ExLlamaV2 支援 GPTQ、EXL2 和其他量化格式，其中 EXL2 提供特別精細的每層量化級別控制，以平衡品質和記憶體使用。

ExLlamaV2 的與眾不同之處在於其專注於單 GPU 和雙 GPU 設定的實際效率。雖然其他推理引擎針對大規模多 GPU 叢集，ExLlamaV2 擅長讓大型模型在大多數開發者實際擁有的硬體上快速運行——單張 RTX 4090、二手 3090 或一對消費級 GPU。其分頁注意力實作、推測解碼支援和快取量化允許它服務那些在其他情況下需要更昂貴硬體的模型。對於在本地部署微調模型的開發者和小型團隊，ExLlamaV2 在不需要生產規模基礎設施的情況下提供生產品質的速度。

How Ertas Integrates

Ertas Studio 產生的微調模型可以量化為 ExLlamaV2 的 EXL2 格式以進行最佳化部署。在 Ertas 中完成微調作業後——使用 LoRA 在領域特定資料上訓練並合併適配器——您匯出完整模型並透過 ExLlamaV2 的量化管線運行。EXL2 格式允許您定義特定的每權重位元比率（通常 3.0 到 6.0 bpp），精確控制模型品質和 GPU 記憶體需求之間的權衡。

量化完成後，模型透過 ExLlamaV2 的推理伺服器運行，暴露 OpenAI 相容的 API 端點以與任何客戶端應用程式整合。這種組合對在消費級硬體上部署領域特定模型特別有效：Ertas 透過微調處理知識注入，ExLlamaV2 透過量化和自訂核心處理效能最佳化。在單張 RTX 4090 上，針對您使用場景微調的 13B 參數模型可以每秒 80+ 令牌的速度服務請求——足以支援互動式應用程式和並行使用者。

Getting Started

1
從 Ertas Studio 微調並匯出
在 Ertas Studio 中使用 LoRA 微調訓練您的領域特定模型。對品質滿意後，將 LoRA 適配器合併到基礎模型中，並以 safetensors 格式匯出完整的合併模型。
2
量化為 EXL2 格式
使用 ExLlamaV2 的轉換工具將合併的模型量化為 EXL2 格式。選擇平衡品質和記憶體的每權重位元目標——4.0 bpp 是消費級 GPU 的常見最佳點，5.0-6.0 bpp 為更大 VRAM 預算保留更多品質。
3
基準測試推理效能
運行 ExLlamaV2 的內建基準測試，在目標 GPU 上測量生成速度、提示處理吞吐量和記憶體使用量。驗證效能是否滿足您互動式使用的延遲要求。
4
啟動推理伺服器
啟動 ExLlamaV2 的 TabbyAPI 或相容伺服器，將您的量化模型作為 OpenAI 相容端點暴露。設定上下文長度、並行請求處理和推測解碼（如果使用草稿模型）。
5
連接客戶端應用程式
將您的程式設計助手、聊天介面或自訂應用程式指向 ExLlamaV2 端點。在實際使用中監控生成品質，如果模型在特定任務上需要改善，在 Ertas 中重新微調。