TensorRT-LLM + Ertas
從 Ertas 匯出微調模型並使用 TensorRT-LLM 在 NVIDIA GPU 上部署,為大規模生產級 AI 應用程式實現最大推理吞吐量和最低延遲。
Overview
TensorRT-LLM 是 NVIDIA 專為在 NVIDIA GPU 上部署大型語言模型而建構的高效能推理函式庫。它應用核心融合、量化感知編譯、即時批次處理和分頁 KV 快取管理等進階最佳化,從 GPU 硬體中壓榨最大效能。使用 TensorRT-LLM 編譯的模型通常比標準 PyTorch 推理實現 2-5 倍更高的吞吐量和顯著更低的延遲,使其 成為需要服務大量並行使用者的生產 LLM 部署的首選運行時。
TensorRT-LLM 支援從消費級 RTX 顯示卡到資料中心 H100 和 B200 GPU 的全系列 NVIDIA 硬體,並針對每種架構進行調校最佳化。它處理超過單 GPU 記憶體的模型的多 GPU 和多節點張量並行,並與 NVIDIA 的 Triton 推理伺服器整合以實現生產服務,具有負載平衡、模型版本控制和健康監控。對於在生產中運行微調模型的組織——無論是面向客戶的應用程式、內部工具還是 API 服務——TensorRT-LLM 代表了 NVIDIA 硬體上的最高效能部署路徑。
How Ertas Integrates
Ertas Studio 處理模型自訂階段——策劃訓練資料、運行微調作業和匯出訓練模型——而 TensorRT-LLM 處理生產部署階段,為最大 GPU 效能最佳化這些模型。在 Ertas 中微調模型後,您以與 TensorRT-LLM 建構管線相容的格式匯出,該管線將模型編譯為針對您特定 GPU 硬體和服務需求的最佳化引擎。
這種關注點分離讓您的團隊在 Ertas 中專注於模型品質而無需擔心部署最佳化,在 TensorRT-LLM 中專注於服務效能而無需擔心訓練基礎設施。工作流程支援快速迭代:在 Ertas 中微調新版本,重建 TensorRT 引擎,並以最短停機時間替換到生產中。對於向大量使用者提供微調模型的團隊——客戶支援機器人、程式設計助手、文件處理管線——此組合同時提供微調的領域特定性和生產規模所需的原始效能。
Getting Started
- 1
在 Ertas Studio 中微調您的模型
準備領域特定資料集,選擇基礎模型,並在 Ertas Studio 中運行微調。使用實驗追蹤根據評估指標識別最佳檢查點。
- 2
以相容格式匯出模型
從 Ertas 以 Hugging Face safetensors 或 PyTorch 格式匯出微調模型。確保模型架構受 TensorRT-LLM 針對您選擇的基礎模型系列的轉換腳本支援。
- 3
建構 TensorRT-LLM 引擎
使用 TensorRT-LLM 的建構 API 將模型編譯為針對目標 GPU 的最佳化引擎。根據服務需求設定量化級別(FP16、INT8、FP8)、多 GPU 設定的張量並行和最大批次大小。
- 4
使用 Triton 推理伺服器部署
將編譯後的引擎載入 NVIDIA Triton 推理伺服器用於生產服務。設定模型版本控制、動態批次處理、健康檢查和 OpenAI 相容的 API 端點供客戶端應用程式使用。
- 5
監控並迭代模型版本
在生產中追蹤推理延遲、吞吐量和輸出品質。當您在 Ertas 中微調改善版本時,重建 TensorRT 引擎並透過 Triton 的版本管理實現零停機模型替換。
Benefits
- 在相同硬體上比標準 PyTorch 服務提高 2-5 倍推理吞吐量
- 互動式應用程式(如聊天、程式碼完成和搜尋)的亞 100 毫秒延遲
- 多 GPU 張量並行用於跨 GPU 叢集服務大型微調模型
- 使用 Triton 的負載平衡、健康監控和版本控制實現生產就緒部署
- 針對從 RTX 到 H100 的每個 NVIDIA 架構的硬體特定最佳化
- 快速模型迭代——新的微調版本準備好時重建和替換 TensorRT 引擎
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.