TensorRT-LLM + Ertas

從 Ertas 匯出微調模型並使用 TensorRT-LLM 在 NVIDIA GPU 上部署，為大規模生產級 AI 應用程式實現最大推理吞吐量和最低延遲。

Overview

TensorRT-LLM 是 NVIDIA 專為在 NVIDIA GPU 上部署大型語言模型而建構的高效能推理函式庫。它應用核心融合、量化感知編譯、即時批次處理和分頁 KV 快取管理等進階最佳化，從 GPU 硬體中壓榨最大效能。使用 TensorRT-LLM 編譯的模型通常比標準 PyTorch 推理實現 2-5 倍更高的吞吐量和顯著更低的延遲，使其成為需要服務大量並行使用者的生產 LLM 部署的首選運行時。

TensorRT-LLM 支援從消費級 RTX 顯示卡到資料中心 H100 和 B200 GPU 的全系列 NVIDIA 硬體，並針對每種架構進行調校最佳化。它處理超過單 GPU 記憶體的模型的多 GPU 和多節點張量並行，並與 NVIDIA 的 Triton 推理伺服器整合以實現生產服務，具有負載平衡、模型版本控制和健康監控。對於在生產中運行微調模型的組織——無論是面向客戶的應用程式、內部工具還是 API 服務——TensorRT-LLM 代表了 NVIDIA 硬體上的最高效能部署路徑。

How Ertas Integrates

Ertas Studio 處理模型自訂階段——策劃訓練資料、運行微調作業和匯出訓練模型——而 TensorRT-LLM 處理生產部署階段，為最大 GPU 效能最佳化這些模型。在 Ertas 中微調模型後，您以與 TensorRT-LLM 建構管線相容的格式匯出，該管線將模型編譯為針對您特定 GPU 硬體和服務需求的最佳化引擎。

這種關注點分離讓您的團隊在 Ertas 中專注於模型品質而無需擔心部署最佳化，在 TensorRT-LLM 中專注於服務效能而無需擔心訓練基礎設施。工作流程支援快速迭代：在 Ertas 中微調新版本，重建 TensorRT 引擎，並以最短停機時間替換到生產中。對於向大量使用者提供微調模型的團隊——客戶支援機器人、程式設計助手、文件處理管線——此組合同時提供微調的領域特定性和生產規模所需的原始效能。

Getting Started

1
在 Ertas Studio 中微調您的模型
準備領域特定資料集，選擇基礎模型，並在 Ertas Studio 中運行微調。使用實驗追蹤根據評估指標識別最佳檢查點。
2
以相容格式匯出模型
從 Ertas 以 Hugging Face safetensors 或 PyTorch 格式匯出微調模型。確保模型架構受 TensorRT-LLM 針對您選擇的基礎模型系列的轉換腳本支援。
3
建構 TensorRT-LLM 引擎
使用 TensorRT-LLM 的建構 API 將模型編譯為針對目標 GPU 的最佳化引擎。根據服務需求設定量化級別（FP16、INT8、FP8）、多 GPU 設定的張量並行和最大批次大小。
4
使用 Triton 推理伺服器部署
將編譯後的引擎載入 NVIDIA Triton 推理伺服器用於生產服務。設定模型版本控制、動態批次處理、健康檢查和 OpenAI 相容的 API 端點供客戶端應用程式使用。
5
監控並迭代模型版本
在生產中追蹤推理延遲、吞吐量和輸出品質。當您在 Ertas 中微調改善版本時，重建 TensorRT 引擎並透過 Triton 的版本管理實現零停機模型替換。