TensorRT-LLM + Ertas
从 Ertas 导出微调模型并使用 TensorRT-LLM 在 NVIDIA GPU 上部署,为生产级 AI 应用实现最大推理吞吐量和最低延迟。
Overview
TensorRT-LLM 是 NVIDIA 专为在 NVIDIA GPU 上部署大语言模型而构建的高性能推理库。它应用内核融合、量化感知编译、动态批处理和分页 KV 缓存管理等先进优化,从 GPU 硬件中榨取最大性能。使用 TensorRT-LLM 编译的模型通常比标准 PyTorch 推理实现 2-5 倍更高的吞吐量和显著更低的延迟,使其成为需要服务大量并发用户的生产 LLM 部署的首 选运行时。
TensorRT-LLM 支持从消费级 RTX 显卡到数据中心 H100 和 B200 GPU 的全系列 NVIDIA 硬件,并针对每种架构进行了优化。它处理超过单 GPU 内存的模型的多 GPU 和多节点张量并行,并与 NVIDIA 的 Triton 推理服务器集成,提供生产环境所需的负载均衡、模型版本控制和健康监控。对于在生产中运行微调模型的组织——无论是面向客户的应用、内部工具还是 API 服务——TensorRT-LLM 代表了 NVIDIA 硬件上的最高性能部署路径。
How Ertas Integrates
Ertas Studio 处理模型定制阶段——整理训练数据、运行微调作业和导出训练模型——而 TensorRT-LLM 处理生产部署阶段,为最大 GPU 性能优化这些模型。在 Ertas 中微调模型后,您以与 TensorRT-LLM 构建管道兼容的格式导出,该管道将模型编译为针对您特定 GPU 硬件和服务需求定制的优化引擎。
这种关注点分离让您的团队可以在 Ertas 中专注于模型质量而不必担心部署优化,在 TensorRT-LLM 中专注于服务性能而不必担心训练基础设施。该工作流支持快速迭代:在 Ertas 中微调新版本,重建 TensorRT 引擎,以最小停机时间将其部署到生产环境。对于向大量用户提供微调模型服务的团队——客服机器人、编码助手、文档处理管道——这种组合既提供微调的领域特定性,又提供生产规模所需的原始性能。
Getting Started
- 1
在 Ertas Studio 中微调您的模型
准备领域特定数据集,选择基础模型,并在 Ertas Studio 中运行微调。使用实验跟踪根据评估指标识别最佳检查点。
- 2
以兼容格式导出模型
从 Ertas 以 Hugging Face safetensors 或 PyTorch 格式导出微调模型。确保模型架构被 TensorRT-LLM 的转换器脚本支持。
- 3
构建 TensorRT-LLM 引擎
使用 TensorRT-LLM 的构建 API 将模型编译为针对目标 GPU 的优化引擎。配置量化级别(FP16、INT8、FP8)、多 GPU 设置的张量并行,以及根据服务需求设置的最大批量大小。
- 4
使用 Triton 推理服务器部署
将编译好的引擎加载到 NVIDIA Triton 推理服务器中进行生产服务。配置模型版本控制、动态批处理、健康检查和兼容 OpenAI 的 API 端点供客户端应用使用。
- 5
监控并迭代模型版本
在生产环 境中跟踪推理延迟、吞吐量和输出质量。当您在 Ertas 中微调改进版本时,重建 TensorRT 引擎并通过 Triton 的版本管理实现零停机模型切换。
Benefits
- 在相同硬件上比标准 PyTorch 服务实现 2-5 倍的推理吞吐量提升
- 交互式应用(如聊天、代码补全和搜索)实现亚 100ms 延迟
- 多 GPU 张量并行用于跨 GPU 集群服务大型微调模型
- 通过 Triton 的负载均衡、健康监控和版本控制实现生产就绪部署
- 针对从 RTX 到 H100 的每种 NVIDIA 架构进行硬件特定优化
- 快速模型迭代——新微调版本就绪时重建并替换 TensorRT 引擎
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.