TensorRT-LLM + Ertas

从 Ertas 导出微调模型并使用 TensorRT-LLM 在 NVIDIA GPU 上部署，为生产级 AI 应用实现最大推理吞吐量和最低延迟。

Overview

TensorRT-LLM 是 NVIDIA 专为在 NVIDIA GPU 上部署大语言模型而构建的高性能推理库。它应用内核融合、量化感知编译、动态批处理和分页 KV 缓存管理等先进优化，从 GPU 硬件中榨取最大性能。使用 TensorRT-LLM 编译的模型通常比标准 PyTorch 推理实现 2-5 倍更高的吞吐量和显著更低的延迟，使其成为需要服务大量并发用户的生产 LLM 部署的首选运行时。

TensorRT-LLM 支持从消费级 RTX 显卡到数据中心 H100 和 B200 GPU 的全系列 NVIDIA 硬件，并针对每种架构进行了优化。它处理超过单 GPU 内存的模型的多 GPU 和多节点张量并行，并与 NVIDIA 的 Triton 推理服务器集成，提供生产环境所需的负载均衡、模型版本控制和健康监控。对于在生产中运行微调模型的组织——无论是面向客户的应用、内部工具还是 API 服务——TensorRT-LLM 代表了 NVIDIA 硬件上的最高性能部署路径。

How Ertas Integrates

Ertas Studio 处理模型定制阶段——整理训练数据、运行微调作业和导出训练模型——而 TensorRT-LLM 处理生产部署阶段，为最大 GPU 性能优化这些模型。在 Ertas 中微调模型后，您以与 TensorRT-LLM 构建管道兼容的格式导出，该管道将模型编译为针对您特定 GPU 硬件和服务需求定制的优化引擎。

这种关注点分离让您的团队可以在 Ertas 中专注于模型质量而不必担心部署优化，在 TensorRT-LLM 中专注于服务性能而不必担心训练基础设施。该工作流支持快速迭代：在 Ertas 中微调新版本，重建 TensorRT 引擎，以最小停机时间将其部署到生产环境。对于向大量用户提供微调模型服务的团队——客服机器人、编码助手、文档处理管道——这种组合既提供微调的领域特定性，又提供生产规模所需的原始性能。

Getting Started

1
在 Ertas Studio 中微调您的模型
准备领域特定数据集，选择基础模型，并在 Ertas Studio 中运行微调。使用实验跟踪根据评估指标识别最佳检查点。
2
以兼容格式导出模型
从 Ertas 以 Hugging Face safetensors 或 PyTorch 格式导出微调模型。确保模型架构被 TensorRT-LLM 的转换器脚本支持。
3
构建 TensorRT-LLM 引擎
使用 TensorRT-LLM 的构建 API 将模型编译为针对目标 GPU 的优化引擎。配置量化级别（FP16、INT8、FP8）、多 GPU 设置的张量并行，以及根据服务需求设置的最大批量大小。
4
使用 Triton 推理服务器部署
将编译好的引擎加载到 NVIDIA Triton 推理服务器中进行生产服务。配置模型版本控制、动态批处理、健康检查和兼容 OpenAI 的 API 端点供客户端应用使用。
5
监控并迭代模型版本
在生产环境中跟踪推理延迟、吞吐量和输出质量。当您在 Ertas 中微调改进版本时，重建 TensorRT 引擎并通过 Triton 的版本管理实现零停机模型切换。