TensorRT-LLM + Ertas

Exporta modelos ajustados de Ertas y despliégalos en GPUs NVIDIA usando TensorRT-LLM, logrando máximo rendimiento de inferencia y mínima latencia para aplicaciones de IA de grado de producción a escala.

Overview

TensorRT-LLM es la biblioteca de inferencia de alto rendimiento de NVIDIA diseñada específicamente para desplegar modelos de lenguaje grandes en GPUs NVIDIA. Aplica optimizaciones avanzadas incluyendo fusión de kernel, compilación consciente de cuantización, batching en vuelo y gestión de KV-cache paginado para exprimir el máximo rendimiento del hardware GPU. Los modelos compilados con TensorRT-LLM rutinariamente logran 2-5x mayor rendimiento y significativamente menor latencia comparado con la inferencia estándar de PyTorch, haciéndolo el runtime preferido para despliegues de LLM en producción que necesitan servir a muchos usuarios concurrentes.

TensorRT-LLM soporta todo el espectro de hardware NVIDIA desde tarjetas RTX de consumo hasta GPUs de centro de datos H100 y B200, con optimizaciones adaptadas a cada arquitectura. Maneja paralelismo tensorial multi-GPU y multi-nodo para modelos que exceden la memoria de una sola GPU, y se integra con el Triton Inference Server de NVIDIA para servicio en producción con balanceo de carga, versionado de modelos y monitoreo de salud. Para organizaciones que ejecutan modelos ajustados en producción — ya sea para aplicaciones orientadas al cliente, herramientas internas o servicios API — TensorRT-LLM representa la ruta de despliegue de mayor rendimiento en hardware NVIDIA.

How Ertas Integrates

Ertas Studio maneja la fase de personalización del modelo — curando datos de entrenamiento, ejecutando trabajos de fine-tuning y exportando modelos entrenados — mientras TensorRT-LLM maneja la fase de despliegue en producción, optimizando esos modelos para máximo rendimiento en GPU. Después de ajustar un modelo en Ertas, lo exportas en un formato compatible con el pipeline de compilación de TensorRT-LLM, que compila el modelo en un motor optimizado adaptado a tu hardware GPU específico y requisitos de servicio.

Esta separación de responsabilidades permite a tu equipo enfocarse en la calidad del modelo en Ertas sin preocuparse por la optimización de despliegue, y enfocarse en el rendimiento de servicio en TensorRT-LLM sin preocuparse por la infraestructura de entrenamiento. El flujo de trabajo soporta iteración rápida: ajusta una nueva versión en Ertas, reconstruye el motor TensorRT e intercámbialo en producción con mínimo tiempo de inactividad. Para equipos que sirven modelos ajustados a muchos usuarios — bots de soporte al cliente, asistentes de codificación, pipelines de procesamiento de documentos — la combinación ofrece tanto la especificidad de dominio del fine-tuning como el rendimiento bruto necesario para la escala de producción.

Getting Started

1
Ajusta tu modelo en Ertas Studio
Prepara tu dataset específico de dominio, selecciona un modelo base y ejecuta el fine-tuning en Ertas Studio. Usa el seguimiento de experimentos para identificar el mejor checkpoint basado en tus métricas de evaluación.
2
Exporta el modelo en un formato compatible
Exporta el modelo ajustado desde Ertas en formato safetensors de Hugging Face o PyTorch. Asegúrate de que la arquitectura del modelo sea soportada por los scripts de conversión de TensorRT-LLM para la familia de modelo base elegida.
3
Construye el motor TensorRT-LLM
Usa la API de compilación de TensorRT-LLM para compilar el modelo en un motor optimizado para tu GPU objetivo. Configura el nivel de cuantización (FP16, INT8, FP8), el paralelismo tensorial para configuraciones multi-GPU y el tamaño máximo de batch basado en tus requisitos de servicio.
4
Despliega con Triton Inference Server
Carga el motor compilado en NVIDIA Triton Inference Server para servicio en producción. Configura el versionado de modelos, batching dinámico, verificaciones de salud y un endpoint API compatible con OpenAI para aplicaciones cliente.
5
Monitorea e itera en versiones de modelos
Rastrea la latencia de inferencia, el rendimiento y la calidad de salida en producción. Cuando ajustes versiones mejoradas en Ertas, reconstruye el motor TensorRT y despliega con intercambios de modelo sin tiempo de inactividad a través de la gestión de versiones de Triton.

Benefits

Mejora de 2-5x en rendimiento de inferencia sobre el servicio estándar de PyTorch en el mismo hardware
Latencia inferior a 100ms para aplicaciones interactivas como chat, completación de código y búsqueda
Paralelismo tensorial multi-GPU para servir modelos ajustados grandes a través de clústeres de GPU
Despliegue listo para producción con balanceo de carga, monitoreo de salud y versionado de Triton
Optimizaciones específicas de hardware para cada arquitectura NVIDIA desde RTX hasta H100
Iteración rápida de modelos — reconstruye e intercambia motores TensorRT cuando las nuevas versiones ajustadas estén listas