vLLM + Ertas

Ajusta modelos en Ertas Studio y despliégalos con vLLM para servicio de grado de producción con batching continuo, PagedAttention y endpoints API compatibles con OpenAI.

Overview

vLLM es un motor de inferencia de alto rendimiento y eficiente en memoria diseñado para servicio de LLM en producción. Su innovación principal, PagedAttention, gestiona la KV cache como páginas de memoria virtual, reduciendo dramáticamente el desperdicio de memoria y habilitando un rendimiento de solicitudes concurrentes significativamente mayor comparado con frameworks de inferencia tradicionales. vLLM soporta batching continuo, paralelismo tensorial a través de múltiples GPUs, decodificación especulativa y formatos de cuantización incluyendo AWQ y GPTQ, haciéndolo la opción preferida para equipos que necesitan servir modelos a escala con latencia predecible.

A diferencia de las herramientas orientadas a escritorio, vLLM está construido para entornos de servidor donde el rendimiento, los percentiles de latencia y la utilización de recursos importan. Proporciona un servidor API compatible con OpenAI listo para usar, soporta respuestas en streaming y se integra con herramientas de observabilidad para monitorear colas de solicitudes, tasas de generación de tokens y utilización de GPU. Para organizaciones que ajustan modelos con Ertas para aplicaciones orientadas al cliente, vLLM cierra la brecha entre un modelo entrenado y un servicio de inferencia listo para producción.

How Ertas Integrates

Después de ajustar en Ertas Studio, puedes exportar tu modelo en formatos compatibles con las arquitecturas soportadas por vLLM. Para modelos en formato Hugging Face, Ertas envía los pesos ajustados directamente a un repositorio del Hub (público o privado) del que vLLM puede descargar al iniciar. Para fine-tunes basados en LoRA, Ertas exporta los pesos del adaptador por separado, permitiendo a vLLM cargarlos dinámicamente sobre un modelo base usando su soporte integrado de servicio LoRA — habilitando que múltiples variantes ajustadas compartan la misma memoria del modelo base.

Esta integración está diseñada para cargas de trabajo de producción donde el modelo necesita manejar cientos o miles de solicitudes concurrentes. Un flujo de trabajo típico implica ajustar un modelo de soporte al cliente en Ertas Studio, exportar el adaptador y desplegarlo en vLLM detrás de un balanceador de carga. El batching continuo de vLLM asegura utilización eficiente de GPU incluso bajo patrones de tráfico variables, mientras que su API compatible con OpenAI significa que tu código de aplicación no requiere cambios al migrar de un proveedor de IA en la nube a inferencia autoalojada.

Getting Started

1
Ajusta en Ertas Studio
Entrena tu modelo usando LoRA o fine-tuning de parámetros completos en Ertas Studio. LoRA es recomendado para despliegues con vLLM ya que habilita servicio eficiente de múltiples adaptadores.
2
Exporta los pesos del modelo
Envía tu modelo ajustado o adaptador LoRA a Hugging Face Hub desde Ertas Studio. Para fine-tunes completos, exporta el modelo completo; para LoRA, exporta los pesos del adaptador por separado.
3
Instala y configura vLLM
Instala vLLM en tu servidor GPU. Configura los parámetros de servicio incluyendo paralelismo tensorial, longitud máxima del modelo y utilización de memoria GPU basado en tu hardware y requisitos de tráfico.
4
Lanza el servidor vLLM
Inicia vLLM con la ruta de tu modelo o ID de repositorio de Hugging Face. Para adaptadores LoRA, especifica el modelo base y la ruta del adaptador. vLLM expone una API compatible con OpenAI inmediatamente.
5
Prueba de carga y ajusta
Ejecuta pruebas de carga contra el endpoint de vLLM para validar el rendimiento y la latencia bajo patrones de tráfico esperados. Ajusta los tamaños de batch, las solicitudes concurrentes máximas y la asignación de memoria GPU según sea necesario.
6
Despliega detrás de un balanceador de carga
Coloca el servidor vLLM detrás de un proxy inverso o balanceador de carga para tráfico de producción. Escala horizontalmente agregando más instancias de vLLM con paralelismo tensorial a través de GPUs.

bash

# After fine-tuning in Ertas Studio and pushing to Hugging Face,
# serve the model with vLLM
vllm serve my-org/my-fine-tuned-model \
  --tensor-parallel-size 2 \
  --max-model-len 4096 \
  --gpu-memory-utilization 0.9 \
  --port 8000

# For LoRA adapter serving on a shared base model
vllm serve meta-llama/Llama-3-8B \
  --enable-lora \
  --lora-modules my-adapter=my-org/my-lora-adapter \
  --port 8000

# Query the endpoint
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "my-adapter",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Sirve tu modelo ajustado con Ertas o adaptador LoRA con vLLM para inferencia de producción de alto rendimiento con una API compatible con OpenAI.

Benefits

PagedAttention ofrece hasta 24x mayor rendimiento que implementaciones de inferencia ingenuas
El batching continuo maximiza la utilización de GPU bajo cargas de tráfico variables
El servicio LoRA integrado habilita múltiples variantes ajustadas en un solo modelo base
API compatible con OpenAI para migración sin cambios desde proveedores en la nube
Paralelismo tensorial para servir modelos grandes a través de múltiples GPUs
Listo para producción con streaming, métricas y endpoints de verificación de salud