Gestionar más de 10 modelos ajustados para diferentes clientes: guía de operaciones

Con tres clientes, puedes mantener todo en la cabeza. Con cinco, una hoja de cálculo funciona. Con diez, algo se rompe — un modelo se despliega al cliente equivocado, una actualización sobrescribe un adaptador en producción, o te das cuenta de que no tienes idea de qué GPU está ejecutando qué.

Esta es la realidad multimodelo para las agencias de IA. El trabajo que te trajo hasta aquí — fine-tuning a medida, despliegue práctico, atención personal — no escala a menos que construyas sistemas a su alrededor. Esta guía es el manual de operaciones para ejecutar más de 10 modelos ajustados para múltiples clientes sin perder la cabeza ni tus márgenes.

La realidad multimodelo

La mayoría de las agencias chocan contra el muro en algún punto entre 5 y 10 modelos activos de clientes. Los síntomas son predecibles:

No recuerdas qué versión de qué adaptador está desplegada dónde
Dos miembros del equipo reentrenan el mismo modelo el mismo día con datos diferentes
Un cliente reporta rendimiento degradado y pasas 2 horas averiguando qué cambió
Tus costos de GPU crecen más rápido que tus ingresos porque nada se comparte eficientemente

La causa raíz es siempre la misma: la gestión ad-hoc que funcionaba a pequeña escala no sobrevive al contacto con volumen real. Necesitas sistemas.

Sistema de organización de modelos

La base es una convención de nombres que codifica todo lo que necesitas saber de un vistazo. Recomendamos este formato:

{cliente}-{tarea}-{base}-v{mayor}.{menor}.{parche}

Por ejemplo:

acme-soporte-llama3-v2.1.0 — Modelo de tickets de soporte de Acme Corp, basado en Llama 3, segunda versión mayor
baker-legal-mistral-v1.3.2 — Modelo de revisión legal de Baker Law, basado en Mistral, con tres parches aplicados

Esta convención de nombres se mantiene en todas partes: tu sistema de archivos, tus configuraciones de despliegue, tus dashboards de monitoreo y tus comunicaciones con clientes.

La biblioteca de adaptadores LoRA

Si estás ejecutando un modelo base completo por cliente, lo estás haciendo mal. Los adaptadores LoRA son la razón por la que las agencias de IA multicliente son viables.

Estructura tu biblioteca de adaptadores así:

models/
├── base/
│   ├── llama3-8b/
│   └── mistral-7b/
├── adapters/
│   ├── acme/
│   │   ├── soporte-v2.1.0/
│   │   └── soporte-v2.0.0/  (versión anterior, conservada para rollback)
│   ├── baker/
│   │   ├── legal-v1.3.2/
│   │   └── legal-v1.3.1/
│   └── ...
└── configs/
    ├── acme-soporte.yaml
    └── baker-legal.yaml

Cada directorio de adaptador contiene los pesos LoRA, la configuración de entrenamiento que los produjo, un hash de los datos de entrenamiento y los resultados de evaluación. Todo lo necesario para reproducir o hacer rollback.

Compartir modelo base

Aquí es donde vive la eficiencia operacional. Un único modelo base Llama 3 8B cargado en VRAM puede servir múltiples adaptadores LoRA simultáneamente. La clave: no necesitas instancias separadas del modelo para clientes separados. Necesitas adaptadores separados sobre infraestructura compartida.

En la práctica, esto significa agrupar clientes por modelo base. Si 7 de tus 12 clientes usan variantes de Llama 3 8B, esos 7 adaptadores pueden compartir un único modelo base en memoria.

Planificación de recursos

La planificación de hardware para servicio multimodelo requiere números específicos, no intuición. Esto es lo que hemos visto funcionar:

Una sola RTX 4090 (24GB VRAM):

1 modelo base (7-8B parámetros) + 3-5 adaptadores LoRA simultáneamente
Maneja ~50-80 solicitudes concurrentes entre todos los adaptadores
Bueno para: agencias con hasta 5 clientes en el mismo modelo base

Configuración dual RTX 4090:

2 modelos base + 6-10 adaptadores en total
Maneja 100-160 solicitudes concurrentes
Bueno para: agencias con 8-12 clientes en 2 familias de modelos base

A100 80GB:

1 modelo base grande (70B) o 2-3 modelos base más pequeños + 10-15 adaptadores
Maneja más de 200 solicitudes concurrentes
Bueno para: agencias con 12-20 clientes que necesitan modelos más grandes

Las matemáticas importan. Si estás pagando $2/hora por una A100 y sirviendo a 15 clientes a $3K/mes cada uno, tu costo de cómputo es ~$1,440/mes contra $45K en ingresos. Eso es un margen bruto del 96.8% solo en infraestructura.

Presupuesto de memoria por adaptador

Un adaptador LoRA para un modelo 7B típicamente agrega 10-50MB a la VRAM, dependiendo del rango. Con rango 16 (que cubre la mayoría de los casos de uso), estás viendo ~20MB por adaptador. Eso significa que la VRAM no es tu cuello de botella — el rendimiento y la latencia sí lo son.

Planifica para el uso concurrente pico por cliente. Si el Cliente A envía 5 solicitudes/minuto durante horario laboral y el Cliente B envía 20, tu infraestructura de servicio necesita manejar 25 solicitudes/minuto en ese modelo base durante las horas de superposición.

Elementos esenciales de monitoreo

No puedes gestionar lo que no mides. Para operaciones multicliente, necesitas cuatro categorías de monitoreo:

1. Latencia por modelo

Rastrea la latencia P50, P95 y P99 para el modelo de cada cliente por separado. Un pico de latencia en un adaptador afecta a todos los adaptadores que comparten ese modelo base. Configura alertas al 2x de la línea base P95.

Latencias objetivo para la mayoría de los casos de uso de agencias:

Clasificación/extracción simple: P95 menor a 500ms
Generación corta (1-2 párrafos): P95 menor a 2s
Generación larga (documentos completos): P95 menor a 10s

2. Deriva de precisión

Los modelos se degradan con el tiempo a medida que el mundo cambia y las necesidades de los clientes evolucionan. Configura ejecuciones de evaluación automatizadas — semanalmente como mínimo — contra el conjunto de pruebas dorado de cada cliente. Rastrea precisión, tasa de alucinaciones y cumplimiento de formato.

Cuando la precisión cae más de 3 puntos porcentuales desde la línea base post-entrenamiento, es hora de reentrenar. No esperes a que el cliente lo note.

3. Seguimiento de uso

Registra cada solicitud de inferencia con: marca de tiempo, ID de cliente, versión del modelo, conteo de tokens de entrada, conteo de tokens de salida, latencia. Estos datos sirven para tres propósitos:

Planificación de capacidad (cuándo agregar hardware)
Facturación al cliente (basada en uso o para cargos por exceso)
Recolección de datos de entrenamiento (las entradas de producción son tu próximo conjunto de entrenamiento)

4. Asignación de costos por cliente

Conoce exactamente cuánto te cuesta cada cliente. La fórmula:

Costo del cliente = (horas GPU × proporción de cómputo) + (almacenamiento para adaptador + datos) + (horas de personal para mantenimiento)

Si el costo de un cliente supera el 40% de su tarifa mensual, algo necesita cambiar — ya sea tu precio o tu eficiencia.

Flujo de trabajo de actualizaciones

El reentrenamiento es donde la mayoría de las agencias crean caos. Aquí está el flujo de trabajo que lo previene:

Calendario de reentrenamiento

Establece una cadencia por nivel de cliente:

Clientes estándar: reentrenamiento trimestral
Clientes premium: reentrenamiento mensual
Clientes enterprise: mejora continua con despliegues mensuales

Nunca reentenes de forma ad-hoc. Prográmalo, asigna recursos y comunícalo.

Despliegue A/B para actualizaciones

Nunca intercambies un modelo en producción en el mismo lugar. En su lugar:

Despliega la nueva versión del adaptador junto a la actual
Dirige el 10% del tráfico a la nueva versión (canary)
Monitorea durante 24-48 horas
Si las métricas se mantienen o mejoran, sube al 50%, luego al 100%
Mantén la versión antigua disponible durante 7 días después del cambio

Esto requiere disciplina, pero previene las llamadas a las 3am de "el modelo está roto".

Procedimientos de rollback

El rollback debería tomar menos de 60 segundos. Como estás intercambiando adaptadores LoRA, no modelos completos, esto es alcanzable:

Apunta la referencia del adaptador de vuelta a la versión anterior
El modelo base permanece cargado — no se necesita reinicio
Confirma con una prueba rápida contra 5-10 entradas conocidas
Notifica al cliente que has revertido y estás investigando

Si el rollback toma más de 5 minutos, tu sistema de despliegue necesita trabajo.

Errores comunes de escalado

Hemos visto a agencias cometer estos errores repetidamente. Ahórrate el dolor:

Un modelo base por cliente. Cargar instancias separadas del mismo modelo 7B para cada cliente desperdicia más del 90% de tu VRAM. Usa modelos base compartidos con adaptadores LoRA por cliente.

Sin versionamiento. "Solo voy a sobrescribir el archivo del adaptador" es una declaración que precede al desastre. Versiona todo. Mantén al menos 3 versiones anteriores por cliente.

Despliegue manual. Si desplegar una actualización de modelo requiere conectarse por SSH a un servidor y ejecutar comandos a mano, cometerás errores bajo presión. Automatiza tu pipeline de despliegue — incluso un script simple es mejor que pasos manuales.

Ignorar la contención de recursos. Cuando el trabajo por lotes del Cliente A se ejecuta a las 2pm y el tráfico en tiempo real del Cliente B tiene su pico al mismo tiempo, ambos se vuelven lentos. Entiende tus patrones de tráfico y planifica para la superposición.

Sin seguimiento de costos. Las agencias que no rastrean costos por cliente inevitablemente tienen clientes que cuestan más de lo que pagan. Esto erosiona tu negocio sin que te des cuenta.

Dashboard multimodelo de Ertas Studio

Ertas Studio fue construido específicamente para el flujo de trabajo de agencia multicliente. El dashboard te da una vista única de todos los modelos desplegados para todos los clientes:

Registro de modelos con historial completo de versiones, linaje de entrenamiento y puntuaciones de evaluación
Monitor de recursos que muestra uso de cómputo por adaptador y asignación de costos
Pipeline de evaluación automatizado que ejecuta tus suites de pruebas según programa y alerta sobre deriva
Despliegue con un clic con enrutamiento canary y rollback instantáneo
Vistas por cliente para que puedas compartir datos de monitoreo con clientes sin exponer a otros inquilinos

El objetivo es que gestionar 20 modelos se sienta como gestionar 2. El sistema maneja la coordinación; tú manejas las relaciones con clientes y la calidad del modelo.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Cómo se ve esto en la práctica

Una agencia que ejecuta 12 clientes en Ertas típicamente opera con:

2-3 modelos base sirviendo a los 12 clientes vía adaptadores LoRA
Evaluaciones semanales automatizadas que detectan deriva antes de que los clientes la noten
Ciclos de reentrenamiento mensuales para clientes premium, trimestrales para estándar
Un pipeline de despliegue que lleva un adaptador reentrenado de evaluación a producción en menos de una hora
Seguimiento de costos por cliente mostrando márgenes brutos del 70-85%

Esa es la diferencia entre una agencia que se desespera y una que escala. Los modelos son el producto, pero las operaciones son el negocio.

¿Construyendo una práctica de IA multicliente? Lee más sobre arquitectura de despliegue multitenant, cómo las agencias usan adaptadores LoRA por cliente para bufetes de abogados, y estrategias para reducir costos a medida que escalas.