
Gestionar más de 10 modelos ajustados para diferentes clientes: guía de operaciones
Una guía de operaciones para agencias de IA que gestionan más de 10 modelos ajustados para múltiples clientes — cubriendo organización de modelos, asignación de recursos, monitoreo, actualizaciones y escalado sin caos.
Con tres clientes, puedes mantener todo en la cabeza. Con cinco, una hoja de cálculo funciona. Con diez, algo se rompe — un modelo se despliega al cliente equivocado, una actualización sobrescribe un adaptador en producción, o te das cuenta de que no tienes idea de qué GPU está ejecutando qué.
Esta es la realidad multimodelo para las agencias de IA. El trabajo que te trajo hasta aquí — fine-tuning a medida, despliegue práctico, atención personal — no escala a menos que construyas sistemas a su alrededor. Esta guía es el manual de operaciones para ejecutar más de 10 modelos ajustados para múltiples clientes sin perder la cabeza ni tus márgenes.
La realidad multimodelo
La mayoría de las agencias chocan contra el muro en algún punto entre 5 y 10 modelos activos de clientes. Los síntomas son predecibles:
- No recuerdas qué versión de qué adaptador está desplegada dónde
- Dos miembros del equipo reentrenan el mismo modelo el mismo día con datos diferentes
- Un cliente reporta rendimiento degradado y pasas 2 horas averiguando qué cambió
- Tus costos de GPU crecen más rápido que tus ingresos porque nada se comparte eficientemente
La causa raíz es siempre la misma: la gestión ad-hoc que funcionaba a pequeña escala no sobrevive al contacto con volumen real. Necesitas sistemas.
Sistema de organización de modelos
La base es una convención de nombres que codifica todo lo que necesitas saber de un vistazo. Recomendamos este formato:
{cliente}-{tarea}-{base}-v{mayor}.{menor}.{parche}
Por ejemplo:
acme-soporte-llama3-v2.1.0— Modelo de tickets de soporte de Acme Corp, basado en Llama 3, segunda versión mayorbaker-legal-mistral-v1.3.2— Modelo de revisión legal de Baker Law, basado en Mistral, con tres parches aplicados
Esta convención de nombres se mantiene en todas partes: tu sistema de archivos, tus configuraciones de despliegue, tus dashboards de monitoreo y tus comunicaciones con clientes.
La biblioteca de adaptadores LoRA
Si estás ejecutando un modelo base completo por cliente, lo estás haciendo mal. Los adaptadores LoRA son la razón por la que las agencias de IA multicliente son viables.
Estructura tu biblioteca de adaptadores así:
models/
├── base/
│ ├── llama3-8b/
│ └── mistral-7b/
├── adapters/
│ ├── acme/
│ │ ├── soporte-v2.1.0/
│ │ └── soporte-v2.0.0/ (versión anterior, conservada para rollback)
│ ├── baker/
│ │ ├── legal-v1.3.2/
│ │ └─ ─ legal-v1.3.1/
│ └── ...
└── configs/
├── acme-soporte.yaml
└── baker-legal.yaml
Cada directorio de adaptador contiene los pesos LoRA, la configuración de entrenamiento que los produjo, un hash de los datos de entrenamiento y los resultados de evaluación. Todo lo necesario para reproducir o hacer rollback.
Compartir modelo base
Aquí es donde vive la eficiencia operacional. Un único modelo base Llama 3 8B cargado en VRAM puede servir múltiples adaptadores LoRA simultáneamente. La clave: no necesitas instancias separadas del modelo para clientes separados. Necesitas adaptadores separados sobre infraestructura compartida.
En la práctica, esto significa agrupar clientes por modelo base. Si 7 de tus 12 clientes usan variantes de Llama 3 8B, esos 7 adaptadores pueden compartir un único modelo base en memoria.
Planificación de recursos
La planificación de hardware para servicio multimodelo requiere números específicos, no intuición. Esto es lo que hemos visto funcionar:
Una sola RTX 4090 (24GB VRAM):
- 1 modelo base (7-8B parámetros) + 3-5 adaptadores LoRA simultáneamente
- Maneja ~50-80 solicitudes concurrentes entre todos los adaptadores
- Bueno para: agencias con hasta 5 clientes en el mismo modelo base
Configuración dual RTX 4090:
- 2 modelos base + 6-10 adaptadores en total
- Maneja 100-160 solicitudes concurrentes
- Bueno para: agencias con 8-12 clientes en 2 familias de modelos base
A100 80GB:
- 1 modelo base grande (70B) o 2-3 modelos base más pequeños + 10-15 adaptadores
- Maneja más de 200 solicitudes concurrentes
- Bueno para: agencias con 12-20 clientes que necesitan modelos más grandes
Las matemáticas importan. Si estás pagando $2/hora por una A100 y sirviendo a 15 clientes a $3K/mes cada uno, tu costo de cómputo es ~$1,440/mes contra $45K en ingresos. Eso es un margen bruto del 96.8% solo en infraestructura.
Presupuesto de memoria por adaptador
Un adaptador LoRA para un modelo 7B típicamente agrega 10-50MB a la VRAM, dependiendo del rango. Con rango 16 (que cubre la mayoría de los casos de uso), estás viendo ~20MB por adaptador. Eso significa que la VRAM no es tu cuello de botella — el rendimiento y la latencia sí lo son.
Planifica para el uso concurrente pico por cliente. Si el Cliente A envía 5 solicitudes/minuto durante horario laboral y el Cliente B envía 20, tu infraestructura de servicio necesita manejar 25 solicitudes/minuto en ese modelo base durante las horas de superposición.
Elementos esenciales de monitoreo
No puedes gestionar lo que no mides. Para operaciones multicliente, necesitas cuatro categorías de monitoreo:
1. Latencia por modelo
Rastrea la latencia P50, P95 y P99 para el modelo de cada cliente por separado. Un pico de latencia en un adaptador afecta a todos los adaptadores que comparten ese modelo base. Configura alertas al 2x de la línea base P95.
Latencias objetivo para la mayoría de los casos de uso de agencias:
- Clasificación/extracción simple: P95 menor a 500ms
- Generación corta (1-2 párrafos): P95 menor a 2s
- Generación larga (documentos completos): P95 menor a 10s
2. Deriva de precisión
Los modelos se degradan con el tiempo a medida que el mundo cambia y las necesidades de los clientes evolucionan. Configura ejecuciones de evaluación automatizadas — semanalmente como mínimo — contra el conjunto de pruebas dorado de cada cliente. Rastrea precisión, tasa de alucinaciones y cumplimiento de formato.
Cuando la precisión cae más de 3 puntos porcentuales desde la línea base post-entrenamiento, es hora de reentrenar. No esperes a que el cliente lo note.
3. Seguimiento de uso
Registra cada solicitud de inferencia con: marca de tiempo, ID de cliente, versión del modelo, conteo de tokens de entrada, conteo de tokens de salida, latencia. Estos datos sirven para tres propósitos:
- Planificación de capacidad (cuándo agregar hardware)
- Facturación al cliente (basada en uso o para cargos por exceso)
- Recolección de datos de entrenamiento (las entradas de producción son tu próximo conjunto de entrenamiento)
4. Asignación de costos por cliente
Conoce exactamente cuánto te cuesta cada cliente. La fórmula:
Costo del cliente = (horas GPU × proporción de cómputo) + (almacenamiento para adaptador + datos) + (horas de personal para mantenimiento)
Si el costo de un cliente supera el 40% de su tarifa mensual, algo necesita cambiar — ya sea tu precio o tu eficiencia.
Flujo de trabajo de actualizaciones
El reentrenamiento es donde la mayoría de las agencias crean caos. Aquí está el flujo de trabajo que lo previene:
Calendario de reentrenamiento
Establece una cadencia por nivel de cliente:
- Clientes estándar: reentrenamiento trimestral
- Clientes premium: reentrenamiento mensual
- Clientes enterprise: mejora continua con despliegues mensuales
Nunca reentenes de forma ad-hoc. Prográmalo, asigna recursos y comunícalo.
Despliegue A/B para actualizaciones
Nunca intercambies un modelo en producción en el mismo lugar. En su lugar:
- Despliega la nueva versión del adaptador junto a la actual
- Dirige el 10% del tráfico a la nueva versión (canary)
- Monitorea durante 24-48 horas
- Si las métricas se mantienen o mejoran, sube al 50%, luego al 100%
- Mantén la versión antigua disponible durante 7 días después del cambio
Esto requiere disciplina, pero previene las llamadas a las 3am de "el modelo está roto".
Procedimientos de rollback
El rollback debería tomar menos de 60 segundos. Como estás intercambiando adaptadores LoRA, no modelos completos, esto es alcanzable:
- Apunta la referencia del adaptador de vuelta a la versión anterior
- El modelo base permanece cargado — no se necesita reinicio
- Confirma con una prueba rápida contra 5-10 entradas conocidas
- Notifica al cliente que has revertido y estás investigando
Si el rollback toma más de 5 minutos, tu sistema de despliegue necesita trabajo.
Errores comunes de escalado
Hemos visto a agencias cometer estos errores repetidamente. Ahórrate el dolor:
Un modelo base por cliente. Cargar instancias separadas del mismo modelo 7B para cada cliente desperdicia más del 90% de tu VRAM. Usa modelos base compartidos con adaptadores LoRA por cliente.
Sin versionamiento. "Solo voy a sobrescribir el archivo del adaptador" es una declaración que precede al desastre. Versiona todo. Mantén al menos 3 versiones anteriores por cliente.
Despliegue manual. Si desplegar una actualización de modelo requiere conectarse por SSH a un servidor y ejecutar comandos a mano, cometerás errores bajo presión. Automatiza tu pipeline de despliegue — incluso un script simple es mejor que pasos manuales.
Ignorar la contención de recursos. Cuando el trabajo por lotes del Cliente A se ejecuta a las 2pm y el tráfico en tiempo real del Cliente B tiene su pico al mismo tiempo, ambos se vuelven lentos. Entiende tus patrones de tráfico y planifica para la superposición.
Sin seguimiento de costos. Las agencias que no rastrean costos por cliente inevitablemente tienen clientes que cuestan más de lo que pagan. Esto erosiona tu negocio sin que te des cuenta.
Dashboard multimodelo de Ertas Studio
Ertas Studio fue construido específicamente para el flujo de trabajo de agencia multicliente. El dashboard te da una vista única de todos los modelos desplegados para todos los clientes:
- Registro de modelos con historial completo de versiones, linaje de entrenamiento y puntuaciones de evaluación
- Monitor de recursos que muestra uso de cómputo por adaptador y asignación de costos
- Pipeline de evaluación automatizado que ejecuta tus suites de pruebas según programa y alerta sobre deriva
- Despliegue con un clic con enrutamiento canary y rollback instantáneo
- Vistas por cliente para que puedas compartir datos de monitoreo con clientes sin exponer a otros inquilinos
El objetivo es que gestionar 20 modelos se sienta como gestionar 2. El sistema maneja la coordinación; tú manejas las relaciones con clientes y la calidad del modelo.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Cómo se ve esto en la práctica
Una agencia que ejecuta 12 clientes en Ertas típicamente opera con:
- 2-3 modelos base sirviendo a los 12 clientes vía adaptadores LoRA
- Evaluaciones semanales automatizadas que detectan deriva antes de que los clientes la noten
- Ciclos de reentrenamiento mensuales para clientes premium, trimestrales para estándar
- Un pipeline de despliegue que lleva un adaptador reentrenado de evaluación a producción en menos de una hora
- Seguimiento de costos por cliente mostrando márgenes brutos del 70-85%
Esa es la diferencia entre una agencia que se desespera y una que escala. Los modelos son el producto, pero las operaciones son el negocio.
¿Construyendo una práctica de IA multicliente? Lee más sobre arquitectura de despliegue multitenant, cómo las agencias usan adaptadores LoRA por cliente para bufetes de abogados, y estrategias para reducir costos a medida que escalas.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

How to QA a Fine-Tuned Model Before Client Delivery
A complete QA process for testing fine-tuned models before delivering them to clients — covering functional testing, edge cases, regression checks, and client acceptance criteria.

The AI Agency's Guide to Model Versioning and Client Rollbacks
How AI agencies should version, track, and roll back fine-tuned models — covering naming schemes, change logs, A/B deployment, and emergency rollback procedures.

AI Agency Proposal Template: How to Win Custom Model Projects
Most AI agency proposals lose because they lead with technology. Here's the structure, the writing formula, and the common mistakes that cost agencies deals.