Despliegue de IA multitenant: un modelo base, docenas de adaptadores por cliente

Si diriges una agencia de IA, ya conoces la tensión: cada cliente quiere un modelo que se sienta entrenado a medida para su dominio, su tono, sus casos extremos. Pero crear una instancia de modelo dedicada para cada cliente es una vía rápida a la bancarrota de GPUs. Las matemáticas simplemente no funcionan a escala.

La buena noticia es que no tienes que elegir entre personalización y rentabilidad. El despliegue de IA multitenant con intercambio en caliente de adaptadores LoRA te permite servir a docenas de clientes desde un solo modelo base — cada uno obteniendo comportamiento genuinamente personalizado sin el costo de infraestructura separada.

El desafío multitenant

Las agencias típicamente empiezan con un solo modelo ajustado compartido entre todos los clientes. Eso funciona hasta que el Cliente A necesita lenguaje médico formal, el Cliente B necesita textos de e-commerce casual y el Cliente C necesita resúmenes legales estructurados. De repente, tu modelo de talla única no satisface a nadie.

La solución ingenua es un modelo por cliente. Cargar un modelo de 7B parámetros para cada uno, y estás viendo aproximadamente 14GB de VRAM por instancia. Veinte clientes significan 280GB de memoria GPU — múltiples A100 solo para mantener las luces encendidas. Los costos de hosting se disparan y tus márgenes se evaporan.

Lo que necesitas es una arquitectura que entregue personalización por cliente a costo de infraestructura compartida.

La arquitectura: modelo base + adaptadores por cliente

La solución es directa en concepto: mantén una copia del modelo base cargada en la memoria GPU e intercambia adaptadores LoRA ligeros por solicitud.

Un adaptador LoRA modifica el comportamiento de un modelo inyectando pequeñas matrices de pesos entrenables en capas específicas. La clave es que estos adaptadores son diminutos — típicamente 50-150MB para un modelo 7B, comparado con los 14GB del base. El modelo base maneja el trabajo pesado de comprensión general del lenguaje. El adaptador dirige la salida hacia el estilo, dominio y requisitos de un cliente específico.

En la práctica, tu servidor de inferencia mantiene el modelo base residente en la memoria GPU en todo momento. Cuando llega una solicitud etiquetada con un ID de cliente, el servidor carga el adaptador correspondiente, ejecuta la inferencia y devuelve el resultado. Los pesos base nunca se mueven.

Cómo funciona el intercambio en caliente de adaptadores

La mecánica del intercambio de adaptadores es sorprendentemente eficiente. Un adaptador LoRA modifica solo un pequeño subconjunto de las matrices de pesos del modelo — generalmente las capas de atención. Cargar un adaptador significa agregar estas pequeñas matrices delta sobre los pesos base. Descargar significa eliminarlas.

En hardware moderno, este intercambio toma milisegundos de un solo dígito. El modelo base permanece residente en VRAM durante todo el proceso. No hay carga de modelo, no hay deserialización de checkpoint, no hay período de calentamiento. El adaptador simplemente se enchufa y desenchufa.

Esto es fundamentalmente diferente de cargar un modelo completo, que puede tomar 30-60 segundos dependiendo del tamaño y la velocidad de almacenamiento.

Las matemáticas de almacenamiento

Aquí es donde el despliegue multitenant se vuelve convincente a nivel de hoja de cálculo:

Enfoque tradicional (un modelo por cliente): 20 clientes x 14GB por modelo = 280GB de VRAM total necesaria

Enfoque de adaptadores: 1 x 14GB modelo base + 20 x 100MB adaptadores = 16GB de VRAM total (adaptadores cargados bajo demanda)

Eso es una reducción de 17x en requisitos de memoria. Puedes servir a 20 clientes desde una sola GPU que habría requerido un clúster multinodo bajo el enfoque tradicional. Con 50 clientes, los ahorros son aún más dramáticos.

El almacenamiento de adaptadores en disco es igualmente modesto. Cien adaptadores a 100MB cada uno son 10GB de espacio SSD — trivial por cualquier medida.

Enrutamiento de solicitudes y flujo de inferencia

El flujo de solicitudes para inferencia multitenant se ve así:

Llega la solicitud del cliente con una clave API o identificador de cliente
El router resuelve el ID de cliente al archivo de adaptador correspondiente
Verificación de caché de adaptador — si el adaptador ya está cargado, salta al paso 5
Cargar adaptador en la memoria GPU junto al modelo base
Ejecutar inferencia con los pesos combinados base + adaptador
Devolver respuesta al cliente

Para agencias con una cantidad manejable de clientes activos (digamos, menos de 20 concurrentemente), puedes mantener todos los adaptadores cargados simultáneamente. Un modelo base 7B más 20 adaptadores cabe cómodamente en 24GB de VRAM — una sola GPU de grado consumidor.

Para rosters de clientes más grandes, una estrategia de caché LRU (menos recientemente usado) funciona bien. Mantén los adaptadores de los clientes más activos cargados e intercambia los menos activos bajo demanda. El tiempo de intercambio en milisegundos significa que incluso los fallos de caché son invisibles para los usuarios finales.

Consideraciones de rendimiento

Si bien la arquitectura es elegante, hay detalles prácticos que vale la pena planificar:

Latencia de carga de adaptador. Cargar en frío un adaptador desde SSD toma 10-50ms. Desde NVMe, es más rápido. Para aplicaciones sensibles a la latencia, precalienta adaptadores para clientes con patrones de uso predecibles.

Inferencia por lotes. Si múltiples solicitudes para el mismo cliente llegan simultáneamente, agrúpalas. Si llegan solicitudes para diferentes clientes, tienes dos opciones: procesarlas secuencialmente (intercambiando adaptadores entre solicitudes) o mantener múltiples slots de adaptadores y procesar en paralelo. La opción correcta depende de tus requisitos de rendimiento.

Versionamiento de adaptadores. Los clientes iteran. Su adaptador de hace tres meses puede estar desactualizado. Necesitas un sistema para versionar adaptadores, hacer rollback y probar nuevas versiones A/B contra el tráfico de producción.

Dimensionamiento de infraestructura

Una guía aproximada para planificación de infraestructura:

1-20 clientes concurrentes: Servidor con una sola GPU (24-48GB VRAM). Todos los adaptadores permanecen cargados. Simple y rentable.
20-100 clientes concurrentes: Una sola GPU de alta gama (80GB VRAM) o un par de GPUs de 48GB. El caché LRU de adaptadores maneja la rotación.
Más de 100 clientes concurrentes: Clúster de GPUs con balanceo de carga. Fragmenta clientes entre nodos, cada uno ejecutando el mismo modelo base con un subconjunto de adaptadores.

La mayoría de las agencias caen directamente en el primer nivel. Un solo servidor con una RTX 4090 o A6000 puede manejar más de 20 clientes con margen cómodo.

Cómo Ertas encaja en esta arquitectura

Ertas está diseñado para hacer el despliegue de IA multitenant práctico para agencias que no emplean un equipo dedicado de ML ops.

Gestión de adaptadores por cliente. Entrena, versiona y despliega adaptadores LoRA para cada cliente a través de una interfaz unificada. Los datos de entrenamiento y el historial de adaptadores de cada cliente están aislados y son auditables.

Vault para aislamiento de datos. Los datos de clientes nunca se mezclan. Ertas Vault aplica aislamiento estricto de inquilinos en la capa de datos — crítico para agencias que manejan información sensible de clientes en múltiples industrias.

Exportación GGUF. Cuando un cliente necesita su modelo ejecutándose on-premise o en dispositivos edge, exporta su adaptador fusionado con el modelo base como un solo archivo GGUF. Un clic, y tienen un modelo independiente listo para Ollama o llama.cpp.

El resultado es una agencia que puede incorporar un nuevo cliente, ajustar su adaptador y desplegarlo en el stack multitenant — todo sin tocar código de infraestructura.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Comienza a construir tu stack multitenant

El despliegue de IA multitenant no es un patrón arquitectónico del futuro. Es cómo operan las agencias de IA más eficientes hoy. La combinación de modelos base compartidos y adaptadores LoRA por cliente entrega personalización genuina a una fracción del costo.

Si estás listo para ir más allá de un-modelo-por-cliente y construir una agencia de IA escalable, Ertas proporciona la infraestructura de entrenamiento, despliegue y gestión de datos para lograrlo.

Despliegue de IA multitenant: un modelo base, docenas de adaptadores por cliente

El desafío multitenant

La arquitectura: modelo base + adaptadores por cliente

Cómo funciona el intercambio en caliente de adaptadores

Las matemáticas de almacenamiento

Enrutamiento de solicitudes y flujo de inferencia

Consideraciones de rendimiento

Dimensionamiento de infraestructura

Cómo Ertas encaja en esta arquitectura

Comienza a construir tu stack multitenant

Lectura adicional

Ship AI that runs on your users' devices.

Keep reading

White-Label AI: Build Custom Models for Every Client

The AI Agency's Guide to Model Versioning and Client Rollbacks

Running 10+ Fine-Tuned Models for Different Clients: Operations Guide