What is Model Routing?

Dirigir solicitudes de inferencia de IA a diferentes modelos o adaptadores basándose en propiedades de la solicitud como tipo de tarea, identidad del cliente, complejidad o restricciones de costo — habilitando despliegues multi-modelo eficientes.

Definition

Model routing es un patrón de infraestructura donde una capa proxy ligera examina las solicitudes de inferencia entrantes y dirige cada una al modelo, adaptador o endpoint óptimo basándose en reglas configurables o clasificadores aprendidos. En lugar de enviar cada solicitud al mismo modelo independientemente de la complejidad, un enrutador puede despachar consultas simples a un modelo pequeño rápido y económico y reservar los modelos grandes costosos para solicitudes que genuinamente requieren sus capacidades. El enrutador actúa como un controlador de tráfico inteligente entre tu aplicación y tu flota de modelos.

En despliegues multi-tenant y multi-adaptador, el model routing se extiende más allá de la selección de modelo a la selección de adaptador — enrutando solicitudes al adaptador LoRA correcto basándose en el ID de tenant, tipo de tarea o contexto de aplicación. Esto hace del enrutador el punto central de orquestación para la infraestructura de IA: maneja el aislamiento de tenants, el balanceo de carga, las pruebas A/B entre versiones del modelo, los despliegues canary de nuevos adaptadores, y el fallback elegante cuando un modelo primario no está disponible. Una capa de enrutamiento bien diseñada transforma una colección de endpoints de modelo independientes en una plataforma de servicio de IA unificada y manejable.

Why It Matters

La optimización de costos es el beneficio más inmediato del model routing. Los estudios muestran consistentemente que el 60-80% de las solicitudes de inferencia en producción son lo suficientemente simples para que un modelo pequeño (3B-7B parámetros) las maneje correctamente, mientras que solo el 20-40% requiere un modelo más grande (13B-70B+). Sin enrutamiento, las organizaciones o pagan de más enviando todo al modelo grande o sacrifican calidad usando solo el modelo pequeño. Un enrutador que clasifica correctamente la complejidad de las solicitudes y las despacha en consecuencia puede reducir los costos promedio de inferencia en un 40-70% con un impacto insignificante en la calidad de salida.

Más allá del costo, el model routing habilita patrones operativos que son imposibles con despliegues de un solo modelo. Las pruebas A/B permiten comparar un nuevo adaptador ajustado contra la versión de producción actual dividiendo el tráfico 90/10 y midiendo métricas de calidad. Los despliegues canary permiten lanzar una nueva versión del modelo al 5% del tráfico, monitorear regresiones, y revertir automáticamente si las tasas de error aumentan. El fallback elegante enruta solicitudes a un modelo secundario cuando el primario está sobrecargado o caído, manteniendo la disponibilidad durante problemas de infraestructura. Para agencias de IA que sirven múltiples clientes, el enrutamiento por ID de tenant es el mecanismo que hace funcionar la inferencia multi-tenant — las solicitudes de cada cliente se dirigen transparentemente a su adaptador específico sin ninguna configuración del lado del cliente.

How It Works

Las implementaciones de model routing caen en tres categorías: basado en reglas, basado en clasificación e híbrido. El enrutamiento basado en reglas usa configuración estática — por ejemplo, todas las solicitudes con un encabezado de ID de tenant se enrutan al adaptador de ese tenant, todas las solicitudes al endpoint /summarize van al modelo de resumen, y todas las solicitudes que exceden 2,000 tokens de entrada van al modelo grande. El enrutamiento basado en reglas es simple, predecible y fácil de depurar, haciéndolo el punto de partida correcto para la mayoría de los despliegues.

El enrutamiento basado en clasificación usa un modelo clasificador pequeño y rápido (o incluso un pipeline de regex/heurísticas) para analizar cada solicitud y predecir qué modelo la manejará mejor. El clasificador podría evaluar la complejidad de la entrada, detectar el idioma, identificar el tipo de tarea o estimar la profundidad de razonamiento requerida. Este enfoque se adapta a los patrones de solicitudes automáticamente pero agrega latencia de inferencia por el paso de clasificación (típicamente 5-20ms). Los enfoques híbridos combinan ambos: las reglas manejan los casos claros (enrutamiento de tenant, selección basada en endpoint) mientras un clasificador maneja los ambiguos (selección de modelo basada en complejidad). El enrutador en sí se implementa típicamente como un reverse proxy o API gateway — lo suficientemente ligero para agregar latencia mínima mientras proporciona un punto de entrada único para todos los modelos y adaptadores posteriores.

Example Use Case

Una plataforma SaaS ofrece procesamiento de documentos impulsado por IA con dos funcionalidades principales: clasificación simple de documentos y resumen complejo de documentos con extracción de entidades. Despliegan un modelo Phi-3 3.8B para tareas de clasificación y un modelo Llama 3 13B para resumen. Su enrutador de modelos examina cada solicitud entrante: si la ruta API es /classify o la entrada tiene menos de 500 tokens, enruta al modelo de 3B; si la ruta es /summarize o la entrada excede 2,000 tokens, enruta al modelo de 13B. Para casos ambiguos (entradas de longitud media al endpoint general /process), una heurística ligera estima la complejidad de la tarea. El resultado: el 65% de las solicitudes llegan al modelo de 3B a $0.0001 por solicitud, y el 35% llegan al modelo de 13B a $0.0008 por solicitud. El costo promedio combinado es $0.00035 por solicitud — 60% más barato que enrutar todo al modelo de 13B, con menos del 1% de degradación de calidad en tareas de clasificación según su suite de evaluación.

Key Takeaways

El model routing dirige solicitudes de inferencia al modelo o adaptador óptimo basándose en propiedades de la solicitud, habilitando despliegues multi-modelo rentables.
Enrutar el 60-80% de las solicitudes simples a modelos más pequeños puede reducir los costos promedio de inferencia en un 40-70% con impacto mínimo en la calidad.
El enrutamiento basado en tenant es el mecanismo que habilita la inferencia multi-tenant — mapeando las solicitudes de cada cliente a su adaptador LoRA específico.
Las pruebas A/B, los despliegues canary y el fallback elegante son patrones de enrutamiento que traen mejores prácticas de ingeniería de producción al servicio de IA.
Comienza con enrutamiento basado en reglas para predecibilidad, luego agrega enrutamiento basado en clasificación para casos ambiguos conforme tu despliegue madure.

How Ertas Helps

Ertas Cloud incluye una capa de model routing integrada para despliegues multi-adaptador. Cuando se registran múltiples adaptadores de clientes contra un modelo base compartido, Ertas automáticamente enruta solicitudes por clave API de tenant al adaptador correcto. Para equipos que ejecutan múltiples tamaños de modelo, Ertas soporta políticas de enrutamiento basadas en reglas que dirigen tráfico basándose en propiedades de la solicitud, así como división de tráfico A/B para comparar versiones de adaptadores durante el fine-tuning iterativo. Los flujos de trabajo de despliegue canary permiten a los equipos lanzar nuevos adaptadores a un pequeño porcentaje de tráfico antes de la promoción completa, reduciendo el riesgo de regresiones de calidad en producción.