Ertas para Agencias de Automatización con IA

Las agencias de automatización con IA pueden reducir costos en más del 90% al pasar de la reventa de API por cliente a modelos locales ajustados. Ertas permite a las agencias ejecutar un solo modelo base con adaptadores LoRA por cliente, reemplazando facturas impredecibles de API por token con costos de infraestructura fijos — mientras entregan mejores resultados y verdadera soberanía de datos.

The Challenge

Las agencias de automatización con IA que construyen chatbots, agentes de voz y automatización de flujos de trabajo para clientes enfrentan un problema brutal de márgenes. Cada compromiso con un cliente significa otra clave de API de OpenAI o Anthropic, otra línea de gasto variable por token que escala con el uso — no con el valor entregado. Una agencia que gestiona más de 10–20 clientes en GPT-4 o Claude puede gastar fácilmente entre AU$3,000 y AU$5,000 al mes solo en costos de API, y esos costos son completamente impredecibles. Un pico de uso de un solo cliente puede eliminar el margen de toda una cuenta. Herramientas como Make.com, n8n, Voiceflow y Stammer.ai facilitan la configuración de flujos de trabajo con IA, pero todas canalizan la inferencia a través de las mismas API comerciales, dejando a las agencias sin control alguno sobre su mayor costo variable.

Más allá del costo, el problema de diferenciación es aún más existencial. Cuando todas las agencias revenden la misma API de GPT-4 o Claude detrás de una plantilla de prompt ligeramente diferente, no hay ventaja competitiva. Los clientes eventualmente se dan cuenta de que pueden eliminar al intermediario y llamar a la API directamente. Mientras tanto, los datos de los clientes — conversaciones con usuarios, contexto empresarial propietario, detalles operativos sensibles — fluyen a través de infraestructura de terceros con cada llamada a la API. Los clientes empresariales cada vez rechazan más esto, exigiendo saber dónde se procesan y almacenan sus datos. Las agencias que no pueden responder "tus datos nunca salen de nuestra infraestructura" están perdiendo contratos frente a competidores que sí pueden.

The Solution

Ertas transforma el modelo de agencia de revendedor de API a proveedor de IA personalizada. En lugar de mantener suscripciones de API separadas para cada cliente, las agencias despliegan un solo modelo base eficiente (7B–14B parámetros) y adjuntan adaptadores LoRA por cliente, ajustados con los datos específicos de cada uno — su tono de voz, catálogo de productos, base de preguntas frecuentes e historial de conversaciones. El resultado es una experiencia de IA a medida para cada cliente, ejecutándose en infraestructura que la agencia controla, con costos de inferencia fijos y predecibles. Un solo Mac Studio o un servidor GPU modesto puede atender a docenas de clientes simultáneamente a través de Ollama, reemplazando miles de dólares en gasto mensual de API con una inversión única en hardware.

El modelo de entrega marca blanca se vuelve extremadamente simple. Cada cliente obtiene su propio adaptador cargado en el momento de la inferencia, con Vault asegurando un aislamiento estricto de datos entre inquilinos. Los datos del cliente nunca salen de la infraestructura de la agencia — o de la propia infraestructura del cliente si requieren despliegue on-premise. Los modelos ajustados superan a los modelos fundacionales genéricos en tareas específicas del dominio porque han sido entrenados con los datos reales que importan, no forzados mediante prompts a aproximarlos. Las agencias pueden iterar sobre adaptadores en Studio sin tocar los sistemas que el cliente utiliza, hacer pruebas A/B con nuevas versiones de adaptadores y revertir instantáneamente si la calidad disminuye. La línea de costo variable de API desaparece del estado de resultados por completo, reemplazada por un presupuesto fijo de infraestructura que mejora el margen con cada nuevo cliente agregado.

Key Features

Studio

Fine-Tuning por Cliente

Studio permite a las agencias crear y gestionar adaptadores LoRA para cada cliente a partir de un modelo base compartido. Sube los registros de conversación, datos de productos o base de conocimientos de un cliente, configura una ejecución de fine-tuning y produce un adaptador que captura el dominio y tono específico de ese cliente — todo sin escribir scripts de entrenamiento ni gestionar infraestructura GPU directamente.

Hub

Selección de Modelo Base

Hub proporciona acceso a cientos de modelos de pesos abiertos optimizados para diferentes tareas — conversacionales, instruccionales, multilingües, con capacidad de código. Las agencias pueden evaluar modelos base contra los requisitos del cliente, comparar tamaños de parámetros y niveles de cuantización, y seleccionar la base adecuada para cada nivel de compromiso.

Cloud

Despliegue Multi-Inquilino

Cloud permite a las agencias desplegar un solo modelo base con adaptadores por cliente cargados dinámicamente, manejando el enrutamiento y la conmutación de adaptadores en el momento de la inferencia. Escala de 5 a 50 clientes sin crecimiento proporcional de infraestructura — cada nuevo cliente es solo otro adaptador LoRA ligero, no otra instancia de modelo.

Vault

Aislamiento de Datos del Cliente

Vault aplica límites estrictos entre inquilinos en todos los datos de entrenamiento, pesos de adaptadores y registros de inferencia de cada cliente. Los datos de cada cliente están cifrados en reposo y en tránsito, controlados por acceso mediante clave API y completamente invisibles para otros inquilinos — cumpliendo los requisitos de soberanía de datos que los clientes empresariales exigen antes de firmar.

Example Workflow

Una agencia de automatización con IA en Melbourne gestiona despliegues de chatbots y agentes de voz para 15 clientes de pequeñas y medianas empresas en los sectores inmobiliario, dental y de oficios. Su configuración actual enruta toda la inferencia a través de GPT-4 mediante integraciones de Make.com y Voiceflow, con un costo de AU$4,200 al mes en tarifas de API — con solo tres clientes representando AU$1,800 debido a altos volúmenes de conversación. La agencia decide migrar a Ertas. Comienzan con su cliente de mayor gasto, una agencia inmobiliaria cuyo chatbot maneja 12,000 conversaciones al mes sobre listados de propiedades, reservas de inspecciones y preguntas de precalificación. La agencia exporta 6 meses de registros de conversación (45,000 pares de mensajes) de su sistema existente y los sube a Vault como un conjunto de entrenamiento JSONL. En Studio, seleccionan un modelo base Qwen 2.5 7B de Hub, configuran una ejecución de fine-tuning con LoRA de rango 16 y 3 épocas, y lanzan el entrenamiento en Cloud. El adaptador resultante obtiene un 92% en un conjunto de prueba reservado para precisión de respuestas — comparado con el 78% de su configuración de GPT-4 cuidadosamente diseñada con prompts. Exportan el adaptador como GGUF y lo despliegan junto con Ollama en un Mac Mini M4 Pro (AU$2,800 de costo único) ubicado en su oficina. Después de migrar a los 15 clientes a adaptadores LoRA individuales en el mismo modelo base, su costo mensual de inferencia de IA baja a AU$14.50 por Ertas más electricidad e internet — una reducción del 99.6%. El hardware se paga solo en 3 semanas.

Compliance & Security

El despliegue local significa que los datos del cliente nunca salen de la infraestructura de la agencia ni de las instalaciones del propio cliente. Esto satisface los requisitos de soberanía de datos para clientes empresariales y gubernamentales bajo la Ley de Privacidad de Australia y el GDPR. Las agencias pueden proporcionar garantías escritas de que ningún dato del cliente se transmite a proveedores de IA de terceros, un requisito cada vez más incluido en las solicitudes de propuestas de adquisición empresarial.