Back to blog
    Agentes de IA por Cliente para Agencias: Playbook de LoRA + Tool Calling
    agencyai-agentsloratool-callingsegment:agencyper-client

    Agentes de IA por Cliente para Agencias: Playbook de LoRA + Tool Calling

    Cada cliente de agencia recibe el mismo wrapper de GPT. Ese es el problema. Con adaptadores LoRA por cliente y esquemas de herramientas personalizados, puedes entregar agentes de IA que conocen el CRM, flujos de trabajo y terminologia de cada cliente — a 50-200MB por cliente. Aqui esta el playbook completo.

    EErtas Team·

    El mercado de agencias de IA en 2026 tiene un problema de diferenciacion. Nueve de cada diez agencias venden lo mismo: un wrapper de GPT-4 conectado a las herramientas del cliente via Zapier o Make.com. El cliente obtiene un chatbot que mas o menos funciona, se rompe en casos extremos, y cuesta $0.03 por consulta en tarifas de API que alguien tiene que absorber.

    Los clientes lo saben. Han hablado con tres agencias y recibido tres propuestas identicas. El precio se convierte en el unico diferenciador, y la competencia de precios mata los margenes.

    Aqui esta la alternativa: agentes de IA por cliente construidos sobre un modelo base compartido con adaptadores LoRA individuales. El agente de cada cliente conoce SUS herramientas, SUS flujos de trabajo, SU terminologia. No generico. No un wrapper. Un modelo que fue entrenado con sus datos y sus esquemas de herramientas.

    Asi es como cobras $3K-8K por configuracion en lugar de $500. Y como mantienes clientes en retainers de $500-2K/mes en lugar de verlos irse despues de 3 meses.

    La Arquitectura: Base Compartida + LoRA por Cliente

    La idea central es simple:

    Modelo Base (Qwen 2.5 7B o Llama 3.3 8B)
      ├── Adaptador LoRA Cliente A (herramientas HubSpot + flujo e-commerce)
      ├── Adaptador LoRA Cliente B (herramientas Salesforce + flujo onboarding SaaS)
      ├── Adaptador LoRA Cliente C (herramientas Pipedrive + flujo intake consultoria)
      ├── Adaptador LoRA Cliente D (API CRM personalizada + flujo logistica)
      └── Adaptador LoRA Cliente E (herramientas HubSpot + flujo bienes raices)
    

    Un modelo base. Cinco adaptadores. Cada adaptador es de 50-200MB dependiendo del rango y la cuantizacion. El modelo base es ~4GB (cuantizado Q4). Almacenamiento total para 5 clientes: 4GB + 0.25-1GB = menos de 5GB.

    En tiempo de inferencia, cargas el modelo base una vez e intercambias el adaptador LoRA por solicitud. El intercambio de adaptador toma 50-200ms — invisible para el usuario final.

    Que Hace Diferente al Agente de Cada Cliente

    Esquemas de Herramientas

    El Cliente A usa HubSpot. El Cliente B usa Salesforce. El Cliente C usa Pipedrive. Las firmas de funciones son completamente diferentes:

    Cliente A (HubSpot):

    {
      "name": "create_deal",
      "params": {"dealname": "string", "pipeline": "string", "dealstage": "string", "amount": "number"}
    }
    

    Cliente B (Salesforce):

    {
      "name": "create_opportunity",
      "params": {"Name": "string", "StageName": "string", "CloseDate": "date", "Amount": "number"}
    }
    

    Misma intencion de negocio (crear un trato de venta), esquemas completamente diferentes. Un modelo generico adivina los nombres de parametros y los confunde el 20-30% de las veces. Un adaptador ajustado los acierta el 95%+ porque ha visto cientos de ejemplos del esquema exacto de TU cliente.

    Patrones de Flujo de Trabajo

    El proceso de ventas del Cliente A: Lead, Llamada de Calificacion, Propuesta, Negociacion, Cerrado. El intake de consultoria del Cliente C: Consulta, Evaluacion de Necesidades, Borrador de SOW, Contrato, Kickoff. El agente necesita saber que paso viene despues, que datos recopilar en cada etapa, y cuando escalar a un humano.

    Los modelos genericos no tienen idea sobre estos flujos. Los adaptadores ajustados si, porque los entrenaste con los datos reales del flujo de trabajo del cliente.

    Terminologia y Tono

    El Cliente A llama a sus clientes "cuentas." El Cliente D los llama "remitentes." El Cliente A quiere comunicacion formal. El Cliente C quiere casual. El adaptador absorbe estos matices de los datos de entrenamiento sin reglas explicitas.

    Ejemplo: 5 Clientes de Agencia

    Asi es como se ve un despliegue real de 5 clientes:

    ClienteCRMHerramientas ClaveTamano AdaptadorEjemplos de EntrenamientoConsultas Mensuales
    Acme E-commerceHubSpotcreate_deal, update_contact, log_activity, check_inventory85MB4503,200
    CloudStack SaaSSalesforcecreate_opportunity, update_case, assign_task, check_usage120MB6205,100
    Summit ConsultingPipedrivecreate_deal, add_note, schedule_meeting, generate_sow75MB3801,800
    FastFreight LogisticsAPI Personalizadacreate_shipment, track_package, update_route, notify_customer140MB5508,400
    Metro RealtyHubSpotcreate_deal, schedule_showing, update_listing, send_followup90MB4102,600

    Almacenamiento total de adaptadores: 510MB. Modelo base total: 4.2GB. Todo funciona en un solo servidor con 16GB de RAM.

    Construyendo los Datos de Entrenamiento

    Para cada cliente, necesitas 300-700 ejemplos de entrenamiento que cubran:

    1. Seleccion de Herramienta (40% de los ejemplos)

    Mensaje del usuario emparejado con la llamada correcta a la herramienta:

    {
      "messages": [
        {"role": "system", "content": "You are Acme's sales assistant. Available tools: [create_deal, update_contact, log_activity, check_inventory]"},
        {"role": "user", "content": "New deal from Johnson Corp, $45K, they're in the proposal stage"},
        {"role": "assistant", "content": null, "tool_calls": [{"function": {"name": "create_deal", "arguments": "{\"dealname\": \"Johnson Corp\", \"pipeline\": \"default\", \"dealstage\": \"proposalmaker\", \"amount\": 45000}"}}]}
      ]
    }
    

    2. Secuencias Multi-Herramienta (25% de los ejemplos)

    Flujos de trabajo que requieren 2-3 llamadas a herramientas en secuencia:

    "Log a call with Johnson Corp — we discussed the proposal, they want a revised quote by Friday, and move the deal to negotiation stage."
    → log_activity (call notes) → update_contact (next follow-up: Friday) → create_deal (update stage to negotiation)
    

    3. Clarificacion y Rechazo (20% de los ejemplos)

    Cuando la solicitud del usuario es ambigua o fuera de alcance:

    "Delete all the old leads" → "I can help clean up leads, but I need to confirm: should I archive leads older than 90 days with no activity, or do you have different criteria?"
    

    4. Manejo de Errores (15% de los ejemplos)

    Cuando una llamada a herramienta falla y el modelo necesita recuperarse:

    Tool result: {"error": "deal_stage 'proposal' not found. Valid stages: proposalmaker, decisionmaker, closedwon, closedlost"}
    → Retry with corrected stage name
    

    De Donde Vienen los Datos

    La mejor fuente: los logs de chat existentes del cliente, tickets de soporte e historial de actividad del CRM. Exporta 6 meses de datos, filtra por los flujos de trabajo que estas automatizando, y formatea en pares de entrenamiento. Para clientes nuevos sin historial, construye ejemplos sinteticos basados en sus esquemas de herramientas y documentacion de flujos de trabajo — generacion de datos sinteticos cubre esto en detalle.

    El Proceso de Fine-Tuning

    Por cliente, el fine-tuning toma:

    • Preparacion de datos: 2-4 horas (principalmente formateo y deduplicacion)
    • Fine-tuning: 20-40 minutos en una sola GPU (LoRA rango 16, 3 epocas)
    • Evaluacion: 1-2 horas (ejecutar suite de pruebas, verificar precision por herramienta y flujo de trabajo)
    • Total: Medio dia por cliente

    Con Ertas, el flujo de trabajo es: sube el dataset formateado, selecciona el modelo base, configura los parametros de LoRA, haz clic en entrenar. Sin infraestructura de ML que gestionar. Sin depurar CUDA.

    Modelo de Precios

    Esta arquitectura soporta precios premium porque el entregable es genuinamente personalizado:

    Tarifa de Configuracion: $3,000 - $8,000

    Cubre:

    • Descubrimiento (mapear herramientas, flujos de trabajo, terminologia del cliente) — 4-8 horas
    • Recopilacion y formateo de datos — 4-8 horas
    • Fine-tuning y evaluacion — 4-6 horas
    • Integracion y pruebas — 4-8 horas
    • Total de labor de agencia: 16-30 horas a $150-250/hr

    El cliente obtiene un agente que demostrablemente conoce sus herramientas y flujos de trabajo. Les muestras lado a lado: GPT generico vs su agente ajustado en 10 solicitudes reales. La diferencia se vende sola.

    Retainer Mensual: $500 - $2,000

    Cubre:

    • Alojamiento e inferencia ($50-150 de costo real por infraestructura compartida)
    • Monitoreo y mantenimiento (2-4 horas/mes)
    • Reentrenamiento mensual con nuevos datos (1-2 horas/mes)
    • Reportes de rendimiento

    Matematicas de Margen

    ItemIngresoCostoMargen
    Configuracion (por cliente)$5,000$2,000 (labor)$3,000
    Retainer mensual (por cliente)$1,000$300 (infra + labor)$700
    Ano 1 por cliente$17,000$5,600$11,400 (67%)

    Compara esto con revender acceso a la API de GPT-4 donde tu margen es el markup sobre los costos de API — que los clientes eventualmente descubren y te eliminan.

    Diferenciacion: Por Que Esto Supera a los Wrappers de GPT

    Cuando propones "construimos agentes de IA personalizados," todas las agencias dicen lo mismo. Asi es como el LoRA por cliente cambia la conversacion:

    Demo 1: Precision de herramientas. Muestra al cliente 10 llamadas a herramientas. Tu agente acierta 9-10. El wrapper de GPT acierta 7-8 (y 2-3 de esas necesitan correcciones de parametros).

    Demo 2: Conocimiento del flujo de trabajo. Pregunta a ambos agentes "cual es el siguiente paso para este trato?" Tu agente conoce las etapas especificas del pipeline del cliente. El wrapper de GPT da una respuesta generica.

    Demo 3: Terminologia. Usa la jerga del cliente en una solicitud. Tu agente responde naturalmente. El wrapper de GPT pide aclaracion o malinterpreta.

    Demo 4: Proyeccion de costos. Muestra al cliente: "A tu volumen de consultas, los costos de API de GPT-4 son $X/mes y eso sube a medida que escalas. Nuestro agente funciona en infraestructura fija — $Y/mes ya sea que envies 1,000 o 10,000 consultas."

    Almacenamiento e Infraestructura

    Almacenamiento por Cliente

    • Adaptador LoRA (rango 16, Q4): 50-100MB
    • Adaptador LoRA (rango 32, Q4): 100-200MB
    • Archivo de datos de entrenamiento: 10-50MB
    • Resultados de evaluacion y logs: 5-10MB

    Total por cliente: 65-360MB. Digamos 200MB en promedio.

    Escalando la Infraestructura

    • 5 clientes: Un solo servidor, 16GB RAM, 1 GPU. Todos los adaptadores en memoria. ~$150/mes en la nube o $3K de hardware unico.
    • 20 clientes: Un solo servidor, 32GB RAM, 1 GPU. Intercambio de adaptadores. 20 x 200MB = 4GB de almacenamiento de adaptadores. ~$300/mes en la nube.
    • 50+ clientes: Dos servidores para redundancia. Balanceador de carga enruta por cliente. ~$600/mes en la nube.

    El modelo base se carga una vez. El intercambio de adaptador es casi instantaneo. No necesitas 50 instancias de modelo separadas — necesitas un modelo y 50 archivos de adaptador pequenos.

    Playbook de Escalamiento: Del Primer Cliente a Productizado

    Fase 1: Primeros 3 Clientes (Manual)

    Todo es a medida. Te sientas con cada cliente, mapeas sus flujos de trabajo a mano, construyes datos de entrenamiento manualmente y ajustas individualmente. Aqui es donde aprendes que funciona y construyes tus plantillas.

    Objetivo de ingreso: $15K-24K configuracion + $1.5K-6K/mes recurrente.

    Fase 2: Clientes 4-10 (Plantillas)

    Has visto suficientes patrones para crear plantillas. La plantilla de "agente CRM" cubre HubSpot, Salesforce y Pipedrive con esquemas de herramientas preconstruidos. El onboarding de clientes baja de 30 horas a 12 horas. Creas un cuestionario de ingreso que captura el 80% de lo que necesitas.

    Objetivo de ingreso: $30K-60K configuracion + $4K-16K/mes recurrente.

    Fase 3: Clientes 10+ (Productizado)

    Construye un portal de autoservicio. El cliente conecta su CRM, sube interacciones de muestra, selecciona su tipo de flujo de trabajo. El sistema genera datos de entrenamiento desde plantillas, ajusta automaticamente y despliega el adaptador. Tu revisas la calidad antes de poner en vivo.

    La tarifa de configuracion baja a $1K-3K (mayormente automatizado). El retainer mensual se mantiene en $500-1K. El volumen compensa el menor ingreso por cliente.

    Objetivo de ingreso: $20K-60K configuracion + $10K-30K/mes recurrente.

    La Barrera de Entrada

    Para la Fase 3, tienes algo que ninguna agencia de wrappers de GPT tiene: una biblioteca de plantillas de entrenamiento especificas del dominio, un pipeline de despliegue que toma dias en lugar de semanas, y adaptadores por cliente que tus competidores no pueden replicar simplemente registrandose para una clave de API.

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lecturas Adicionales

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading