Back to blog
    Modelos Ajustados para CrewAI: Flujos Multi-Agente Sin Costos de API
    crewaiagentsfine-tuningmulti-agentcost-reductionsegment:developer

    Modelos Ajustados para CrewAI: Flujos Multi-Agente Sin Costos de API

    Un flujo de trabajo CrewAI con 4 agentes que realizan más de 20 llamadas LLM por tarea puede costar $2-5 por ejecución en GPT-4. Los modelos locales ajustados hacen que los flujos multi-agente sean económicamente viables.

    EErtas Team·

    CrewAI hizo accesibles los flujos de trabajo multi-agente. Define agentes con roles, dales herramientas, conéctalos en un crew y déjalos colaborar en tareas complejas. Un investigador recopila información, un analista la evalúa, un escritor produce el output, un revisor lo verifica. Cuatro agentes, un flujo de trabajo cohesivo.

    El problema es que "cuatro agentes colaborando" significa "cuatro agentes cada uno haciendo 5-10 llamadas LLM". Una sola ejecución de crew en GPT-4o puede fácilmente alcanzar 20-40 llamadas a la API. A $2.50/$10 por millón de tokens de entrada/salida, con cada agente procesando 2,000-5,000 tokens por paso, una sola ejecución de tarea cuesta $2-5.

    Ejecuta ese crew 100 veces por día — una carga de trabajo de producción modesta — y estás gastando $200-$500/día. Eso es $6,000-$15,000/mes por una herramienta de automatización de flujos de trabajo.

    Las arquitecturas multi-agente tienen un problema de multiplicación de costos. Cada agente que agregas multiplica la factura de API. Los modelos locales ajustados son la única forma de hacer que los flujos multi-agente sean económicamente sostenibles a escala.

    El Problema de Multiplicación de Costos

    Las arquitecturas de un solo agente tienen una relación de costo lineal: una solicitud, una llamada LLM, un cargo. Las arquitecturas multi-agente tienen una relación multiplicativa.

    Considera un crew de creación de contenido:

    1. Agente de Investigación: Busca en la web, lee fuentes, produce un resumen de investigación (3-5 llamadas LLM)
    2. Agente Escritor: Toma el resumen y produce un borrador (2-3 llamadas LLM)
    3. Agente Editor: Revisa el borrador, sugiere cambios, reescribe secciones (3-5 llamadas LLM)
    4. Agente SEO: Analiza el contenido, agrega palabras clave, optimiza la estructura (2-3 llamadas LLM)

    Son 10-16 llamadas LLM por artículo. Con precios de GPT-4o y tamaños de prompt promedio:

    • Por artículo: $1.50-$4.00
    • 10 artículos/día: $15-$40
    • 300 artículos/mes: $450-$1,200

    Ahora agrega un agente de verificación de hechos y uno de formateo. Estás en 16-24 llamadas por artículo y $2,500-$5,000/mes. El costo escala linealmente con agentes y linealmente con volumen de tareas. Multiplica ambos y los costos se componen rápidamente.

    Qué Roles de CrewAI Funcionan con Modelos Ajustados

    No todos los roles de agente en un crew necesitan el mismo nivel de capacidad del modelo. Aquí hay un desglose práctico:

    Roles Que Funcionan Bien con Modelos Ajustados de 7-8B

    Agentes Investigadores/Recopiladores

    Estos agentes toman un tema, formulan consultas de búsqueda y sintetizan información de los resultados de herramientas. La tarea central es generación de consultas (output estructurado) y resumen (compresión). Los modelos ajustados manejan ambos de forma confiable.

    Un agente investigador ajustado aprende tus patrones de investigación específicos: qué fuentes prefieres, cómo quieres los resúmenes formateados, qué nivel de detalle incluir. Produce resúmenes más consistentes que GPT-4 con un system prompt, porque los datos de entrenamiento codifican tus preferencias directamente.

    Agentes Escritores/Generadores

    Para escritura específica de dominio — descripciones de productos, documentación de soporte, copy de marketing con una voz de marca específica — los modelos ajustados frecuentemente son mejores que GPT-4 con prompts. No se desvían de tu estilo. No agregan calificadores que no querías. Producen output que suena como tu marca porque fueron entrenados con el contenido de tu marca.

    Agentes Analizadores/Clasificadores

    Agentes que evalúan, puntúan o categorizan entradas. "¿Este lead está calificado o no calificado?" "¿Cuál es el sentimiento de esta reseña?" "¿Qué departamento debería manejar este ticket?" Estas son tareas de clasificación — el punto dulce para modelos pequeños ajustados.

    Agentes Formateadores/Post-Procesadores

    Agentes que toman output sin procesar y lo formatean para un objetivo específico: convertir a markdown, generar HTML, estructurar como JSON, formatear para una API específica. Tareas puras de output estructurado donde los modelos ajustados logran 99%+ de cumplimiento.

    Roles Que Aún Se Benefician de Modelos Frontier

    Agentes Planificadores Estratégicos

    Agentes que necesitan crear planes multi-paso para problemas novedosos. "Dados estos requisitos de negocio, diseña una campaña de marketing dirigida a estos demográficos a través de estos canales." Esto requiere razonamiento creativo sobre combinaciones novedosas de factores.

    Agentes de Razonamiento Complejo

    Agentes que necesitan evaluar múltiples puntos de datos conflictivos y hacer juicios matizados. "Dadas estas tres reseñas conflictivas, estos datos de precios y estas tendencias de mercado, recomienda una estrategia de inversión." El razonamiento multifactorial con compensaciones es donde los modelos frontier mantienen ventaja.

    Agentes Revisores Adversarios

    Agentes específicamente diseñados para encontrar defectos, desafiar supuestos y poner a prueba outputs. Estos necesitan el conocimiento amplio y la flexibilidad de razonamiento de modelos más grandes para capturar errores sutiles.

    Asignando Diferentes Modelos a Diferentes Agentes

    CrewAI soporta configuración personalizada de LLM por agente. Así es como implementar un crew con modelos mixtos:

    from crewai import Agent, Crew, Task
    from langchain_ollama import ChatOllama
    from langchain_openai import ChatOpenAI
    
    # Modelos locales ajustados para roles especializados
    researcher_llm = ChatOllama(model="ft-researcher-8b")
    writer_llm = ChatOllama(model="ft-writer-8b")
    editor_llm = ChatOllama(model="ft-editor-8b")
    
    # GPT-4o para planificación estratégica
    strategist_llm = ChatOpenAI(model="gpt-4o")
    
    researcher = Agent(
        role="Research Analyst",
        goal="Gather and synthesize information on the given topic",
        llm=researcher_llm,
        tools=[search_tool, web_scraper],
    )
    
    writer = Agent(
        role="Content Writer",
        goal="Produce clear, well-structured content",
        llm=writer_llm,
    )
    
    editor = Agent(
        role="Content Editor",
        goal="Review and improve content quality",
        llm=editor_llm,
    )
    
    strategist = Agent(
        role="Content Strategist",
        goal="Develop content strategy and evaluate alignment with business goals",
        llm=strategist_llm,  # Complex reasoning stays on GPT-4
    )
    

    Esto te da los beneficios de costo de la inferencia local para 3 de 4 agentes mientras mantienes el razonamiento de modelo frontier para el agente que genuinamente lo necesita.

    Entrenando Adaptadores LoRA Especializados por Rol de Agente

    El enfoque más efectivo: un modelo base, múltiples adaptadores LoRA — uno por rol de agente. Cada adaptador especializa el modelo base para su tarea específica.

    Selección del Modelo Base

    Llama 3.1 8B Instruct y Qwen 2.5 7B Instruct son las opciones prácticas para adaptadores de agentes en 2026. Ambos soportan tool calling de forma nativa, manejan bien el output estructurado y caben cómodamente en una GPU de 24GB con espacio para múltiples adaptadores LoRA en memoria.

    Datos de Entrenamiento de Adaptadores por Rol

    Datos de entrenamiento del adaptador investigador:

    • Entrada: tema de investigación + herramientas disponibles
    • Salida: consultas de investigación estructuradas, llamadas a herramientas, hallazgos resumidos
    • Formato: conversaciones multi-turno mostrando el proceso completo de investigación
    • Tamaño del dataset: 300-600 ejemplos

    Datos de entrenamiento del adaptador escritor:

    • Entrada: resumen de investigación o esquema de contenido + directrices de estilo
    • Salida: contenido terminado en formato objetivo
    • Formato: pares de entrada-salida con ejemplos consistentes en estilo
    • Tamaño del dataset: 500-1,000 ejemplos (más datos = mejor consistencia de estilo)

    Datos de entrenamiento del adaptador editor:

    • Entrada: borrador de contenido + directrices de edición
    • Salida: contenido editado con cambios rastreados o comentarios de edición
    • Formato: pares antes/después mostrando ediciones específicas y razonamiento
    • Tamaño del dataset: 400-800 ejemplos

    Datos de entrenamiento del adaptador analizador:

    • Entrada: datos o contenido a evaluar
    • Salida: análisis estructurado en un formato específico (puntuaciones, categorías, recomendaciones)
    • Formato: entrada a output JSON estructurado
    • Tamaño del dataset: 300-500 ejemplos

    Proceso de Entrenamiento

    Sube cada dataset a Ertas como un trabajo de fine-tuning separado. Selecciona el mismo modelo base para todos los adaptadores. Cada ejecución de entrenamiento produce un archivo de adaptador LoRA (50-200MB). Almacena todos los adaptadores en la misma máquina que el modelo base.

    Tiempo total de entrenamiento: 1-3 horas por adaptador, así que 4-12 horas para un crew completo. Almacenamiento total de adaptadores: 200-800MB para un crew de cuatro agentes. Compara eso con cuatro copias separadas del modelo completo a 4GB cada una.

    Comparación de Costos: Tres Configuraciones

    Comparemos un crew de contenido de cuatro agentes ejecutando 500 tareas por día.

    Configuración 1: Todo GPT-4o

    Cada agente usa GPT-4o. 20 llamadas LLM por tarea, ~3,000 tokens por llamada.

    • 10,000 llamadas/día x 3,000 tokens x $6.25/M tokens (tarifa combinada)
    • $187.50/día → $5,625/mes

    Configuración 2: Crew Mixto (3 Local, 1 GPT-4o)

    Investigador, escritor, editor en modelos locales ajustados. Estratega en GPT-4o.

    • 15,000 llamadas locales/día: $0
    • 5,000 llamadas GPT-4o/día x 3,000 tokens x $6.25/M tokens: $93.75/día
    • GPU en la nube (A10G): $300/mes
    • $93.75/día + $300/mes → $3,112/mes (45% de reducción)

    Configuración 3: Todo Local (Solo Fallback a GPT-4o)

    Todos los agentes en modelos locales ajustados. GPT-4o llamado solo cuando la confianza es baja (~5% de tareas).

    • 19,500 llamadas locales/día: $0
    • 500 llamadas GPT-4o/día x 3,000 tokens x $6.25/M tokens: $9.38/día
    • GPU en la nube (A10G): $300/mes
    • $9.38/día + $300/mes → $581/mes (90% de reducción)

    Pasando de $5,625/mes a $581/mes. Eso es un ahorro de $60,528/año para un solo flujo de trabajo de crew.

    Manejando la Comunicación Inter-Agente

    En CrewAI, los agentes se comunican pasando outputs como contexto al siguiente agente. Cuando todos los agentes usan GPT-4, esto funciona naturalmente — cada agente recibe la ventana de contexto completa del output del agente anterior.

    Con modelos locales ajustados, necesitas ser cuidadoso con la gestión del contexto:

    Mantén los mensajes inter-agente concisos. Entrena a tus agentes para producir outputs estructurados y compactos en lugar de narrativas verbosas. Un investigador que produce un resumen estructurado en JSON es mejor que uno que escribe un ensayo de 2,000 palabras — menos contexto para que procese el siguiente agente, inferencia más rápida y parseo más predecible.

    Estandariza los formatos de comunicación. Define un esquema para cada traspaso agente a agente. El investigador produce {"topic": "...", "key_facts": [...], "sources": [...]}. El escritor espera exactamente este formato. Ajusta ambos agentes en este esquema compartido. Esto elimina la negociación de formato que desperdicia tokens cuando los agentes se comunican en texto libre.

    Usa ventanas de contexto más pequeñas. Los modelos ajustados de 8B funcionan bien dentro de contextos de 2,048-4,096 tokens. Diseña tu comunicación de agentes para que quepa dentro de estos límites. Si el output del investigador excede 2K tokens, agrega un paso de resumen (también ajustado) antes de pasarlo al escritor.

    Monitoreo e Iteración

    Después de desplegar un crew ajustado, monitorea estas métricas:

    • Tasa de éxito de tarea por agente: ¿Cada agente completa su rol exitosamente?
    • Tasa de éxito del crew de extremo a extremo: ¿El flujo de trabajo completo produce output aceptable?
    • Tasa de fallback: ¿Con qué frecuencia un agente local dispara un fallback a GPT-4?
    • Latencia por agente: ¿Algún agente ajustado es más lento de lo esperado?

    Registra cada ejecución. Cuando un agente ajustado falla o produce output inferior, agrega el par entrada-salida correcto a su dataset de entrenamiento. Reentrena el adaptador periódicamente — mensualmente es lo típico — con el dataset expandido. Cada iteración mejora la cobertura del adaptador en casos límite.

    Después de 2-3 ciclos de reentrenamiento, la mayoría de los equipos ven las tasas de fallback caer del 10-15% al 2-5%. Para el cuarto o quinto ciclo, el crew ajustado maneja 98%+ de las tareas sin fallback a la nube.

    Cuándo Multi-Agente Es Excesivo

    Antes de invertir en ajustar un crew completo de CrewAI, pregúntate si realmente necesitas múltiples agentes. Un solo modelo bien configurado o ajustado puede manejar muchos flujos de trabajo "multi-agente":

    • Si tus agentes solo hacen procesamiento secuencial (investigador → escritor → editor), un solo modelo con prompts estructurados puede hacer lo mismo en 3 llamadas en vez de 15.
    • Si tu "colaboración" es realmente solo un bucle de revisión, un solo modelo con auto-reflexión puede lograr calidad similar.

    Las arquitecturas multi-agente agregan valor real cuando los agentes operan en paralelo, cuando tienen conjuntos de herramientas genuinamente diferentes, o cuando la estructura de la tarea es lo suficientemente compleja como para que la especialización produzca resultados mediblemente mejores. Si tu crew son cuatro agentes haciendo lo que un agente podría hacer en cuatro pasos, simplifica primero — luego ajusta.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura Adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading