Modelos Ajustados para CrewAI: Flujos Multi-Agente Sin Costos de API

CrewAI hizo accesibles los flujos de trabajo multi-agente. Define agentes con roles, dales herramientas, conéctalos en un crew y déjalos colaborar en tareas complejas. Un investigador recopila información, un analista la evalúa, un escritor produce el output, un revisor lo verifica. Cuatro agentes, un flujo de trabajo cohesivo.

El problema es que "cuatro agentes colaborando" significa "cuatro agentes cada uno haciendo 5-10 llamadas LLM". Una sola ejecución de crew en GPT-4o puede fácilmente alcanzar 20-40 llamadas a la API. A $2.50/$10 por millón de tokens de entrada/salida, con cada agente procesando 2,000-5,000 tokens por paso, una sola ejecución de tarea cuesta $2-5.

Ejecuta ese crew 100 veces por día — una carga de trabajo de producción modesta — y estás gastando $200-$500/día. Eso es $6,000-$15,000/mes por una herramienta de automatización de flujos de trabajo.

Las arquitecturas multi-agente tienen un problema de multiplicación de costos. Cada agente que agregas multiplica la factura de API. Los modelos locales ajustados son la única forma de hacer que los flujos multi-agente sean económicamente sostenibles a escala.

El Problema de Multiplicación de Costos

Las arquitecturas de un solo agente tienen una relación de costo lineal: una solicitud, una llamada LLM, un cargo. Las arquitecturas multi-agente tienen una relación multiplicativa.

Considera un crew de creación de contenido:

Agente de Investigación: Busca en la web, lee fuentes, produce un resumen de investigación (3-5 llamadas LLM)
Agente Escritor: Toma el resumen y produce un borrador (2-3 llamadas LLM)
Agente Editor: Revisa el borrador, sugiere cambios, reescribe secciones (3-5 llamadas LLM)
Agente SEO: Analiza el contenido, agrega palabras clave, optimiza la estructura (2-3 llamadas LLM)

Son 10-16 llamadas LLM por artículo. Con precios de GPT-4o y tamaños de prompt promedio:

Por artículo: $1.50-$4.00
10 artículos/día: $15-$40
300 artículos/mes: $450-$1,200

Ahora agrega un agente de verificación de hechos y uno de formateo. Estás en 16-24 llamadas por artículo y $2,500-$5,000/mes. El costo escala linealmente con agentes y linealmente con volumen de tareas. Multiplica ambos y los costos se componen rápidamente.

Qué Roles de CrewAI Funcionan con Modelos Ajustados

No todos los roles de agente en un crew necesitan el mismo nivel de capacidad del modelo. Aquí hay un desglose práctico:

Roles Que Funcionan Bien con Modelos Ajustados de 7-8B

Agentes Investigadores/Recopiladores

Estos agentes toman un tema, formulan consultas de búsqueda y sintetizan información de los resultados de herramientas. La tarea central es generación de consultas (output estructurado) y resumen (compresión). Los modelos ajustados manejan ambos de forma confiable.

Un agente investigador ajustado aprende tus patrones de investigación específicos: qué fuentes prefieres, cómo quieres los resúmenes formateados, qué nivel de detalle incluir. Produce resúmenes más consistentes que GPT-4 con un system prompt, porque los datos de entrenamiento codifican tus preferencias directamente.

Agentes Escritores/Generadores

Para escritura específica de dominio — descripciones de productos, documentación de soporte, copy de marketing con una voz de marca específica — los modelos ajustados frecuentemente son mejores que GPT-4 con prompts. No se desvían de tu estilo. No agregan calificadores que no querías. Producen output que suena como tu marca porque fueron entrenados con el contenido de tu marca.

Agentes Analizadores/Clasificadores

Agentes que evalúan, puntúan o categorizan entradas. "¿Este lead está calificado o no calificado?" "¿Cuál es el sentimiento de esta reseña?" "¿Qué departamento debería manejar este ticket?" Estas son tareas de clasificación — el punto dulce para modelos pequeños ajustados.

Agentes Formateadores/Post-Procesadores

Agentes que toman output sin procesar y lo formatean para un objetivo específico: convertir a markdown, generar HTML, estructurar como JSON, formatear para una API específica. Tareas puras de output estructurado donde los modelos ajustados logran 99%+ de cumplimiento.

Roles Que Aún Se Benefician de Modelos Frontier

Agentes Planificadores Estratégicos

Agentes que necesitan crear planes multi-paso para problemas novedosos. "Dados estos requisitos de negocio, diseña una campaña de marketing dirigida a estos demográficos a través de estos canales." Esto requiere razonamiento creativo sobre combinaciones novedosas de factores.

Agentes de Razonamiento Complejo

Agentes que necesitan evaluar múltiples puntos de datos conflictivos y hacer juicios matizados. "Dadas estas tres reseñas conflictivas, estos datos de precios y estas tendencias de mercado, recomienda una estrategia de inversión." El razonamiento multifactorial con compensaciones es donde los modelos frontier mantienen ventaja.

Agentes Revisores Adversarios

Agentes específicamente diseñados para encontrar defectos, desafiar supuestos y poner a prueba outputs. Estos necesitan el conocimiento amplio y la flexibilidad de razonamiento de modelos más grandes para capturar errores sutiles.

Asignando Diferentes Modelos a Diferentes Agentes

CrewAI soporta configuración personalizada de LLM por agente. Así es como implementar un crew con modelos mixtos:

from crewai import Agent, Crew, Task
from langchain_ollama import ChatOllama
from langchain_openai import ChatOpenAI

# Modelos locales ajustados para roles especializados
researcher_llm = ChatOllama(model="ft-researcher-8b")
writer_llm = ChatOllama(model="ft-writer-8b")
editor_llm = ChatOllama(model="ft-editor-8b")

# GPT-4o para planificación estratégica
strategist_llm = ChatOpenAI(model="gpt-4o")

researcher = Agent(
    role="Research Analyst",
    goal="Gather and synthesize information on the given topic",
    llm=researcher_llm,
    tools=[search_tool, web_scraper],
)

writer = Agent(
    role="Content Writer",
    goal="Produce clear, well-structured content",
    llm=writer_llm,
)

editor = Agent(
    role="Content Editor",
    goal="Review and improve content quality",
    llm=editor_llm,
)

strategist = Agent(
    role="Content Strategist",
    goal="Develop content strategy and evaluate alignment with business goals",
    llm=strategist_llm,  # Complex reasoning stays on GPT-4
)

Esto te da los beneficios de costo de la inferencia local para 3 de 4 agentes mientras mantienes el razonamiento de modelo frontier para el agente que genuinamente lo necesita.

Entrenando Adaptadores LoRA Especializados por Rol de Agente

El enfoque más efectivo: un modelo base, múltiples adaptadores LoRA — uno por rol de agente. Cada adaptador especializa el modelo base para su tarea específica.

Selección del Modelo Base

Llama 3.1 8B Instruct y Qwen 2.5 7B Instruct son las opciones prácticas para adaptadores de agentes en 2026. Ambos soportan tool calling de forma nativa, manejan bien el output estructurado y caben cómodamente en una GPU de 24GB con espacio para múltiples adaptadores LoRA en memoria.

Datos de Entrenamiento de Adaptadores por Rol

Datos de entrenamiento del adaptador investigador:

Entrada: tema de investigación + herramientas disponibles
Salida: consultas de investigación estructuradas, llamadas a herramientas, hallazgos resumidos
Formato: conversaciones multi-turno mostrando el proceso completo de investigación
Tamaño del dataset: 300-600 ejemplos

Datos de entrenamiento del adaptador escritor:

Entrada: resumen de investigación o esquema de contenido + directrices de estilo
Salida: contenido terminado en formato objetivo
Formato: pares de entrada-salida con ejemplos consistentes en estilo
Tamaño del dataset: 500-1,000 ejemplos (más datos = mejor consistencia de estilo)

Datos de entrenamiento del adaptador editor:

Entrada: borrador de contenido + directrices de edición
Salida: contenido editado con cambios rastreados o comentarios de edición
Formato: pares antes/después mostrando ediciones específicas y razonamiento
Tamaño del dataset: 400-800 ejemplos

Datos de entrenamiento del adaptador analizador:

Entrada: datos o contenido a evaluar
Salida: análisis estructurado en un formato específico (puntuaciones, categorías, recomendaciones)
Formato: entrada a output JSON estructurado
Tamaño del dataset: 300-500 ejemplos

Proceso de Entrenamiento

Sube cada dataset a Ertas como un trabajo de fine-tuning separado. Selecciona el mismo modelo base para todos los adaptadores. Cada ejecución de entrenamiento produce un archivo de adaptador LoRA (50-200MB). Almacena todos los adaptadores en la misma máquina que el modelo base.

Tiempo total de entrenamiento: 1-3 horas por adaptador, así que 4-12 horas para un crew completo. Almacenamiento total de adaptadores: 200-800MB para un crew de cuatro agentes. Compara eso con cuatro copias separadas del modelo completo a 4GB cada una.

Comparación de Costos: Tres Configuraciones

Comparemos un crew de contenido de cuatro agentes ejecutando 500 tareas por día.

Configuración 1: Todo GPT-4o

Cada agente usa GPT-4o. 20 llamadas LLM por tarea, ~3,000 tokens por llamada.

10,000 llamadas/día x 3,000 tokens x $6.25/M tokens (tarifa combinada)
$187.50/día → $5,625/mes

Configuración 2: Crew Mixto (3 Local, 1 GPT-4o)

Investigador, escritor, editor en modelos locales ajustados. Estratega en GPT-4o.

15,000 llamadas locales/día: $0
5,000 llamadas GPT-4o/día x 3,000 tokens x $6.25/M tokens: $93.75/día
GPU en la nube (A10G): $300/mes
$93.75/día + $300/mes → $3,112/mes (45% de reducción)

Configuración 3: Todo Local (Solo Fallback a GPT-4o)

Todos los agentes en modelos locales ajustados. GPT-4o llamado solo cuando la confianza es baja (~5% de tareas).

19,500 llamadas locales/día: $0
500 llamadas GPT-4o/día x 3,000 tokens x $6.25/M tokens: $9.38/día
GPU en la nube (A10G): $300/mes
$9.38/día + $300/mes → $581/mes (90% de reducción)

Pasando de $5,625/mes a $581/mes. Eso es un ahorro de $60,528/año para un solo flujo de trabajo de crew.

Manejando la Comunicación Inter-Agente

En CrewAI, los agentes se comunican pasando outputs como contexto al siguiente agente. Cuando todos los agentes usan GPT-4, esto funciona naturalmente — cada agente recibe la ventana de contexto completa del output del agente anterior.

Con modelos locales ajustados, necesitas ser cuidadoso con la gestión del contexto:

Mantén los mensajes inter-agente concisos. Entrena a tus agentes para producir outputs estructurados y compactos en lugar de narrativas verbosas. Un investigador que produce un resumen estructurado en JSON es mejor que uno que escribe un ensayo de 2,000 palabras — menos contexto para que procese el siguiente agente, inferencia más rápida y parseo más predecible.

Estandariza los formatos de comunicación. Define un esquema para cada traspaso agente a agente. El investigador produce {"topic": "...", "key_facts": [...], "sources": [...]}. El escritor espera exactamente este formato. Ajusta ambos agentes en este esquema compartido. Esto elimina la negociación de formato que desperdicia tokens cuando los agentes se comunican en texto libre.

Usa ventanas de contexto más pequeñas. Los modelos ajustados de 8B funcionan bien dentro de contextos de 2,048-4,096 tokens. Diseña tu comunicación de agentes para que quepa dentro de estos límites. Si el output del investigador excede 2K tokens, agrega un paso de resumen (también ajustado) antes de pasarlo al escritor.

Monitoreo e Iteración

Después de desplegar un crew ajustado, monitorea estas métricas:

Tasa de éxito de tarea por agente: ¿Cada agente completa su rol exitosamente?
Tasa de éxito del crew de extremo a extremo: ¿El flujo de trabajo completo produce output aceptable?
Tasa de fallback: ¿Con qué frecuencia un agente local dispara un fallback a GPT-4?
Latencia por agente: ¿Algún agente ajustado es más lento de lo esperado?

Registra cada ejecución. Cuando un agente ajustado falla o produce output inferior, agrega el par entrada-salida correcto a su dataset de entrenamiento. Reentrena el adaptador periódicamente — mensualmente es lo típico — con el dataset expandido. Cada iteración mejora la cobertura del adaptador en casos límite.

Después de 2-3 ciclos de reentrenamiento, la mayoría de los equipos ven las tasas de fallback caer del 10-15% al 2-5%. Para el cuarto o quinto ciclo, el crew ajustado maneja 98%+ de las tareas sin fallback a la nube.

Cuándo Multi-Agente Es Excesivo

Antes de invertir en ajustar un crew completo de CrewAI, pregúntate si realmente necesitas múltiples agentes. Un solo modelo bien configurado o ajustado puede manejar muchos flujos de trabajo "multi-agente":

Si tus agentes solo hacen procesamiento secuencial (investigador → escritor → editor), un solo modelo con prompts estructurados puede hacer lo mismo en 3 llamadas en vez de 15.
Si tu "colaboración" es realmente solo un bucle de revisión, un solo modelo con auto-reflexión puede lograr calidad similar.

Las arquitecturas multi-agente agregan valor real cuando los agentes operan en paralelo, cuando tienen conjuntos de herramientas genuinamente diferentes, o cuando la estructura de la tarea es lo suficientemente compleja como para que la especialización produzca resultados mediblemente mejores. Si tu crew son cuatro agentes haciendo lo que un agente podría hacer en cuatro pasos, simplifica primero — luego ajusta.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura Adicional

Agentes de IA Multi-Paso con Modelos Locales — Patrones arquitectónicos para ejecutar flujos de trabajo complejos de agentes sin APIs en la nube.
Agentes de IA Confiables con Modelos Locales Ajustados — Por qué los modelos ajustados producen un comportamiento de agente más consistente en cada paso.
Agentes de IA por Cliente para Agencias con LoRA — Usando adaptadores LoRA por cliente para ejecutar crews de agentes personalizados para cada cliente.