Back to blog
    Make.com + IA local: automatizaciones que no te cobran por token
    make-comlocal-aiollamano-codeautomationsegment:agency

    Make.com + IA local: automatizaciones que no te cobran por token

    Conecta Make.com a un modelo de IA ejecutándose localmente y elimina los costos de API por token de tus automatizaciones. Guía paso a paso para constructores de IA sin código.

    EErtas Team·

    Make.com es una de las herramientas más poderosas en el stack de cualquier agencia de IA. Pero si estás construyendo automatizaciones de alto volumen — pipelines de contenido, flujos de soporte al cliente, flujos de trabajo de enriquecimiento de datos — ya conoces el dolor: cada llamada al módulo de IA cuesta tokens, y esos costos de tokens se acumulan rápido.

    La solución es directa: ejecuta tu IA localmente y apunta tus módulos HTTP de Make.com a tu endpoint local en lugar de a OpenAI. Esta guía te explica exactamente cómo hacerlo.

    Por qué la IA local cambia la economía

    Configuración estándar del módulo de IA de Make.com:

    • Módulo de IA de Make.com → llama a OpenAI → cobra por cada 1K tokens
    • 100 escenarios/día × 2,000 tokens por ejecución = 200,000 tokens/día
    • A precios de GPT-4o: ~AU$6/día, AU$180/mes por flujo de trabajo

    Configuración con IA local:

    • Módulo HTTP de Make.com → llama a endpoint local de Ollama → sin cargo por token
    • Los mismos 100 escenarios/día × 2,000 tokens por ejecución = AU$0/día

    El hardware que ejecuta un modelo local pequeño (un Mac Mini M4 o un equipo usado con RTX 3080) cuesta alrededor de AU$800-1,500. El punto de equilibrio en un solo flujo de trabajo de alto volumen es frecuentemente menor a dos meses.

    Lo que necesitas

    • Cuenta de Make.com (cualquier plan con acceso al módulo HTTP)
    • Ollama instalado localmente (gratis, funciona en Mac, Linux o Windows con WSL)
    • Un modelo descargado vía Ollama (ollama pull llama3.2 o ollama pull mistral)
    • ngrok o un túnel similar si tus escenarios de Make.com se ejecutan en la nube (la mayoría lo hacen)

    Paso 1: instala Ollama y descarga un modelo

    Ollama es la forma más fácil de ejecutar modelos locales. Instálalo desde ollama.ai, luego abre una terminal y descarga el modelo que quieras:

    # Para tareas de propósito general
    ollama pull llama3.2
    
    # Para un modelo más pequeño y rápido
    ollama pull phi4-mini
    
    # Para flujos de trabajo con mucho código
    ollama pull qwen2.5-coder
    

    Ollama automáticamente empieza a servir una API en http://localhost:11434. Puedes verificar que está funcionando:

    curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Say hello"}'
    

    Paso 2: expón tu endpoint local

    El motor de automatización de Make.com se ejecuta en la nube, no en tu máquina. Para hacer que tu endpoint local de Ollama sea accesible para Make.com, necesitas exponerlo a través de un túnel.

    Opción A: ngrok (la más simple)

    # Instala ngrok (el nivel gratuito funciona)
    # Luego ejecuta:
    ngrok http 11434
    

    ngrok te da una URL pública como https://abc123.ngrok-free.app. Esta es la que usarás en Make.com.

    Opción B: Cloudflare Tunnel (más estable)

    Si quieres un túnel persistente y gratuito sin límites de tiempo:

    # Instala cloudflared
    cloudflared tunnel --url http://localhost:11434
    

    Opción C: VPS auto-alojado

    Para uso en producción, ejecuta Ollama en un VPS o servidor en la nube en lugar de tu máquina local. Esto elimina la necesidad del túnel por completo y te da un endpoint estable y siempre activo.

    Paso 3: configura el módulo HTTP de Make.com

    En Make.com, en lugar de usar el módulo "OpenAI", usa el módulo HTTP con una solicitud personalizada. Ollama sirve una API compatible con OpenAI, así que el formato de la solicitud es familiar.

    Configuración del módulo:

    • Método: POST
    • URL: https://tu-url-ngrok.ngrok-free.app/v1/chat/completions
    • Headers:
      • Content-Type: application/json
      • (No se necesita header de Authorization para Ollama local)
    • Tipo de body: Raw
    • Tipo de contenido: JSON (application/json)

    Cuerpo de la solicitud:

    {
      "model": "llama3.2",
      "messages": [
        {
          "role": "system",
          "content": "{{1.system_prompt}}"
        },
        {
          "role": "user",
          "content": "{{1.user_input}}"
        }
      ],
      "temperature": 0.7,
      "max_tokens": 500
    }
    

    Mapea las variables a los datos de tu escenario de Make.com usando el selector de variables como siempre.

    Paso 4: parsea la respuesta

    La respuesta de Ollama sigue el mismo formato que la respuesta de chat completions de OpenAI. El texto que quieres está en:

    {{body.choices[].message.content}}
    

    En el mapeo de respuesta del módulo HTTP de Make.com, agrega una variable apuntando a body.choices[1].message.content para extraer la respuesta de la IA.

    Casos de uso prácticos

    Triaje de soporte al cliente

    Trigger: Nuevo ticket de soporte enviado vía Typeform → Make.com Módulo HTTP: Envía el texto del ticket al modelo local de Llama con prompt de clasificación Salida: Dirige al canal de Slack basándose en la clasificación urgente/facturación/técnico/general

    Con IA local, puedes ejecutar esto para cada ticket entrante — incluso con más de 500 tickets/día — sin preocuparte por las facturas de API.

    Pipeline de enriquecimiento de contenido

    Trigger: Nueva fila agregada a la base de datos de productos en Airtable Módulo HTTP: Envía el título del producto + características al modelo local para generación de descripción SEO Salida: Actualiza la fila de Airtable con la descripción generada

    Este flujo de trabajo puede procesar miles de productos con AU$0 en costos de IA.

    Resumen de investigación de leads

    Trigger: Nuevo lead agregado al CRM Módulo HTTP: Envía nombre de empresa + industria al modelo local para generar contexto de alcance Salida: Agrega un resumen de investigación al registro del lead en el CRM antes del seguimiento del equipo de ventas

    Uso de modelos ajustados en Make.com

    El verdadero poder viene cuando usas un modelo ajustado en estos flujos de trabajo en lugar de un modelo base genérico. Si has ajustado un modelo con la voz de marca de tu cliente, el estilo de soporte al cliente o contenido específico del dominio — apuntas el módulo HTTP de Make.com al mismo endpoint de Ollama pero especificas el nombre del modelo ajustado.

    Cuando ajustas con Ertas, la salida es un archivo de modelo GGUF que puedes cargar directamente en Ollama con un modelfile personalizado. La integración con Make.com permanece idéntica — solo cambia el nombre del modelo en el cuerpo de la solicitud.

    Esto te da:

    • Personalización por cliente sin duplicar infraestructura
    • Sin cargos por token sin importar el volumen
    • Salida del modelo específicamente entrenada con los datos y estilo de tu cliente

    Solución de problemas comunes

    Make.com no puede alcanzar tu endpoint: Verifica que ngrok esté ejecutándose y que la URL no haya cambiado. El nivel gratuito de ngrok rota las URLs al reiniciar — usa Cloudflare Tunnel o un dominio fijo para estabilidad.

    Las respuestas son lentas: Los modelos locales se ejecutan en tu hardware. Un modelo 7B en un Mac Mini M4 procesa a ~30-50 tokens/segundo. Para flujos de trabajo de alta concurrencia, ejecuta un modelo más pequeño (3B) o usa hardware de servidor con GPU.

    Errores de parseo JSON: Algunos modelos agregan formato markdown o texto extra alrededor del JSON. Agrega un paso de post-procesamiento en Make.com para extraer el texto relevante, o incluye "responde solo con JSON sin formato, sin markdown" en tu prompt del sistema.

    La calidad de salida del modelo es menor de lo esperado: Prueba un modelo diferente — Mistral 7B y Llama 3.2 se desempeñan de manera diferente en diferentes tipos de tareas. Para tareas específicas del dominio, considera ajustar con tus datos para mejorar significativamente la calidad.

    El panorama general

    Make.com es una capa de automatización poderosa, pero su propuesta de valor se ve comprometida cuando cada llamada de IA cuesta dinero a escala. Migrar a inferencia local no es solo una optimización de costos — cambia qué automatizaciones son económicamente viables.

    Flujos de trabajo que antes solo eran rentables en bajo volumen se vuelven viables en cualquier volumen. Tareas de alta frecuencia como clasificación de contenido, extracción de entidades y generación de respuestas pasan de ser "centro de costos" a "costo fijo de infraestructura".

    La combinación de la flexibilidad de automatización de Make.com y los modelos ajustados ejecutándose localmente es la base de una práctica de agencia de IA seria que escala sin hacer explotar tu estructura de costos.


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Lectura adicional

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading