Make.com + IA local: automatizaciones que no te cobran por token

Make.com es una de las herramientas más poderosas en el stack de cualquier agencia de IA. Pero si estás construyendo automatizaciones de alto volumen — pipelines de contenido, flujos de soporte al cliente, flujos de trabajo de enriquecimiento de datos — ya conoces el dolor: cada llamada al módulo de IA cuesta tokens, y esos costos de tokens se acumulan rápido.

La solución es directa: ejecuta tu IA localmente y apunta tus módulos HTTP de Make.com a tu endpoint local en lugar de a OpenAI. Esta guía te explica exactamente cómo hacerlo.

Por qué la IA local cambia la economía

Configuración estándar del módulo de IA de Make.com:

Módulo de IA de Make.com → llama a OpenAI → cobra por cada 1K tokens
100 escenarios/día × 2,000 tokens por ejecución = 200,000 tokens/día
A precios de GPT-4o: ~AU$6/día, AU$180/mes por flujo de trabajo

Configuración con IA local:

Módulo HTTP de Make.com → llama a endpoint local de Ollama → sin cargo por token
Los mismos 100 escenarios/día × 2,000 tokens por ejecución = AU$0/día

El hardware que ejecuta un modelo local pequeño (un Mac Mini M4 o un equipo usado con RTX 3080) cuesta alrededor de AU$800-1,500. El punto de equilibrio en un solo flujo de trabajo de alto volumen es frecuentemente menor a dos meses.

Lo que necesitas

Cuenta de Make.com (cualquier plan con acceso al módulo HTTP)
Ollama instalado localmente (gratis, funciona en Mac, Linux o Windows con WSL)
Un modelo descargado vía Ollama (ollama pull llama3.2 o ollama pull mistral)
ngrok o un túnel similar si tus escenarios de Make.com se ejecutan en la nube (la mayoría lo hacen)

Paso 1: instala Ollama y descarga un modelo

Ollama es la forma más fácil de ejecutar modelos locales. Instálalo desde ollama.ai, luego abre una terminal y descarga el modelo que quieras:

# Para tareas de propósito general
ollama pull llama3.2

# Para un modelo más pequeño y rápido
ollama pull phi4-mini

# Para flujos de trabajo con mucho código
ollama pull qwen2.5-coder

Ollama automáticamente empieza a servir una API en http://localhost:11434. Puedes verificar que está funcionando:

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Say hello"}'

Paso 2: expón tu endpoint local

El motor de automatización de Make.com se ejecuta en la nube, no en tu máquina. Para hacer que tu endpoint local de Ollama sea accesible para Make.com, necesitas exponerlo a través de un túnel.

Opción A: ngrok (la más simple)

# Instala ngrok (el nivel gratuito funciona)
# Luego ejecuta:
ngrok http 11434

ngrok te da una URL pública como https://abc123.ngrok-free.app. Esta es la que usarás en Make.com.

Opción B: Cloudflare Tunnel (más estable)

Si quieres un túnel persistente y gratuito sin límites de tiempo:

# Instala cloudflared
cloudflared tunnel --url http://localhost:11434

Opción C: VPS auto-alojado

Para uso en producción, ejecuta Ollama en un VPS o servidor en la nube en lugar de tu máquina local. Esto elimina la necesidad del túnel por completo y te da un endpoint estable y siempre activo.

Paso 3: configura el módulo HTTP de Make.com

En Make.com, en lugar de usar el módulo "OpenAI", usa el módulo HTTP con una solicitud personalizada. Ollama sirve una API compatible con OpenAI, así que el formato de la solicitud es familiar.

Configuración del módulo:

Método: POST
URL: https://tu-url-ngrok.ngrok-free.app/v1/chat/completions
Headers:
- Content-Type: application/json
- (No se necesita header de Authorization para Ollama local)
Tipo de body: Raw
Tipo de contenido: JSON (application/json)

Cuerpo de la solicitud:

{
  "model": "llama3.2",
  "messages": [
    {
      "role": "system",
      "content": "{{1.system_prompt}}"
    },
    {
      "role": "user",
      "content": "{{1.user_input}}"
    }
  ],
  "temperature": 0.7,
  "max_tokens": 500
}

Mapea las variables a los datos de tu escenario de Make.com usando el selector de variables como siempre.

Paso 4: parsea la respuesta

La respuesta de Ollama sigue el mismo formato que la respuesta de chat completions de OpenAI. El texto que quieres está en:

{{body.choices[].message.content}}

En el mapeo de respuesta del módulo HTTP de Make.com, agrega una variable apuntando a body.choices[1].message.content para extraer la respuesta de la IA.

Casos de uso prácticos

Triaje de soporte al cliente

Trigger: Nuevo ticket de soporte enviado vía Typeform → Make.com Módulo HTTP: Envía el texto del ticket al modelo local de Llama con prompt de clasificación Salida: Dirige al canal de Slack basándose en la clasificación urgente/facturación/técnico/general

Con IA local, puedes ejecutar esto para cada ticket entrante — incluso con más de 500 tickets/día — sin preocuparte por las facturas de API.

Pipeline de enriquecimiento de contenido

Trigger: Nueva fila agregada a la base de datos de productos en Airtable Módulo HTTP: Envía el título del producto + características al modelo local para generación de descripción SEO Salida: Actualiza la fila de Airtable con la descripción generada

Este flujo de trabajo puede procesar miles de productos con AU$0 en costos de IA.

Resumen de investigación de leads

Trigger: Nuevo lead agregado al CRM Módulo HTTP: Envía nombre de empresa + industria al modelo local para generar contexto de alcance Salida: Agrega un resumen de investigación al registro del lead en el CRM antes del seguimiento del equipo de ventas

Uso de modelos ajustados en Make.com

El verdadero poder viene cuando usas un modelo ajustado en estos flujos de trabajo en lugar de un modelo base genérico. Si has ajustado un modelo con la voz de marca de tu cliente, el estilo de soporte al cliente o contenido específico del dominio — apuntas el módulo HTTP de Make.com al mismo endpoint de Ollama pero especificas el nombre del modelo ajustado.

Cuando ajustas con Ertas, la salida es un archivo de modelo GGUF que puedes cargar directamente en Ollama con un modelfile personalizado. La integración con Make.com permanece idéntica — solo cambia el nombre del modelo en el cuerpo de la solicitud.

Esto te da:

Personalización por cliente sin duplicar infraestructura
Sin cargos por token sin importar el volumen
Salida del modelo específicamente entrenada con los datos y estilo de tu cliente

Solución de problemas comunes

Make.com no puede alcanzar tu endpoint: Verifica que ngrok esté ejecutándose y que la URL no haya cambiado. El nivel gratuito de ngrok rota las URLs al reiniciar — usa Cloudflare Tunnel o un dominio fijo para estabilidad.

Las respuestas son lentas: Los modelos locales se ejecutan en tu hardware. Un modelo 7B en un Mac Mini M4 procesa a ~30-50 tokens/segundo. Para flujos de trabajo de alta concurrencia, ejecuta un modelo más pequeño (3B) o usa hardware de servidor con GPU.

Errores de parseo JSON: Algunos modelos agregan formato markdown o texto extra alrededor del JSON. Agrega un paso de post-procesamiento en Make.com para extraer el texto relevante, o incluye "responde solo con JSON sin formato, sin markdown" en tu prompt del sistema.

La calidad de salida del modelo es menor de lo esperado: Prueba un modelo diferente — Mistral 7B y Llama 3.2 se desempeñan de manera diferente en diferentes tipos de tareas. Para tareas específicas del dominio, considera ajustar con tus datos para mejorar significativamente la calidad.

El panorama general

Make.com es una capa de automatización poderosa, pero su propuesta de valor se ve comprometida cuando cada llamada de IA cuesta dinero a escala. Migrar a inferencia local no es solo una optimización de costos — cambia qué automatizaciones son económicamente viables.

Flujos de trabajo que antes solo eran rentables en bajo volumen se vuelven viables en cualquier volumen. Tareas de alta frecuencia como clasificación de contenido, extracción de entidades y generación de respuestas pasan de ser "centro de costos" a "costo fijo de infraestructura".

La combinación de la flexibilidad de automatización de Make.com y los modelos ajustados ejecutándose localmente es la base de una práctica de agencia de IA seria que escala sin hacer explotar tu estructura de costos.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura adicional

Cómo reducir los costos de tu agencia de IA en un 90% con modelos locales ajustados — La economía completa de migrar fuera de APIs en la nube
Ejecutar modelos de IA localmente — Guía de hardware y exploración profunda de Ollama
n8n + LLM local + automatización HIPAA — Configuración similar para flujos de trabajo de n8n con requisitos de cumplimiento