
Make.com + IA local: automatizaciones que no te cobran por token
Conecta Make.com a un modelo de IA ejecutándose localmente y elimina los costos de API por token de tus automatizaciones. Guía paso a paso para constructores de IA sin código.
Make.com es una de las herramientas más poderosas en el stack de cualquier agencia de IA. Pero si estás construyendo automatizaciones de alto volumen — pipelines de contenido, flujos de soporte al cliente, flujos de trabajo de enriquecimiento de datos — ya conoces el dolor: cada llamada al módulo de IA cuesta tokens, y esos costos de tokens se acumulan rápido.
La solución es directa: ejecuta tu IA localmente y apunta tus módulos HTTP de Make.com a tu endpoint local en lugar de a OpenAI. Esta guía te explica exactamente cómo hacerlo.
Por qué la IA local cambia la economía
Configuración estándar del módulo de IA de Make.com:
- Módulo de IA de Make.com → llama a OpenAI → cobra por cada 1K tokens
- 100 escenarios/día × 2,000 tokens por ejecución = 200,000 tokens/día
- A precios de GPT-4o: ~AU$6/día, AU$180/mes por flujo de trabajo
Configuración con IA local:
- Módulo HTTP de Make.com → llama a endpoint local de Ollama → sin cargo por token
- Los mismos 100 escenarios/día × 2,000 tokens por ejecución = AU$0/día
El hardware que ejecuta un modelo local pequeño (un Mac Mini M4 o un equipo usado con RTX 3080) cuesta alrededor de AU$800-1,500. El punto de equilibrio en un solo flujo de trabajo de alto volumen es frecuentemente menor a dos meses.
Lo que necesitas
- Cuenta de Make.com (cualquier plan con acceso al módulo HTTP)
- Ollama instalado localmente (gratis, funciona en Mac, Linux o Windows con WSL)
- Un modelo descargado vía Ollama (
ollama pull llama3.2oollama pull mistral) - ngrok o un túnel similar si tus escenarios de Make.com se ejecutan en la nube (la mayoría lo hacen)
Paso 1: instala Ollama y descarga un modelo
Ollama es la forma más fácil de ejecutar modelos locales. Instálalo desde ollama.ai, luego abre una terminal y descarga el modelo que quieras:
# Para tareas de propósito general
ollama pull llama3.2
# Para un modelo más pequeño y rápido
ollama pull phi4-mini
# Para flujos de trabajo con mucho código
ollama pull qwen2.5-coder
Ollama automáticamente empieza a servir una API en http://localhost:11434. Puedes verificar que está funcionando:
curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Say hello"}'
Paso 2: expón tu endpoint local
El motor de automatización de Make.com se ejecuta en la nube, no en tu máquina. Para hacer que tu endpoint local de Ollama sea accesible para Make.com, necesitas exponerlo a través de un túnel.
Opción A: ngrok (la más simple)
# Instala ngrok (el nivel gratuito funciona)
# Luego ejecuta:
ngrok http 11434
ngrok te da una URL pública como https://abc123.ngrok-free.app. Esta es la que usarás en Make.com.
Opción B: Cloudflare Tunnel (más estable)
Si quieres un túnel persistente y gratuito sin límites de tiempo:
# Instala cloudflared
cloudflared tunnel --url http://localhost:11434
Opción C: VPS auto-alojado
Para uso en producción, ejecuta Ollama en un VPS o servidor en la nube en lugar de tu máquina local. Esto elimina la necesidad del túnel por completo y te da un endpoint estable y siempre activo.
Paso 3: configura el módulo HTTP de Make.com
En Make.com, en lugar de usar el módulo "OpenAI", usa el módulo HTTP con una solicitud personalizada. Ollama sirve una API compatible con OpenAI, así que el formato de la solicitud es familiar.
Configuración del módulo:
- Método: POST
- URL:
https://tu-url-ngrok.ngrok-free.app/v1/chat/completions - Headers:
Content-Type: application/json- (No se necesita header de Authorization para Ollama local)
- Tipo de body: Raw
- Tipo de contenido: JSON (application/json)
Cuerpo de la solicitud:
{
"model": "llama3.2",
"messages": [
{
"role": "system",
"content": "{{1.system_prompt}}"
},
{
"role": "user",
"content": "{{1.user_input}}"
}
],
"temperature": 0.7,
"max_tokens": 500
}
Mapea las variables a los datos de tu escenario de Make.com usando el selector de variables como siempre.
Paso 4: parsea la respuesta
La respuesta de Ollama sigue el mismo formato que la respuesta de chat completions de OpenAI. El texto que quieres está en:
{{body.choices[].message.content}}
En el mapeo de respuesta del módulo HTTP de Make.com, agrega una variable apuntando a body.choices[1].message.content para extraer la respuesta de la IA.
Casos de uso prácticos
Triaje de soporte al cliente
Trigger: Nuevo ticket de soporte enviado vía Typeform → Make.com
Módulo HTTP: Envía el texto del ticket al modelo local de Llama con prompt de clasificación
Salida: Dirige al canal de Slack basándose en la clasificación urgente/facturación/técnico/general
Con IA local, puedes ejecutar esto para cada ticket entrante — incluso con más de 500 tickets/día — sin preocuparte por las facturas de API.
Pipeline de enriquecimiento de contenido
Trigger: Nueva fila agregada a la base de datos de productos en Airtable Módulo HTTP: Envía el título del producto + características al modelo local para generación de descripción SEO Salida: Actualiza la fila de Airtable con la descripción generada
Este flujo de trabajo puede procesar miles de productos con AU$0 en costos de IA.
Resumen de investigación de leads
Trigger: Nuevo lead agregado al CRM Módulo HTTP: Envía nombre de empresa + industria al modelo local para generar contexto de alcance Salida: Agrega un resumen de investigación al registro del lead en el CRM antes del seguimiento del equipo de ventas
Uso de modelos ajustados en Make.com
El verdadero poder viene cuando usas un modelo ajustado en estos flujos de trabajo en lugar de un modelo base genérico. Si has ajustado un modelo con la voz de marca de tu cliente, el estilo de soporte al cliente o contenido específico del dominio — apuntas el módulo HTTP de Make.com al mismo endpoint de Ollama pero especificas el nombre del modelo ajustado.
Cuando ajustas con Ertas, la salida es un archivo de modelo GGUF que puedes cargar directamente en Ollama con un modelfile personalizado. La integración con Make.com permanece idéntica — solo cambia el nombre del modelo en el cuerpo de la solicitud.
Esto te da:
- Personalización por cliente sin duplicar infraestructura
- Sin cargos por token sin importar el volumen
- Salida del modelo específicamente entrenada con los datos y estilo de tu cliente
Solución de problemas comunes
Make.com no puede alcanzar tu endpoint: Verifica que ngrok esté ejecutándose y que la URL no haya cambiado. El nivel gratuito de ngrok rota las URLs al reiniciar — usa Cloudflare Tunnel o un dominio fijo para estabilidad.
Las respuestas son lentas: Los modelos locales se ejecutan en tu hardware. Un modelo 7B en un Mac Mini M4 procesa a ~30-50 tokens/segundo. Para flujos de trabajo de alta concurrencia, ejecuta un modelo más pequeño (3B) o usa hardware de servidor con GPU.
Errores de parseo JSON: Algunos modelos agregan formato markdown o texto extra alrededor del JSON. Agrega un paso de post-procesamiento en Make.com para extraer el texto relevante, o incluye "responde solo con JSON sin formato, sin markdown" en tu prompt del sistema.
La calidad de salida del modelo es menor de lo esperado: Prueba un modelo diferente — Mistral 7B y Llama 3.2 se desempeñan de manera diferente en diferentes tipos de tareas. Para tareas específicas del dominio, considera ajustar con tus datos para mejorar significativamente la calidad.
El panorama general
Make.com es una capa de automatización poderosa, pero su propuesta de valor se ve comprometida cuando cada llamada de IA cuesta dinero a escala. Migrar a inferencia local no es solo una optimización de costos — cambia qué automatizaciones son económicamente viables.
Flujos de trabajo que antes solo eran rentables en bajo volumen se vuelven viables en cualquier volumen. Tareas de alta frecuencia como clasificación de contenido, extracción de entidades y generación de respuestas pasan de ser "centro de costos" a "costo fijo de infraestructura".
La combinación de la flexibilidad de automatización de Make.com y los modelos ajustados ejecutándose localmente es la base de una práctica de agencia de IA seria que escala sin hacer explotar tu estructura de costos.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Lectura adicional
- Cómo reducir los costos de tu agencia de IA en un 90% con modelos locales ajustados — La economía completa de migrar fuera de APIs en la nube
- Ejecutar modelos de IA localmente — Guía de hardware y exploración profunda de Ollama
- n8n + LLM local + automatización HIPAA — Configuración similar para flujos de trabajo de n8n con requisitos de cumplimiento
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuned Tool Calling for n8n and Make.com Workflows
Replace the OpenAI node in your n8n or Make.com workflow with a fine-tuned local model. Same tool routing, same structured output, zero API cost. Here's the exact pattern — from extracting training data from workflow logs to deploying via Ollama.

Cleaning and Curating Datasets for Fine-Tuning Without a Data Science Team
Step-by-step guide to cleaning, validating, and curating fine-tuning datasets using no-code tools — covering deduplication, label validation, format checks, and distribution analysis for non-technical teams.

The Solo AI Agency Tech Stack: 8 Tools, Zero Full-Time Hires
Running an AI agency solo in 2026 is possible with the right stack. Here are the 8 core tools, what each costs, and what they let you accomplish without hiring.