Make.com + 本地 AI：不按 Token 計費的自動化流程

Make.com 是任何 AI 機構技術棧中最強大的工具之一。但如果你在構建高容量自動化流程——內容管道、客戶支援流程、資料豐富工作流程——你已經了解這個痛點：每次 AI 模組呼叫都要花費 token，而那些 token 費用累積得很快。

解決方案很直接：在本地端執行你的 AI，並將你的 Make.com HTTP 模組指向本地端端點，而不是 OpenAI。本指南詳細說明如何操作。

為何本地 AI 改變了經濟模式

標準的 Make.com AI 模組設置：

Make.com AI 模組 → 呼叫 OpenAI → 每 1K token 收費
每天 100 個情境 × 每次執行 2,000 個 token = 每天 200,000 個 token
按 GPT-4o 定價：每個工作流程每天約 AU$6，每月 AU$180

本地 AI 設置：

Make.com HTTP 模組 → 呼叫本地 Ollama 端點 → 無每 token 費用
相同的每天 100 個情境 × 每次執行 2,000 個 token = 每天 AU$0

執行小型本地模型的硬體（Mac Mini M4 或二手 RTX 3080 設備）費用約 AU$800-1,500。單個高容量工作流程的盈虧平衡點通常不到兩個月。

你需要什麼

Make.com 帳戶（任何有 HTTP 模組存取權限的方案）
本地安裝的 Ollama（免費，在 Mac、Linux 或 Windows 加 WSL 上執行）
透過 Ollama 拉取的模型（ollama pull llama3.2 或 ollama pull mistral）
如果你的 Make.com 情境在雲端執行（大多數都是），需要 ngrok 或類似的隧道

步驟 1：安裝 Ollama 並拉取模型

Ollama 是執行本地模型最簡單的方式。從 ollama.ai 安裝它，然後開啟終端機並拉取你想要的模型：

# 用於通用任務
ollama pull llama3.2

# 用於更小、更快的模型
ollama pull phi4-mini

# 用於程式碼密集型工作流程
ollama pull qwen2.5-coder

Ollama 自動在 http://localhost:11434 上提供 API 服務。你可以驗證它是否運作：

curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Say hello"}'

步驟 2：公開你的本地端點

Make.com 的自動化引擎在雲端執行，而不是在你的機器上。要使你的本地 Ollama 端點可供 Make.com 存取，你需要透過隧道公開它。

選項 A：ngrok（最簡單）

# 安裝 ngrok（免費方案即可使用）
# 然後執行：
ngrok http 11434

ngrok 給你一個公開 URL，如 https://abc123.ngrok-free.app。這就是你在 Make.com 中使用的 URL。

選項 B：Cloudflare Tunnel（更穩定）

如果你想要無時間限制的持久免費隧道：

# 安裝 cloudflared
cloudflared tunnel --url http://localhost:11434

選項 C：自託管 VPS

對於生產使用，在 VPS 或雲端伺服器上執行 Ollama，而不是在你的本地機器上。這完全消除了隧道需求，並為你提供穩定的、永遠線上的端點。

步驟 3：配置 Make.com HTTP 模組

在 Make.com 中，不要使用「OpenAI」模組，而是使用帶有自訂請求的 HTTP 模組。Ollama 提供與 OpenAI 相容的 API，所以請求格式很熟悉。

模組設置：

方法：POST
URL：https://your-ngrok-url.ngrok-free.app/v1/chat/completions
標頭：
- Content-Type: application/json
- （本地 Ollama 不需要 Authorization 標頭）
Body 類型：Raw
內容類型：JSON (application/json)

請求 Body：

{
  "model": "llama3.2",
  "messages": [
    {
      "role": "system",
      "content": "{{1.system_prompt}}"
    },
    {
      "role": "user",
      "content": "{{1.user_input}}"
    }
  ],
  "temperature": 0.7,
  "max_tokens": 500
}

像往常一樣使用變數選擇器將變數映射到你的 Make.com 情境資料。

步驟 4：解析回應

Ollama 回應遵循與 OpenAI 聊天完成回應相同的格式。你需要的文字位於：

{{body.choices[].message.content}}

在 Make.com HTTP 模組回應映射中，添加一個指向 body.choices[1].message.content 的變數以提取 AI 的回應。

實際使用案例

客戶支援分類

觸發器：透過 Typeform → Make.com 提交新支援票 HTTP 模組：使用分類提示將票務文字傳送到本地 Llama 模型輸出：根據 緊急/帳單/技術/一般 分類路由到 Slack 頻道

使用本地 AI，你可以為每一張傳入的票務執行此操作——即使每天超過 500 張——而不必擔心 API 帳單。

內容豐富管道

觸發器：在 Airtable 產品資料庫中添加新列 HTTP 模組：將產品標題 + 功能傳送到本地模型以產生 SEO 描述輸出：使用產生的描述更新 Airtable 列

此工作流程可以以 AU$0 的 AI 費用處理數千個產品。

潛在客戶研究摘要

觸發器：CRM 中添加新潛在客戶 HTTP 模組：將公司名稱 + 行業傳送到本地模型以產生外聯情境輸出：在銷售團隊跟進之前將研究摘要添加到 CRM 潛在客戶記錄

在 Make.com 中使用微調模型

當你在這些工作流程中使用微調模型而不是通用基礎模型時，真正的力量就顯現了。如果你在客戶的品牌語調、客戶支援風格或特定領域內容上微調了一個模型——你將 Make.com HTTP 模組指向相同的 Ollama 端點，但在請求 body 中指定微調模型名稱。

當你用 Ertas 微調時，輸出是一個可以直接用自訂 modelfile 載入 Ollama 的 GGUF 模型檔案。Make.com 整合保持相同——只有請求 body 中的模型名稱變更。

這給你：

不需要重複基礎設施的每個客戶客製化
無論容量如何，都沒有每 token 費用
專門在你的客戶資料和風格上訓練的模型輸出

常見問題疑難排解

Make.com 無法到達你的端點： 檢查 ngrok 是否在執行，URL 是否未更改。ngrok 免費方案在重啟時會輪換 URL——使用 Cloudflare Tunnel 或固定域名以保持穩定。

回應很慢： 本地模型在你的硬體上執行。M4 Mac Mini 上的 7B 模型以約 30-50 個 token/秒的速度處理。對於高並發工作流程，要麼執行更小的模型（3B），要麼使用帶有 GPU 的伺服器硬體。

JSON 解析錯誤： 一些模型在 JSON 周圍添加 Markdown 格式或額外文字。在 Make.com 中添加後處理步驟以提取相關文字，或在你的系統提示中包含「僅用原始 JSON 回應，不使用 Markdown」。

模型輸出品質低於預期： 嘗試不同的模型——Mistral 7B 和 Llama 3.2 在不同任務類型上表現不同。對於特定領域任務，考慮在你的資料上微調以顯著提升品質。

更大的格局

Make.com 是一個強大的自動化層，但當每次 AI 呼叫在規模上都要花錢時，其價值主張就被削弱了。移至本地推理不只是成本優化——它改變了哪些自動化在經濟上可行。

以前只在低容量時才盈利的工作流程，在任何容量下都變得可行。內容分類、實體擷取和回應產生等高頻任務從「成本中心」轉變為「固定基礎設施成本」。

Make.com 的自動化靈活性與本地執行的微調模型的組合，是一個嚴肅的 AI 機構業務的基礎，可以在不破壞成本結構的情況下擴展。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →