Back to blog
    Make.com + 本地 AI:不按 Token 計費的自動化流程
    make-comlocal-aiollamano-codeautomationsegment:agency

    Make.com + 本地 AI:不按 Token 計費的自動化流程

    將 Make.com 連接到本地執行的 AI 模型,從自動化流程中消除每 token 的 API 費用。給無程式碼 AI 構建者的逐步設置指南。

    EErtas Team·

    Make.com 是任何 AI 機構技術棧中最強大的工具之一。但如果你在構建高容量自動化流程——內容管道、客戶支援流程、資料豐富工作流程——你已經了解這個痛點:每次 AI 模組呼叫都要花費 token,而那些 token 費用累積得很快。

    解決方案很直接:在本地端執行你的 AI,並將你的 Make.com HTTP 模組指向本地端端點,而不是 OpenAI。本指南詳細說明如何操作。

    為何本地 AI 改變了經濟模式

    標準的 Make.com AI 模組設置:

    • Make.com AI 模組 → 呼叫 OpenAI → 每 1K token 收費
    • 每天 100 個情境 × 每次執行 2,000 個 token = 每天 200,000 個 token
    • 按 GPT-4o 定價:每個工作流程每天約 AU$6,每月 AU$180

    本地 AI 設置:

    • Make.com HTTP 模組 → 呼叫本地 Ollama 端點 → 無每 token 費用
    • 相同的每天 100 個情境 × 每次執行 2,000 個 token = 每天 AU$0

    執行小型本地模型的硬體(Mac Mini M4 或二手 RTX 3080 設備)費用約 AU$800-1,500。單個高容量工作流程的盈虧平衡點通常不到兩個月。

    你需要什麼

    • Make.com 帳戶(任何有 HTTP 模組存取權限的方案)
    • 本地安裝的 Ollama(免費,在 Mac、Linux 或 Windows 加 WSL 上執行)
    • 透過 Ollama 拉取的模型(ollama pull llama3.2ollama pull mistral
    • 如果你的 Make.com 情境在雲端執行(大多數都是),需要 ngrok 或類似的隧道

    步驟 1:安裝 Ollama 並拉取模型

    Ollama 是執行本地模型最簡單的方式。從 ollama.ai 安裝它,然後開啟終端機並拉取你想要的模型:

    # 用於通用任務
    ollama pull llama3.2
    
    # 用於更小、更快的模型
    ollama pull phi4-mini
    
    # 用於程式碼密集型工作流程
    ollama pull qwen2.5-coder

    Ollama 自動在 http://localhost:11434 上提供 API 服務。你可以驗證它是否運作:

    curl http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Say hello"}'

    步驟 2:公開你的本地端點

    Make.com 的自動化引擎在雲端執行,而不是在你的機器上。要使你的本地 Ollama 端點可供 Make.com 存取,你需要透過隧道公開它。

    選項 A:ngrok(最簡單)

    # 安裝 ngrok(免費方案即可使用)
    # 然後執行:
    ngrok http 11434

    ngrok 給你一個公開 URL,如 https://abc123.ngrok-free.app。這就是你在 Make.com 中使用的 URL。

    選項 B:Cloudflare Tunnel(更穩定)

    如果你想要無時間限制的持久免費隧道:

    # 安裝 cloudflared
    cloudflared tunnel --url http://localhost:11434

    選項 C:自託管 VPS

    對於生產使用,在 VPS 或雲端伺服器上執行 Ollama,而不是在你的本地機器上。這完全消除了隧道需求,並為你提供穩定的、永遠線上的端點。

    步驟 3:配置 Make.com HTTP 模組

    在 Make.com 中,不要使用「OpenAI」模組,而是使用帶有自訂請求的 HTTP 模組。Ollama 提供與 OpenAI 相容的 API,所以請求格式很熟悉。

    模組設置:

    • 方法:POST
    • URLhttps://your-ngrok-url.ngrok-free.app/v1/chat/completions
    • 標頭
      • Content-Type: application/json
      • (本地 Ollama 不需要 Authorization 標頭)
    • Body 類型:Raw
    • 內容類型:JSON (application/json)

    請求 Body:

    {
      "model": "llama3.2",
      "messages": [
        {
          "role": "system",
          "content": "{{1.system_prompt}}"
        },
        {
          "role": "user",
          "content": "{{1.user_input}}"
        }
      ],
      "temperature": 0.7,
      "max_tokens": 500
    }

    像往常一樣使用變數選擇器將變數映射到你的 Make.com 情境資料。

    步驟 4:解析回應

    Ollama 回應遵循與 OpenAI 聊天完成回應相同的格式。你需要的文字位於:

    {{body.choices[].message.content}}
    

    在 Make.com HTTP 模組回應映射中,添加一個指向 body.choices[1].message.content 的變數以提取 AI 的回應。

    實際使用案例

    客戶支援分類

    觸發器:透過 Typeform → Make.com 提交新支援票 HTTP 模組:使用分類提示將票務文字傳送到本地 Llama 模型 輸出:根據 緊急/帳單/技術/一般 分類路由到 Slack 頻道

    使用本地 AI,你可以為每一張傳入的票務執行此操作——即使每天超過 500 張——而不必擔心 API 帳單。

    內容豐富管道

    觸發器:在 Airtable 產品資料庫中添加新列 HTTP 模組:將產品標題 + 功能傳送到本地模型以產生 SEO 描述 輸出:使用產生的描述更新 Airtable 列

    此工作流程可以以 AU$0 的 AI 費用處理數千個產品。

    潛在客戶研究摘要

    觸發器:CRM 中添加新潛在客戶 HTTP 模組:將公司名稱 + 行業傳送到本地模型以產生外聯情境 輸出:在銷售團隊跟進之前將研究摘要添加到 CRM 潛在客戶記錄

    在 Make.com 中使用微調模型

    當你在這些工作流程中使用微調模型而不是通用基礎模型時,真正的力量就顯現了。如果你在客戶的品牌語調、客戶支援風格或特定領域內容上微調了一個模型——你將 Make.com HTTP 模組指向相同的 Ollama 端點,但在請求 body 中指定微調模型名稱。

    當你用 Ertas 微調時,輸出是一個可以直接用自訂 modelfile 載入 Ollama 的 GGUF 模型檔案。Make.com 整合保持相同——只有請求 body 中的模型名稱變更。

    這給你:

    • 不需要重複基礎設施的每個客戶客製化
    • 無論容量如何,都沒有每 token 費用
    • 專門在你的客戶資料和風格上訓練的模型輸出

    常見問題疑難排解

    Make.com 無法到達你的端點: 檢查 ngrok 是否在執行,URL 是否未更改。ngrok 免費方案在重啟時會輪換 URL——使用 Cloudflare Tunnel 或固定域名以保持穩定。

    回應很慢: 本地模型在你的硬體上執行。M4 Mac Mini 上的 7B 模型以約 30-50 個 token/秒的速度處理。對於高並發工作流程,要麼執行更小的模型(3B),要麼使用帶有 GPU 的伺服器硬體。

    JSON 解析錯誤: 一些模型在 JSON 周圍添加 Markdown 格式或額外文字。在 Make.com 中添加後處理步驟以提取相關文字,或在你的系統提示中包含「僅用原始 JSON 回應,不使用 Markdown」。

    模型輸出品質低於預期: 嘗試不同的模型——Mistral 7B 和 Llama 3.2 在不同任務類型上表現不同。對於特定領域任務,考慮在你的資料上微調以顯著提升品質。

    更大的格局

    Make.com 是一個強大的自動化層,但當每次 AI 呼叫在規模上都要花錢時,其價值主張就被削弱了。移至本地推理不只是成本優化——它改變了哪些自動化在經濟上可行。

    以前只在低容量時才盈利的工作流程,在任何容量下都變得可行。內容分類、實體擷取和回應產生等高頻任務從「成本中心」轉變為「固定基礎設施成本」。

    Make.com 的自動化靈活性與本地執行的微調模型的組合,是一個嚴肅的 AI 機構業務的基礎,可以在不破壞成本結構的情況下擴展。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading