
停止用 GPT-4 呼叫 API:微調本地工具呼叫模型
你正在為本質上只是模式匹配和 JSON 產生的工作支付前沿模型的費用。微調後的 8B 模型以 90% 以上的準確率處理工具呼叫,每次查詢費用為零。以下是計算方式和遷移路徑。
目前所有生產中的 AI 代理都做同樣的事情:接收使用者訊息,決定呼叫哪個工具,產生結構化參數,然後執行。模型的工作是路由和格式化——不是創意寫作,不是新穎推理,不是前沿智能。
然而,大 多數團隊正在為這項路由工作支付 GPT-4 的費用。這就像雇用博士來分揀郵件。
費用問題
讓我們對典型的 AI 代理工作流程進行計算。
一個電子商務支援代理處理:
- 每天 500 次對話
- 每次對話平均 4 次工具呼叫決策
- 每次決策約 800 個 token(包含工具的系統提示 + 使用者訊息 + 模型回應)
每月 token 量: 500 × 4 × 800 × 30 = 4,800 萬 token/月
| 模型 | 每百萬 token 費用(輸入 + 輸出混合) | 每月費用 |
|---|---|---|
| GPT-4o | 約 $5.00 | $240 |
| GPT-4o mini | 約 $0.30 | $14.40 |
| Claude 3.5 Haiku | 約 $2.00 | $96 |
| 微調 8B(自託管) | 約 $0 | $0(僅電費) |
GPT-4o mini 對於一個代理每月 $14.40 看起來很便宜。但機構在客戶之間運行 10-15 個代理。SaaS 產品為數千個使用者運行代理。規模改變了一切:
| 規模 | GPT-4o 每月 | GPT-4o mini 每月 | 自託管每月 |
|---|---|---|---|
| 1 個代理 | $240 | $14 | 約 $0 |
| 10 個代理(機構) | $2,400 | $144 | 約 $0 |
| 100 個代理(SaaS) | $24,000 | $1,440 | 約 $0 |
| 1,000 個代理(平台) | $240,000 | $14,400 | 約 $0 |
在平台規模,GPT-4 工具呼叫每月費用 $240,000。GPT-4o mini 仍然每月費用 $14,400。投入硬體後,自託管實際上是免費的。
硬體費用?一張 RTX 4090($1,600)能處理所有 1,000 個代理的工具呼叫決策。按 GPT-4o mini 定價,不到一個月就能回本。
為何工具呼叫不需要 GPT-4
工具呼叫具有特定的、受限的輸出空間。模型從固定的函數集中選擇,並產生符合預定義架構的參數。這是分類 + 結構化輸出——微調小型模型擅長的兩項任務。
微調的 8B 模型不需要:
- 處理它從未見過的任意、開放式工具架構
- 推理一般存在哪些工具
- 泛化到新穎的函數簽名
它需要:
- 識別你特定 5-20 個工具的使用者意圖模式
- 從你的固定清單中選擇正確的工具
- 產生符合你特定參數架構的有效 JSON
- 知道何時不應呼叫任何工具
這是一個狹窄、定義明確的任務。在你的特定工具呼叫的 300-500 個範例上微調的 8B 模型能可靠地處理它。有關微調工具呼叫的詳細指南,請參閱我們的工具呼叫微調完整方法論。
遷移路徑
第一步:記錄你當前的工具呼叫
在做任何更改之前,記錄你當前 GPT-4 代理在 2-4 週內進行的每次工具呼叫。捕捉:
- 使用者訊息
- 模型進行的工具呼叫(函數名稱 + 參數)
- 工具呼叫是否正確
- 工具的回應
- 最終的助理訊息
這個記錄成為你的訓練資料集。你實際上是在教導新模型複製你當前代理的行為——但在本地端且免費。
第二步:清理並格式化資料集
過濾掉不正確的工具呼叫(GPT-4 犯錯的地方)。將剩餘範例格式化為對話格式的 JSONL。目標是 300-500 個高品質範例。
包含明確的「無工具」範例——正確操作是直接回應而不呼叫任何工具的對話。沒有這些,模型會學習總是呼叫某些東西。
第三步:微調
上傳到 Ertas,選擇 Llama 3.1 8B Instruct 作為基礎模型,然後訓練。微調通常在雲端 GPU 上幾分鐘內完成。
第四步:A/B 測試
不要立即切換所有流量。將 10% 的工具呼叫決策路由到你的微調模型,90% 路由到 GPT-4。比較:
- 工具選擇準確率
- 參數格式合規性
- 使用者端結果(任務是否正確完成?)
在大多數情況下,微調模型在第一次測試中就能在你的特定工具上匹配或超過 GPT-4。如果準確率較低,為失敗案例添加更多訓練範例並重新訓練。
第五步:遷移流量
隨著信心增長:10% → 30% → 50% → 80% → 100%。每個步驟都驗證微調模型能處理你的真實流量。
第六步:本地部署
匯出為 GGUF,載入到 Ollama,並將代理的端點從 api.openai.com 更新為 localhost:11434。模型在你的硬體上運行——GPU、Mac 或甚至專用伺服器。
對於 n8n 工作流程:將 OpenAI 節點替換為 Ollama 節點。其他一切保持不變。
保留 GPT-4 用於什麼
微調的本地模型替代 GPT-4 用於工具呼叫路由層。但代理流水線中有些部分,前沿模型仍然增加價值:
複雜回應產生: 工具返回資料後,產生細膩、有同理心、有情境感的回應可能受益於更大的模型。考慮混合架構:本地微調模型用於工具選擇 → 工具執行 → GPT-4(或另一個微調模型)用於回應產生。
邊緣案例處理: 當微調模型遇到無法確信分類的輸入時,退回到 GPT-4。這種「升級」模式為 90% 的查詢提供本地速度,為剩餘 10% 提供前沿品質。
新工具引入: 當你在架構中添加新工具時,GPT-4 以零樣本方式處理它,同時你為微調模型收集訓練資料。一旦你有了 30-50 個新工具使用範例,就重新訓練並遷移。
更廣泛的模式
工具呼叫只是更大模式的一個實例:不需要前沿智能但按前沿費率定價的任務。
其他適合相同處理的候選:
- 分類: 情感分析、主題分類、意圖偵測——所有模式匹配任務,微調小型模型擅長
- 結構化擷取: 從文件、電子郵件或表單中提取特定欄位——遵循架構,而非推理
- JSON 輸出產生: 任何輸出必須符合特定 JSON 架構的任務
- 基於範本的產生: 起草遵循特定格式的回應(支援範本、報告章節)
在每種情況下,模式都相同:針對你的特定任務微調小型模型,本地部署,消除每 token 費用。經濟效益很清楚——微調本地模型在費用上勝出,而且通常在準確率上也勝出。
開始使用
- 記錄你當前的 GPT-4 工具呼叫 2 週
- 清理並格式化為 JSONL(目標 300-500 個範例)
- 在 Ertas 上微調——Llama 3.1 8B Instruct,標準 LoRA 設置
- 在 10% 流量上 A/B 測試
- 驗證準確率在你的特定工具上匹配或超過 GPT-4
- 逐步遷移流量:10% → 50% → 100%
- 透過 Ollama 本地部署
你的 AI 代理路由大腦可以在你擁有的 GPU 上運行,每次查詢費用為零,在你的特定工具上具有更好的準確率。唯一的問題是你還要為模式匹配支付多久 GPT-4 的費用。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Building Reliable AI Agents with Fine-Tuned Local Models: Complete Guide
Most AI agents are just GPT-4 wrappers — expensive, unreliable at scale, and dependent on cloud APIs. Fine-tuned local models hit 98%+ accuracy on your specific tools at zero per-query cost. Here's the complete architecture.

Fine-Tuned Tool Calling for n8n and Make.com Workflows
Replace the OpenAI node in your n8n or Make.com workflow with a fine-tuned local model. Same tool routing, same structured output, zero API cost. Here's the exact pattern — from extracting training data from workflow logs to deploying via Ollama.

Fine-Tuning for Tool Calling: How to Build Reliable AI Agents with Small Models
Generic models are unreliable at tool calling — hallucinated function names, wrong parameters, format errors. Fine-tuning a small model on your specific tool schema produces 90%+ accuracy at zero per-query cost. Here's how.