停止用 GPT-4 呼叫 API：微調本地工具呼叫模型

目前所有生產中的 AI 代理都做同樣的事情：接收使用者訊息，決定呼叫哪個工具，產生結構化參數，然後執行。模型的工作是路由和格式化——不是創意寫作，不是新穎推理，不是前沿智能。

然而，大多數團隊正在為這項路由工作支付 GPT-4 的費用。這就像雇用博士來分揀郵件。

費用問題

讓我們對典型的 AI 代理工作流程進行計算。

一個電子商務支援代理處理：

每天 500 次對話
每次對話平均 4 次工具呼叫決策
每次決策約 800 個 token（包含工具的系統提示 + 使用者訊息 + 模型回應）

每月 token 量： 500 × 4 × 800 × 30 = 4,800 萬 token/月

模型	每百萬 token 費用（輸入 + 輸出混合）	每月費用
GPT-4o	約 $5.00	$240
GPT-4o mini	約 $0.30	$14.40
Claude 3.5 Haiku	約 $2.00	$96
微調 8B（自託管）	約 $0	$0（僅電費）

GPT-4o mini 對於一個代理每月 $14.40 看起來很便宜。但機構在客戶之間運行 10-15 個代理。SaaS 產品為數千個使用者運行代理。規模改變了一切：

規模	GPT-4o 每月	GPT-4o mini 每月	自託管每月
1 個代理	$240	$14	約 $0
10 個代理（機構）	$2,400	$144	約 $0
100 個代理（SaaS）	$24,000	$1,440	約 $0
1,000 個代理（平台）	$240,000	$14,400	約 $0

在平台規模，GPT-4 工具呼叫每月費用 $240,000。GPT-4o mini 仍然每月費用 $14,400。投入硬體後，自託管實際上是免費的。

硬體費用？一張 RTX 4090（$1,600）能處理所有 1,000 個代理的工具呼叫決策。按 GPT-4o mini 定價，不到一個月就能回本。

為何工具呼叫不需要 GPT-4

工具呼叫具有特定的、受限的輸出空間。模型從固定的函數集中選擇，並產生符合預定義架構的參數。這是分類 + 結構化輸出——微調小型模型擅長的兩項任務。

微調的 8B 模型不需要：

處理它從未見過的任意、開放式工具架構
推理一般存在哪些工具
泛化到新穎的函數簽名

它需要：

識別你特定 5-20 個工具的使用者意圖模式
從你的固定清單中選擇正確的工具
產生符合你特定參數架構的有效 JSON
知道何時不應呼叫任何工具

這是一個狹窄、定義明確的任務。在你的特定工具呼叫的 300-500 個範例上微調的 8B 模型能可靠地處理它。有關微調工具呼叫的詳細指南，請參閱我們的工具呼叫微調完整方法論。

遷移路徑

第一步：記錄你當前的工具呼叫

在做任何更改之前，記錄你當前 GPT-4 代理在 2-4 週內進行的每次工具呼叫。捕捉：

使用者訊息
模型進行的工具呼叫（函數名稱 + 參數）
工具呼叫是否正確
工具的回應
最終的助理訊息

這個記錄成為你的訓練資料集。你實際上是在教導新模型複製你當前代理的行為——但在本地端且免費。

第二步：清理並格式化資料集

過濾掉不正確的工具呼叫（GPT-4 犯錯的地方）。將剩餘範例格式化為對話格式的 JSONL。目標是 300-500 個高品質範例。

包含明確的「無工具」範例——正確操作是直接回應而不呼叫任何工具的對話。沒有這些，模型會學習總是呼叫某些東西。

第三步：微調

上傳到 Ertas，選擇 Llama 3.1 8B Instruct 作為基礎模型，然後訓練。微調通常在雲端 GPU 上幾分鐘內完成。

第四步：A/B 測試

不要立即切換所有流量。將 10% 的工具呼叫決策路由到你的微調模型，90% 路由到 GPT-4。比較：

工具選擇準確率
參數格式合規性
使用者端結果（任務是否正確完成？）

在大多數情況下，微調模型在第一次測試中就能在你的特定工具上匹配或超過 GPT-4。如果準確率較低，為失敗案例添加更多訓練範例並重新訓練。

第五步：遷移流量

隨著信心增長：10% → 30% → 50% → 80% → 100%。每個步驟都驗證微調模型能處理你的真實流量。

第六步：本地部署

匯出為 GGUF，載入到 Ollama，並將代理的端點從 api.openai.com 更新為 localhost:11434。模型在你的硬體上運行——GPU、Mac 或甚至專用伺服器。

對於 n8n 工作流程：將 OpenAI 節點替換為 Ollama 節點。其他一切保持不變。

保留 GPT-4 用於什麼

微調的本地模型替代 GPT-4 用於工具呼叫路由層。但代理流水線中有些部分，前沿模型仍然增加價值：

複雜回應產生： 工具返回資料後，產生細膩、有同理心、有情境感的回應可能受益於更大的模型。考慮混合架構：本地微調模型用於工具選擇 → 工具執行 → GPT-4（或另一個微調模型）用於回應產生。

邊緣案例處理： 當微調模型遇到無法確信分類的輸入時，退回到 GPT-4。這種「升級」模式為 90% 的查詢提供本地速度，為剩餘 10% 提供前沿品質。

新工具引入： 當你在架構中添加新工具時，GPT-4 以零樣本方式處理它，同時你為微調模型收集訓練資料。一旦你有了 30-50 個新工具使用範例，就重新訓練並遷移。

更廣泛的模式

工具呼叫只是更大模式的一個實例：不需要前沿智能但按前沿費率定價的任務。

其他適合相同處理的候選：

分類： 情感分析、主題分類、意圖偵測——所有模式匹配任務，微調小型模型擅長
結構化擷取： 從文件、電子郵件或表單中提取特定欄位——遵循架構，而非推理
JSON 輸出產生： 任何輸出必須符合特定 JSON 架構的任務
基於範本的產生： 起草遵循特定格式的回應（支援範本、報告章節）

在每種情況下，模式都相同：針對你的特定任務微調小型模型，本地部署，消除每 token 費用。經濟效益很清楚——微調本地模型在費用上勝出，而且通常在準確率上也勝出。

開始使用

記錄你當前的 GPT-4 工具呼叫 2 週
清理並格式化為 JSONL（目標 300-500 個範例）
在 Ertas 上微調——Llama 3.1 8B Instruct，標準 LoRA 設置
在 10% 流量上 A/B 測試
驗證準確率在你的特定工具上匹配或超過 GPT-4
逐步遷移流量：10% → 50% → 100%
透過 Ollama 本地部署

你的 AI 代理路由大腦可以在你擁有的 GPU 上運行，每次查詢費用為零，在你的特定工具上具有更好的準確率。唯一的問題是你還要為模式匹配支付多久 GPT-4 的費用。