Back to blog
    停止用 GPT-4 呼叫 API:微調本地工具呼叫模型
    tool-callingcost-reductionfine-tuninglocal-inferencen8nai-agentsgpt4

    停止用 GPT-4 呼叫 API:微調本地工具呼叫模型

    你正在為本質上只是模式匹配和 JSON 產生的工作支付前沿模型的費用。微調後的 8B 模型以 90% 以上的準確率處理工具呼叫,每次查詢費用為零。以下是計算方式和遷移路徑。

    EErtas Team·

    目前所有生產中的 AI 代理都做同樣的事情:接收使用者訊息,決定呼叫哪個工具,產生結構化參數,然後執行。模型的工作是路由和格式化——不是創意寫作,不是新穎推理,不是前沿智能。

    然而,大多數團隊正在為這項路由工作支付 GPT-4 的費用。這就像雇用博士來分揀郵件。

    費用問題

    讓我們對典型的 AI 代理工作流程進行計算。

    一個電子商務支援代理處理:

    • 每天 500 次對話
    • 每次對話平均 4 次工具呼叫決策
    • 每次決策約 800 個 token(包含工具的系統提示 + 使用者訊息 + 模型回應)

    每月 token 量: 500 × 4 × 800 × 30 = 4,800 萬 token/月

    模型每百萬 token 費用(輸入 + 輸出混合)每月費用
    GPT-4o約 $5.00$240
    GPT-4o mini約 $0.30$14.40
    Claude 3.5 Haiku約 $2.00$96
    微調 8B(自託管)約 $0$0(僅電費)

    GPT-4o mini 對於一個代理每月 $14.40 看起來很便宜。但機構在客戶之間運行 10-15 個代理。SaaS 產品為數千個使用者運行代理。規模改變了一切:

    規模GPT-4o 每月GPT-4o mini 每月自託管每月
    1 個代理$240$14約 $0
    10 個代理(機構)$2,400$144約 $0
    100 個代理(SaaS)$24,000$1,440約 $0
    1,000 個代理(平台)$240,000$14,400約 $0

    在平台規模,GPT-4 工具呼叫每月費用 $240,000。GPT-4o mini 仍然每月費用 $14,400。投入硬體後,自託管實際上是免費的。

    硬體費用?一張 RTX 4090($1,600)能處理所有 1,000 個代理的工具呼叫決策。按 GPT-4o mini 定價,不到一個月就能回本。

    為何工具呼叫不需要 GPT-4

    工具呼叫具有特定的、受限的輸出空間。模型從固定的函數集中選擇,並產生符合預定義架構的參數。這是分類 + 結構化輸出——微調小型模型擅長的兩項任務。

    微調的 8B 模型不需要:

    • 處理它從未見過的任意、開放式工具架構
    • 推理一般存在哪些工具
    • 泛化到新穎的函數簽名

    它需要:

    • 識別你特定 5-20 個工具的使用者意圖模式
    • 從你的固定清單中選擇正確的工具
    • 產生符合你特定參數架構的有效 JSON
    • 知道何時不應呼叫任何工具

    這是一個狹窄、定義明確的任務。在你的特定工具呼叫的 300-500 個範例上微調的 8B 模型能可靠地處理它。有關微調工具呼叫的詳細指南,請參閱我們的工具呼叫微調完整方法論

    遷移路徑

    第一步:記錄你當前的工具呼叫

    在做任何更改之前,記錄你當前 GPT-4 代理在 2-4 週內進行的每次工具呼叫。捕捉:

    • 使用者訊息
    • 模型進行的工具呼叫(函數名稱 + 參數)
    • 工具呼叫是否正確
    • 工具的回應
    • 最終的助理訊息

    這個記錄成為你的訓練資料集。你實際上是在教導新模型複製你當前代理的行為——但在本地端且免費。

    第二步:清理並格式化資料集

    過濾掉不正確的工具呼叫(GPT-4 犯錯的地方)。將剩餘範例格式化為對話格式的 JSONL。目標是 300-500 個高品質範例。

    包含明確的「無工具」範例——正確操作是直接回應而不呼叫任何工具的對話。沒有這些,模型會學習總是呼叫某些東西。

    第三步:微調

    上傳到 Ertas,選擇 Llama 3.1 8B Instruct 作為基礎模型,然後訓練。微調通常在雲端 GPU 上幾分鐘內完成。

    第四步:A/B 測試

    不要立即切換所有流量。將 10% 的工具呼叫決策路由到你的微調模型,90% 路由到 GPT-4。比較:

    • 工具選擇準確率
    • 參數格式合規性
    • 使用者端結果(任務是否正確完成?)

    在大多數情況下,微調模型在第一次測試中就能在你的特定工具上匹配或超過 GPT-4。如果準確率較低,為失敗案例添加更多訓練範例並重新訓練。

    第五步:遷移流量

    隨著信心增長:10% → 30% → 50% → 80% → 100%。每個步驟都驗證微調模型能處理你的真實流量。

    第六步:本地部署

    匯出為 GGUF,載入到 Ollama,並將代理的端點從 api.openai.com 更新為 localhost:11434。模型在你的硬體上運行——GPU、Mac 或甚至專用伺服器。

    對於 n8n 工作流程:將 OpenAI 節點替換為 Ollama 節點。其他一切保持不變。

    保留 GPT-4 用於什麼

    微調的本地模型替代 GPT-4 用於工具呼叫路由層。但代理流水線中有些部分,前沿模型仍然增加價值:

    複雜回應產生: 工具返回資料後,產生細膩、有同理心、有情境感的回應可能受益於更大的模型。考慮混合架構:本地微調模型用於工具選擇 → 工具執行 → GPT-4(或另一個微調模型)用於回應產生。

    邊緣案例處理: 當微調模型遇到無法確信分類的輸入時,退回到 GPT-4。這種「升級」模式為 90% 的查詢提供本地速度,為剩餘 10% 提供前沿品質。

    新工具引入: 當你在架構中添加新工具時,GPT-4 以零樣本方式處理它,同時你為微調模型收集訓練資料。一旦你有了 30-50 個新工具使用範例,就重新訓練並遷移。

    更廣泛的模式

    工具呼叫只是更大模式的一個實例:不需要前沿智能但按前沿費率定價的任務

    其他適合相同處理的候選:

    • 分類: 情感分析、主題分類、意圖偵測——所有模式匹配任務,微調小型模型擅長
    • 結構化擷取: 從文件、電子郵件或表單中提取特定欄位——遵循架構,而非推理
    • JSON 輸出產生 任何輸出必須符合特定 JSON 架構的任務
    • 基於範本的產生: 起草遵循特定格式的回應(支援範本、報告章節)

    在每種情況下,模式都相同:針對你的特定任務微調小型模型,本地部署,消除每 token 費用。經濟效益很清楚——微調本地模型在費用上勝出,而且通常在準確率上也勝出。

    開始使用

    1. 記錄你當前的 GPT-4 工具呼叫 2 週
    2. 清理並格式化為 JSONL(目標 300-500 個範例)
    3. Ertas 上微調——Llama 3.1 8B Instruct,標準 LoRA 設置
    4. 在 10% 流量上 A/B 測試
    5. 驗證準確率在你的特定工具上匹配或超過 GPT-4
    6. 逐步遷移流量:10% → 50% → 100%
    7. 透過 Ollama 本地部署

    你的 AI 代理路由大腦可以在你擁有的 GPU 上運行,每次查詢費用為零,在你的特定工具上具有更好的準確率。唯一的問題是你還要為模式匹配支付多久 GPT-4 的費用。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading