
如何用微調本地模型將你的 AI 代理商成本降低 90%
燒光 API 額度的 AI 代理商可以通過切換到微調本地模型來削減 90% 或更多的成本。以下是數學、方法和遷移路徑。
如果你經營一家 AI 代理商,你已經知道那個令人不安的事實:API 成本正在吞噬你的利潤。你為客戶部署的每個聊天機器人、建立的每個自動化、搭建的每個 RAG 流程都附帶來自 OpenAI、Anthropic 或 Google 的經常性帳單,隨使用量增長——而非隨交付的價值增長。
好消息是,微調本地模型已經達到可以替代雲端 API 處理大多數代理商工作負載的水準。經濟效益甚至不可同日而語。
沒人談論的成本問題
大多數 AI 代理商將其服務定價為月費——每個客戶 AU$500 到 AU$2,000,用於聊天機器人管理、自動化工作流程或 AI 輔助內容生成。問題在於底層 API 成本是可變的且不可預測的。
一個在 GPT-4o 上運行客服聊天機器人的客戶,根據流量可以燒掉 AU$150-400/月的 API 額度。乘以 10-20 個客戶,你就有嚴重的利潤問題。
以下是一個典型的 15 個客戶代理商的情況:
真實數字:15 個客戶的代理商
| 成本類別 | 月成本(AUD) |
|---|---|
| 5 個客戶使用 GPT-4o(高流量) | AU$1,750 |
| 6 個客戶使用 GPT-4o-mini(中流量) | AU$1,200 |
| 4 個客戶使用 Claude 3.5 Sonnet(混合使用) | AU$1,250 |
| API 總轉嫁成本 | AU$4,200/月 |
那 AU$4,200/月是純成本——它不會向你的客戶交付超出調校良好的本地模型所能提供的任何額外價值。這些工作負載大多是重複性的:回答相同類別的問題、生成類似類型的內容、運行相同的分類任務。
你正在為不需要前沿模型智能的任務支付前沿模型的價格。
微調本地模型如何改變經濟效益
核心洞察很簡單:在你客戶的特定領域上微調的 7B 或 13B 參數模型,在那個狹窄任務上優於通用的 GPT-4o——而成本只是其中一小部分。
原因如下:
- 一個基礎模型服務所有客戶。 你下載一次單一基礎模型(Llama 3、Mistral、Phi-3)。
- 每客戶的 LoRA 適配器很小。 一個 LoRA 適配器通常是 50-200MB。你可以在一台機器上存儲數十個。
- 推論是本地的。 一旦模型運行,就沒有每 token 的收費。你的成本是硬體和電力。
- 在狹窄任務上品質提升。 在你客戶的 2,000 個支援工單上訓練的微調 7B 模型在那個特定任務上會優於 GPT-4o,因為它已經學會了客戶的術語、語氣和邊界案例。
成本比較
| 雲端 API(GPT-4o) | 本地微調模型 | |
|---|---|---|
| 月成本(15 個客戶) | AU$4,200 | AU$0(硬體之後) |
| 硬體成本 | 無 | AU$2,500-4,000 一次性(RTX 4090 或 Mac Studio) |
| 每 token 成本 | AU$0.0075-0.03 每 1K token | AU$0 |
| 隨使用量擴展 | 是(成本增加) | 否(固定硬體) |
| 損益平衡點 | -- | 約 1 個月 |
| 12 個月總成本 | AU$50,400 | AU$3,500(僅硬體) |
硬體在不到一個月內就收回成本。之後,你的 API 項目支出降至接近零。
遷移路徑:逐步說明
你不需要一次遷移所有 15 個客戶。從一個開始,證明經濟效益,然後系統性地推出。
步驟 1:識別最高流量的客戶使用案例
選擇 API 支出最高的客戶。通常這是客服聊天機器人或內容生成流程。尋找重複性和領域特定的工作負載——這些是最容易的勝利。
步驟 2:將 API 日誌匯出作為訓練資料
大多數代理商自動化工具——Make.com、n8n、Voiceflow、Stammer.ai——記錄 API 請求和回應。匯出 1,000-3,000 個對話對。這就是你的訓練資料集。
將它們格式化為 instruction-response 配對:
{"instruction": "Customer asks about return policy for electronics", "response": "Our return policy for electronics is 30 days from purchase..."}
步驟 3:使用 LoRA 進行 Fine-Tune
LoRA(Low-Rank Adaptation)讓你通過只訓練少量額外參數來微調大型模型。結果是一個輕量的適配器檔案,位於基礎模型之 上。
使用 LoRA 在 2,000 個範例上 fine-tune 一個 7B 模型在單一消費級 GPU 上需要 1-3 小時。適配器檔案通常不到 200MB。
步驟 4:通過 Ollama 在本地部署
將你的微調模型匯出為 GGUF 格式並載入 Ollama。Ollama 在本地暴露一個 OpenAI 相容的 API 端點,這意味著你在 Make.com、n8n 或 Voiceflow 中的現有自動化工作流程只需要更改 URL——將 OpenAI 端點換成你的本地端點。
沒有面向客戶的變更。沒有工作流程重建。只是一個不同的推論後端。
步驟 5:將代理商工具指向本地端點
更新你的自動化平台配置:
- Make.com / n8n:將 HTTP 模組 URL 從
api.openai.com更改為你的本地 Ollama 端點 - Voiceflow / Stammer.ai:在代理設定中更新自定義 LLM 端點
- 自定義應用程式:在 API 客戶端配置中替換基礎 URL
因為 Ollama 提供 OpenAI 相容的 API,請求和回應格式保持不變。
Ertas 如何使這變得實際
上面的遷移路徑可行,但它涉及命令列工具、Python 腳本和手動 GGUF 轉換。這就是 Ertas 的用武之地。
Ertas Studio 提供一個為此工作流程量身打造的無程式碼 fine-tuning 介面:
- 上傳訓練資料,直接從 CSV、JSONL 或 API 日誌匯出
- 使用 LoRA 進行 fine-tune,選擇你的基礎模型——不需要 Python、CLI 或 GPU 租用
- 一鍵匯出為 GGUF,用於通過 Ollama 的本地部署
- 管理每客戶的適配器,從單一基礎模型出發,這樣你不需要為每個客戶複製 7B 以上的參數
對於 3 人代理商,整個 Ertas 平台的成本低於單一客戶的月 API 帳單。
結論
鎖定 Ertas 每席位 $14.50/月。對於管理 15 個客戶的 3 人代理商,這是總共 $43.50/月,而非超過 AU$4,000 的 API 轉嫁成本。
你的利潤從「希望客戶不要用太多 token」變為可預測和固定的。你的客戶獲得更好的結果,因為他們的模型是在自己的資料上訓練的。而你停止每月向 OpenAI 發送數千美元用於微調本地模型能更好處理的任務。
先弄清楚這一點的代理商將擁有非常難以競爭的結構性成本優勢。不這樣做的將繼續看著他們的利潤隨著客戶使用量增長而萎縮。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.