
OpenClaw + 微調模型 vs. OpenClaw + GPT-4:實際比較
我們對比了 OpenClaw 在微調本地模型和 GPT-4o 上執行五種常見代理任務的表現。以下是微調模型勝出的地方、不勝出的地方,以及具體數字說明。
大多數人進入 OpenClaw 世界時都帶著一個假設:模型越大,效果越好。GPT-4o 是默認推薦。Claude 3.5 Sonnet 是替代方案。兩者都是參數量龐大、每 Token 費用相應高昂的前沿模型。
但前沿模型真的是代理工作的最佳選擇嗎?
我們進行了一次直接比較:OpenClaw 通過 OpenAI API 運行 GPT-4o,與 OpenClaw 通過本地 Ollama 實例運行微調的 Qwen 2.5 7B 模型。相同的任務,相同的評估標準,不同的經濟邏輯。
測試設置
雲端配置:OpenClaw 通過默認 OpenAI 提供商連接到 GPT-4o。標準系統提示詞。除任務描述外沒有自定義指令。
本地配置:OpenClaw 連接到 Qwen 2.5 7B 模型,使用 1,500 個特定任務示例通過 LoRA(rank 16,3 個 epoch)進行微調,在 Mac Studio M2 Ultra 上通過 Ollama 提供服務。Q5_K_M 量化。
我們測試了五種常見的 OpenClaw 工作流程,每種都在準確性、一致性、延遲和費用方面進行評估。
任務一:電子郵件分類和回覆草稿
任務:處理 200 封傳入電子郵件,按緊急程度分類(緊急/高/中/低),並起草適當的回覆。
| 指標 | GPT-4o | 微調 7B |
|---|---|---|
| 分類準確率 | 82% | 91% |
| 回覆質量(人工評分 1-5) | 3.8 | 4.2 |
| 每封郵件平均延遲 | 2.4 秒 | 0.8 秒 |
| 200 封郵件的費用 | AU$12.50 | AU$0 |
微調模型為何勝出:它在該公司 600 個實際電子郵件分類和回覆模式的示例上進行了訓練。它學習了 GPT-4o 必須從系統提示詞中推斷的具體緊急程度標準(「VP 以上 = 高」、「金額超過 $5K 的賬單糾紛 = 緊急」)。提示詞方法始終遺漏了細微差別。
任務二:支援工單分類
任務:將 500 個客戶支援工單分類到 14 個特定產品類別,提取關鍵問題,並分配優先級。
| 指標 | GPT-4o | 微調 7B |
|---|---|---|
| 類別準確率 | 71% | 94% |
| 優先級準確率 | 76% | 89% |
| 每個工單平均延遲 | 1.9 秒 | 0.6 秒 |
| 500 個工單的費用 | AU$28.00 | AU$0 |
微調模型為何勝出:14 個類別的分類體系是公司特定的。「賬單」vs.「訂閱管理」vs.「支付處理」有只在特定上下文中才有意義的細微差別。GPT-4o 始終混淆了幾個類別。微調模型見過 400 個正確分類示例,學習了邊界。
這是我們觀察到的最大的性能差距。特定領域的分類是微調帶來最顯著改進的地方。
任務三:會議摘要和行動項目提取
任務:處理 50 個會議記錄(每個 15-60 分鐘),生成結構化摘要,並提取帶有責任人和截止日期的行動項目。
| 指標 | GPT-4o | 微調 7B |
|---|---|---|
| 摘要質量(1-5) | 4.3 | 3.9 |
| 行動項目提取(F1) | 0.87 | 0.82 |
| 責任人準確率 | 91% | 85% |
| 每次會議平均延遲 | 8.2 秒 | 3.1 秒 |
| 50 次會議的費用 | AU$45.00 | AU$0 |
GPT-4o 為何在此勝出:會議摘要需要理解新穎的對話上下文、處理題外話,並推斷隱含的行動項目。這是一項通用推理能力比領域特定知識更重要的任務。微調模型表現足夠,但遺漏了 GPT-4o 捕捉到的細微含義和交叉引用。
差距比預期的小——微調模型在責任人準確率上達到 85%,而 GPT-4o 達到 91%,對於許多使用案例來說已經足夠。3 倍的速度提升加上零費用可能使這種折衷取捨是合理的,取決於您的需求。
任務四:從文件中提取資料
任務:從 100 張發票中提取結構化資料——供應商名稱、金額、日期、行項目、稅款和付款條件。輸出為 JSON 格式。
| 指標 | GPT-4o | 微調 7B |
|---|---|---|
| 欄位提取準確率 | 88% | 95% |
| 架構合規性 | 79% | 99% |
| 每張發票平均延遲 | 3.1 秒 | 1.2 秒 |
| 100 張發票的費用 | AU$18.50 | AU$0 |
微調模型為何勝出:架構合規性是最突出的指標。GPT-4o 偶爾偏離指定的 JSON 架構——省略可選欄位、使用不一致的日期格式,或以不同於要求的方式嵌套資料。微調模型在訓練期間見過數百次確切的輸出架構,99% 的時間都遵守它。
對於任何 OpenClaw 將提取的資料輸入下游系統(資料庫、API、電子表格)的工作流程,架構合規性至關重要。79% 的合規率意味著 21% 的輸出需要手動更正或錯誤處理。在 99% 的情況下,管道基本上是自動化的。
任務五:每日報告生成
任務:從結構化資料(指標儀表板、銷售數字、項目狀態更新)生成 30 份每日業務報告。報告應遵循帶有敘述性分析的特定模板。
| 指標 | GPT-4o | 微調 7B |
|---|---|---|
| 模板遵守度 | 85% | 97% |
| 敘述質量(1-5) | 4.1 | 4.0 |
| 事實準確性 | 93% | 96% |
| 每份報告平均延遲 | 5.8 秒 | 2.1 秒 |
| 30 份報告的費用 | AU$22.00 | AU$0 |
微調模型為何勝出:模板遵守度和事實準確性。模型在 300 個確切報告格式的示例上進行了訓練,因此它始終生成符合預期結構的報告。GPT-4o 有時重新排列章節、使用不同的標題樣式,或添加不屬於模板的評論。
微調模型的事實準確性也更高——可能是因為它在資料模糊時較少傾向於用看起來合理但不正確的數字「填補」。
整體情況
| 任務 | 勝出者 | 微調優勢 |
|---|---|---|
| 電子郵件分類 | 微調模型 | +9% 準確率,3 倍更快,零費用 |
| 支援分類 | 微調模型 | +23% 準確率,3 倍更快,零費用 |
| 會議摘要 | GPT-4o | 責任人準確率低 6%,但 3 倍更快且零費用 |
| 資料提取 | 微調模型 | +7% 準確率,+20% 架構合規性,零費用 |
| 報告生成 | 微調模型 | +12% 模板遵守度,3 倍更快,零費用 |
微調模型在 5 個任務中贏得 4 個,在主要準確率指標上。GPT-4o 領先的那個任務——會議摘要——顯示的差距比大多數人預期的要小。
本次測試套件的總費用
- GPT-4o:AU$126.00
- 微調本地模型:AU$0.00
將此擴展到跨多個客戶的每日代理商運營,年費用差異以數萬澳元計算。
何時使用哪種方法
使用微調本地模型的情況 :
- 任務是重複性的,遵循模型可以從示例中學習的模式
- 輸出格式一致性至關重要(JSON 架構、報告模板、分類分類法)
- 任務涉及特定領域知識(公司術語、產品目錄、內部流程)
- 費用可預測性很重要(代理商、生產部署)
- 資料隱私是一個顧慮(所有內容都在本地)
使用 GPT-4o(或其他前沿模型)的情況:
- 任務需要在陌生上下文中進行新穎推理
- 創意寫作質量是主要指標
- 任務頻繁變化且沒有足夠穩定的訓練資料
- 您正處於原型設計階段,尚未擁有微調資料集