
OpenClaw + 微调模型 vs. OpenClaw + GPT-4:一次实际对比
我们对比了 OpenClaw 在本地微调模型和 GPT-4o 上运行五项常见 Agent 任务的表现。以下是微调模型胜出的地方、不足之处,以及数据背后的真实情况。
大多数人使用 OpenClaw 时都有一个假设:更大的模型能产出更好的结果。GPT-4o 是默认推荐。Claude 3.5 Sonnet 是替代方案。两者都是拥有庞大参数量和相应高昂 token 成本的前沿模型。
但前沿模型真的是 Agent 工作的最佳选择吗?
我们进行了一次直接对比:OpenClaw 通过 OpenAI API 运行 GPT-4o 与 OpenClaw 通过本地 Ollama 实例运行微调 Qwen 2.5 7B 模型。相同的任务,相同的评估标准,不同的经济模型。
测试配置
云端配置:OpenClaw 通过默认 OpenAI 提供商连接 GPT-4o。标准系统提示词。除任务描述外无自定义指令。
本地配置:OpenClaw 连接 Qwen 2.5 7B 模型,使用 1,500 个任务专用样本通过 LoRA(rank 16,3 个 epoch)微调,通过 Mac Studio M2 Ultra 上的 Ollama 运行。Q5_K_M 量化。
我们测试了五个常见的 OpenClaw 工作流程,每个在准确率、一致性、延迟和成本方面进行评估。
任务 1:邮件分类和回复草拟
任务:处理 200 封收件邮件,按紧急程度分类(紧急/高/中/低),并草拟适当的回复。
| 指标 | GPT-4o | 微调 7B |
|---|---|---|
| 分类准确率 | 82% | 91% |
| 回复质量(人工评分 1-5) | 3.8 | 4.2 |
| 平均每封邮件延迟 | 2.4s | 0.8s |
| 200 封邮件费用 | AU$12.50 | AU$0 |
微调模型胜出的原因:它使用该公司实际的 600 个邮件分类和回复模式样本进行训练。它学会了特定的紧急标准("来自 VP 或以上级别 = 高「,」金额超过 $5K 的账单争议 = 紧急"),而 GPT-4o 必须从系统提示词中推断这些信息。系统提示词方法无法持续捕捉到这些细微差别。
任务 2:工单分类
任务:将 500 个客户支持工单分类到 14 个产品专属类别中,提取核心问题并分配优先级。
| 指标 | GPT-4o | 微调 7B |
|---|---|---|
| 类别准确率 | 71% | 94% |
| 优先级准确率 | 76% | 89% |
| 平均每个工单延迟 | 1.9s | 0.6s |
| 500 个工单费用 | AU$28.00 | AU$0 |
微调模型胜出的原因:14 个类别的分类体系是公司特定的。"账单「vs」订阅管理「vs」付款处理"之间有着只有在特定上下文中才有意义的微妙区别。GPT-4o 持续混淆了多个类别。微调模型见过 400 个正确分类的样本,学会了类别之间的边界。
这是我们观察到的最大性能差距。领域专属分类正是微调能带来最显著改进的领域。
任务 3:会议总结和待办事项提取
任务:处理 50 份会议记录(每份 15-60 分钟),生成结构化摘要,并提取带有负责人和截止日期的待办事项。
| 指标 | GPT-4o | 微调 7B |
|---|---|---|
| 摘要质量(1-5) | 4.3 | 3.9 |
| 待办事项提取(F1) | 0.87 | 0.82 |
| 负责人准确率 | 91% | 85% |
| 平均每次会议延迟 | 8.2s | 3.1s |
| 50 次会议费用 | AU$45.00 | AU$0 |
GPT-4o 在此胜出的原因:会议摘要需要理解新颖的对话上下文、处理跑题内容以及推断隐含的待办事项。这是通用推理能力比领域专属知识更重要的任务。微调模型表现尚可,但会遗漏 GPT-4o 能捕捉到的微妙暗示和交叉引用。
差距比预期小——微调模型 85% 的负责人准确率 vs GPT-4o 的 91%,对很多场景来说已经足够好了。而且 3 倍速度提升加上零成本,取决于你的需求,这种权衡可能是值得的。
任务 4:文档数据提取
任务:从 100 张发票中提取结构化数据——供应商名称、金额、日期、明细、税款和付款条件。输出为 JSON。
| 指标 | GPT-4o | 微调 7B |
|---|---|---|
| 字段提取准确率 | 88% | 95% |
| Schema 合规率 | 79% | 99% |
| 平均每张发票延迟 | 3.1s | 1.2s |
| 100 张发票费用 | AU$18.50 | AU$0 |
微调模型胜出的原因:Schema 合规率是最突出的指标。GPT-4o 偶尔会偏离指定的 JSON schema——遗漏可选字段、使用不一致的日期格式或 以不同的方式嵌套数据。微调模型在训练过程中见过数百次精确的输出 schema,99% 的时间都能严格遵守。
对于 OpenClaw 将提取数据输入下游系统(数据库、API、电子表格)的工作流来说,schema 合规性至关重要。79% 的合规率意味着 21% 的输出需要人工修正或错误处理。99% 时,流水线基本实现了全自动化。
任务 5:每日报告生成
任务:从结构化数据(指标仪表盘、销售数据、项目状态更新)生成 30 份每日业务报告。报告需遵循特定模板并包含叙述性分析。
| 指标 | GPT-4o | 微调 7B |
|---|---|---|
| 模板遵守率 | 85% | 97% |
| 叙述质量(1-5) | 4.1 | 4.0 |
| 事实准确率 | 93% | 96% |
| 平均每份报告延迟 | 5.8s | 2.1s |
| 30 份报告费用 | AU$22.00 | AU$0 |
微调模型胜出的原因:模板遵守率和事实准确率。模型使用 300 个精确报告格式的样本进行训练,因此始终生成符合预期结构的报告。GPT-4o 有时会重新排列章节、使用不同的标题样式或添加不属于模板的评论。
微调模型的事实准确率也更高——这可能是因为当数据模棱两可时,它不太倾向于用听起来合理但不正确的数字来"填补"。