OpenClaw + 微调模型 vs. OpenClaw + GPT-4：一次实际对比

大多数人使用 OpenClaw 时都有一个假设：更大的模型能产出更好的结果。GPT-4o 是默认推荐。Claude 3.5 Sonnet 是替代方案。两者都是拥有庞大参数量和相应高昂 token 成本的前沿模型。

但前沿模型真的是 Agent 工作的最佳选择吗？

我们进行了一次直接对比：OpenClaw 通过 OpenAI API 运行 GPT-4o 与 OpenClaw 通过本地 Ollama 实例运行微调 Qwen 2.5 7B 模型。相同的任务，相同的评估标准，不同的经济模型。

测试配置

云端配置：OpenClaw 通过默认 OpenAI 提供商连接 GPT-4o。标准系统提示词。除任务描述外无自定义指令。

本地配置：OpenClaw 连接 Qwen 2.5 7B 模型，使用 1,500 个任务专用样本通过 LoRA（rank 16，3 个 epoch）微调，通过 Mac Studio M2 Ultra 上的 Ollama 运行。Q5_K_M 量化。

我们测试了五个常见的 OpenClaw 工作流程，每个在准确率、一致性、延迟和成本方面进行评估。

任务 1：邮件分类和回复草拟

任务：处理 200 封收件邮件，按紧急程度分类（紧急/高/中/低），并草拟适当的回复。

指标	GPT-4o	微调 7B
分类准确率	82%	91%
回复质量（人工评分 1-5）	3.8	4.2
平均每封邮件延迟	2.4s	0.8s
200 封邮件费用	AU$12.50	AU$0

微调模型胜出的原因：它使用该公司实际的 600 个邮件分类和回复模式样本进行训练。它学会了特定的紧急标准（"来自 VP 或以上级别 = 高「，」金额超过 $5K 的账单争议 = 紧急"），而 GPT-4o 必须从系统提示词中推断这些信息。系统提示词方法无法持续捕捉到这些细微差别。

任务 2：工单分类

任务：将 500 个客户支持工单分类到 14 个产品专属类别中，提取核心问题并分配优先级。

指标	GPT-4o	微调 7B
类别准确率	71%	94%
优先级准确率	76%	89%
平均每个工单延迟	1.9s	0.6s
500 个工单费用	AU$28.00	AU$0

微调模型胜出的原因：14 个类别的分类体系是公司特定的。"账单「vs」订阅管理「vs」付款处理"之间有着只有在特定上下文中才有意义的微妙区别。GPT-4o 持续混淆了多个类别。微调模型见过 400 个正确分类的样本，学会了类别之间的边界。

这是我们观察到的最大性能差距。领域专属分类正是微调能带来最显著改进的领域。

任务 3：会议总结和待办事项提取

任务：处理 50 份会议记录（每份 15-60 分钟），生成结构化摘要，并提取带有负责人和截止日期的待办事项。

指标	GPT-4o	微调 7B
摘要质量（1-5）	4.3	3.9
待办事项提取（F1）	0.87	0.82
负责人准确率	91%	85%
平均每次会议延迟	8.2s	3.1s
50 次会议费用	AU$45.00	AU$0

GPT-4o 在此胜出的原因：会议摘要需要理解新颖的对话上下文、处理跑题内容以及推断隐含的待办事项。这是通用推理能力比领域专属知识更重要的任务。微调模型表现尚可，但会遗漏 GPT-4o 能捕捉到的微妙暗示和交叉引用。

差距比预期小——微调模型 85% 的负责人准确率 vs GPT-4o 的 91%，对很多场景来说已经足够好了。而且 3 倍速度提升加上零成本，取决于你的需求，这种权衡可能是值得的。

任务 4：文档数据提取

任务：从 100 张发票中提取结构化数据——供应商名称、金额、日期、明细、税款和付款条件。输出为 JSON。

指标	GPT-4o	微调 7B
字段提取准确率	88%	95%
Schema 合规率	79%	99%
平均每张发票延迟	3.1s	1.2s
100 张发票费用	AU$18.50	AU$0

微调模型胜出的原因：Schema 合规率是最突出的指标。GPT-4o 偶尔会偏离指定的 JSON schema——遗漏可选字段、使用不一致的日期格式或以不同的方式嵌套数据。微调模型在训练过程中见过数百次精确的输出 schema，99% 的时间都能严格遵守。

对于 OpenClaw 将提取数据输入下游系统（数据库、API、电子表格）的工作流来说，schema 合规性至关重要。79% 的合规率意味着 21% 的输出需要人工修正或错误处理。99% 时，流水线基本实现了全自动化。

任务 5：每日报告生成

任务：从结构化数据（指标仪表盘、销售数据、项目状态更新）生成 30 份每日业务报告。报告需遵循特定模板并包含叙述性分析。

指标	GPT-4o	微调 7B
模板遵守率	85%	97%
叙述质量（1-5）	4.1	4.0
事实准确率	93%	96%
平均每份报告延迟	5.8s	2.1s
30 份报告费用	AU$22.00	AU$0

微调模型胜出的原因：模板遵守率和事实准确率。模型使用 300 个精确报告格式的样本进行训练，因此始终生成符合预期结构的报告。GPT-4o 有时会重新排列章节、使用不同的标题样式或添加不属于模板的评论。

微调模型的事实准确率也更高——这可能是因为当数据模棱两可时，它不太倾向于用听起来合理但不正确的数字来"填补"。

综合结果

任务	胜出者	微调模型优势
邮件分类	微调模型	+9% 准确率，3 倍速，免费
工单分类	微调模型	+23% 准确率，3 倍速，免费
会议摘要	GPT-4o	-6% 负责人准确率，但 3 倍速且免费
数据提取	微调模型	+7% 准确率，+20% schema 合规率，免费
报告生成	微调模型	+12% 模板遵守率，3 倍速，免费

微调模型在 5 项任务中的 4 项上赢得了主要准确率指标。GPT-4o 领先的唯一任务——会议摘要——显示出比大多数人预期更小的差距。

本次测试的总成本

GPT-4o：AU$126.00
本地微调模型：AU$0.00

将此扩展到每日的机构运营中跨多个客户，年度成本差异将以数万美元计。

何时使用各种方案

使用微调本地模型的场景：

任务重复性高，遵循模型可从示例中学习的模式
输出格式一致性很重要（JSON schema、报告模板、分类体系）
任务涉及领域专属知识（公司术语、产品目录、内部流程）
成本可预测性很重要（机构、生产环境部署）
数据隐私是关注点（所有数据保留在本地）

使用 GPT-4o（或其他前沿模型）的场景：

任务需要跨不熟悉上下文的新颖推理
创意写作质量是主要指标
任务频繁变化且没有足够的稳定训练数据
你处于原型阶段，尚未拥有微调数据集

混合路由（两者兼用）：

将常规、高量任务路由到本地微调模型
将边缘情况和新颖查询路由到云 API 作为后备
OpenClaw 支持多个模型提供商，因此这种配置很容易实现

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

构建你自己的对比

上面的具体准确率数字会因你的使用场景而异。但模式是一致的：在狭窄、重复、领域专属的任务上——正是构成大多数 OpenClaw Agent 工作的那些任务——微调模型优于通用前沿模型。

要运行你自己的对比：

按量确定你的前 3 个 OpenClaw 工作流
导出每个工作流 500+ 个示例（来自当前配置的输入/输出对）
在 Ertas Studio 上微调 7B 模型（30-60 分钟）
用两个模型运行相同的任务
比较准确率、延迟和成本

大多数团队发现微调模型在第一次迭代中就能匹配或超过前沿模型在其特定工作流上的表现。到第二次迭代——将错误分类的样本添加到训练集后——差距通常会进一步扩大，有利于微调模型。