
从每月 $500 的 OpenAI 账单到 $0:将 n8n 工作流迁移到本地模型
一份面向在 OpenAI API 调用上花费数百美元的 n8n 用户的实用迁移指南。将工作流迁移到本地微调模型,不会破坏任何东西。
你从一个使用 OpenAI 的 n8n 工作流开始。一个简单的——也许它分类传入的邮件或从表单提交中提取数据。API 调用每次执行只花费几分之一美分。几乎不被注意到。于是你又构建了五个工作流。然后十个。然后你给需要更好推理的工作流添加了 GPT-4。然后你的同事看到了你构建的东西,又要求了三个。
现在你盯着一张每月 $500 的 OpenAI 账单。而且还在攀升。
事实是:大多数工作流不需要 GPT-4。它们甚至不需要 GPT-3.5。它们需要一个在某个特定任务上非常出色的模型——分类、提取、重格式化、摘要——而这正是微调 7B 模型所做的。从 OpenAI API 调用迁移到本地微调模型并不像听起来那么可怕,成本节省是显著的:从每月数百美元到每 Token 成本字面上的零。
本指南逐步引导你完成整个迁移。我们将审计你的工作流,确定迁移优先级,为每种工作流类型微调模型,使用 Ollama 部署它们,并在 n8n 中替换端点而不破坏任何东西。
迁移审计
在迁移任何东西之前,你需要知道你在处理什么。审计的目标是盘点每个使用 AI 节点的 n8n 工作流,按复杂度和流量分类,并识别快速收益。
第 1 步:列出每个带有 AI 节点的工作流。 在 n8n 中,转到工作流列表并搜索包含 OpenAI 节点(或任何 AI/LLM 节点)的工作流。对于每个工作流,记录:
- 工作流名称和用途
- 使用的模型(GPT-4、GPT-4o、GPT-3.5-turbo)
- 每天大约执行次数
- 每次执行的平均输入 Token 数
- 每次执行的平均输出 Token 数
- 是否使用结构化输出(JSON 模式、函数调用)
第 2 步:按任务类型分类。 大多数 AI 驱动的 n8n 工作流属于以下类别:
| 任务类型 | 示例 | 复杂度 | 迁移难度 |
|---|---|---|---|
| 分类 | 邮件路由、工单分类、情感分析 | 低 | 简单 |
| 提取 | 从文本中提取姓名/日期/金额、解析发票 | 低-中 | 简单 |
| 重格式化 | 将散文转为要点、标准化格式 | 低 | 简单 |
| 摘要 | 摘要邮件、会议笔记、文档 | 中 | 中等 |
| 生成 | 撰写邮件回复、创建描述、起草内容 | 中-高 | 中等 |
| 推理 | 多步分析、决策、复杂问答 | 高 | 困难 |
| 代码生成 | 编写 SQL 查询、生成脚本 | 高 | 困难 |
第 3 步:计算每个工作流的成本。 将每个工作流的每日执行次数乘以 Token 使用量和模型的每 Token 费率。
首先迁移哪些工作流
并非所有工作流都是同等候选者。理想的首要目标是:
高流量、低复杂度。 每天分类 2,000 封邮件为 5 个类别的工作流是完美的。它有清晰的输入-输出模式、高流量(因此高节省)和低复杂度(微调 3B 模型就能轻松处理)。
结构化输出。 期望 JSON 输出的工作流——如从发票提取字段或解析表单数据——是很好的候选者。
重复模式。 如果一个工作流基本上以相同的转换执行数千次,只有输入数据变化,微调效果非常好。
优先级框架:
| 优先级 | 标准 | 预期节省 |
|---|---|---|
| P0 — 立即迁移 | 分类、提取、重格式化;每天 100 次以上执行 | 90-100% 成本降低 |
| P1 — 下一步迁移 | 摘要、简单生成;每天 50 次以上执行 | 85-95% 成本降低 |
| P2 — 仔细评估 | 复杂生成、多步推理;任何流量 | 70-90% 成本降低 |
| P3 — 保持在 API | 安全关键、需要世界知识、高度可变的任务 | 0%(保持在 API) |
迁移框架
迁移分四个阶段。不要跳过阶段。不要急于求成。
阶段 1:导出执行数据
对于你要迁移的每个工作流,你需要来自真实执行的实际输入-输出对。这是你的训练数据。
从 n8n 执行日志: n8n 存储每个工作流运行的执行数据。对于 AI 节点的每次执行,提取:
- 发送给 OpenAI 的提示/输入
- 收到的响应/输出
- 工作流是否成功完成(过滤掉失败的)
每种工作流类型需要多少数据?
| 工作流复杂度 | 最少示例 | 推荐 | 收益递减点 |
|---|---|---|---|
| 分类(5-10 类) | 200 | 500 | 2,000 |
| 数据提取 | 300 | 800 | 3,000 |
| 重格式化 | 200 | 500 | 1,500 |
| 摘要 | 500 | 1,500 | 5,000 |
| 内容生成 | 800 | 2,000 | 5,000+ |
对于大多数 n8n 工作流,两到四周的执行日志提供的训练数据绑定有余。
阶段 2:按工作流微调
一个关键问题:训练一个模型用于所有工作流还是每种工作流类型一个模型?
每种工作流类型一个模型 几乎总是正确的选择。原因:
- 每个模型可以很小很快(3B-7B 参数),因为它只需要处理一个任务
- 质量更高,因为模型不会被竞争的任务模式混淆
- 你可以在需求变化时独立更新每个模型
- 如果一个模型表现不佳,你只需重训那个——不是所有的
阶段 3:部署和测试
在单个 Ollama 实例上部署所有微调模型。
并行测试策略: 在生产中切换任何东西之前,至少并行运行微调模型和现有 OpenAI 工作流一周。
你希望分类和提取工作流至少有 95% 匹配率。对于生成和摘要,需要人工判断——但输出应该在功能上等效。
阶段 4:切换和监控
一旦并行测试确认质量,切换生产工作流。
渐进式切换方案:
- 第 1 周: 迁移 P0 工作流(分类、提取)。保持 OpenAI 作为兜底。
- 第 2 周: 如果 P0 稳定,移除 P0 工作流的 OpenAI 兜底。带兜底迁移 P1 工作流。
- 第 3 周: 移除 P1 兜底。评估 P2 工作流。
- 第 4 周: 根据评估结果迁移 或推迟 P2。
迁移成本计算器
典型迁移的费用对比:
之前:OpenAI API 成本
| 工作流 | 模型 | 执行/天 | 月 Token 成本 |
|---|---|---|---|
| 邮件分类 | GPT-4o | 800 | $45 |
| 发票提取 | GPT-4o | 200 | $38 |
| 工单摘要 | GPT-4 | 150 | $85 |
| 潜客评分 | GPT-3.5 | 500 | $12 |
| 内容重格式化 | GPT-4o | 300 | $28 |
| 报告生成 | GPT-4 | 50 | $62 |
| 情感分析 | GPT-3.5 | 1,000 | $18 |
| 数据标准化 | GPT-4o | 400 | $32 |
| FAQ 回复 | GPT-4o | 250 | $55 |
| 邮件起草 | GPT-4 | 100 | $78 |
| 合计 | 3,750/天 | $453/月 |
之后:本地微调模型
| 成本组件 | 月费 |
|---|---|
| Ollama VPS(8 vCPU, 32GB RAM, Hetzner) | $48 |
| Ertas 订阅(无限训练) | $14.50 |
| OpenAI API(P3 工作流保持在 API) | $35 |
| 合计 | $97.50/月 |
月节省:$355.50。年节省:$4,266。
30 天后的结果
一个月运行迁移技术栈后实际发生了什么:
成本降低:78%。 从 $453/月到 $97.50/月。
延迟改善:平均快 40%。 本地推理始终比 OpenAI API 调用快,特别是在高峰时段。
| 指标 | OpenAI API | 本地 Ollama | 变化 |
|---|---|---|---|
| 平均响应时间(分类) | 800ms | 320ms | -60% |
| 平均响应时间 (提取) | 1,200ms | 650ms | -46% |
| 平均响应时间(摘要) | 2,500ms | 1,800ms | -28% |
| P99 响应时间(全部) | 8,500ms | 2,100ms | -75% |
| 每日速率限制错误 | 3-5 | 0 | -100% |
质量指标:
- 分类准确率:97.2%(本地) vs 98.1%(OpenAI)。差异不到 1%。
- 提取准确率:95.8%(本地) vs 96.4%(OpenAI)。差异可忽略。
- 摘要质量(人工评估,100 个样本):4.2/5(本地) vs 4.4/5(OpenAI)。可接受。
每月 $500 的 OpenAI 账单不是不可避免的。它是使用通用模型完成特定任务的扩展产物。微调本地模型是解决方案——迁移比你想象的更简单。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
- 从 API 依赖到模型所有者:90 天迁移手册 — 从 API 到自有模型的完整分阶段计划。
- n8n + 本地 LLM 实现符合 HIPAA 的自动化 — 本地模型如何解决医疗工作流的合规问题。
- n8n 到微调模型的代理机构手册 — 将 n8n 迁移产品化为代理机构服务。
- 按 Token AI 定价的隐性成本 — 为什么按 Token 定价与可持续业务根本不兼容。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

I Replaced Every OpenAI Call in My n8n Workflows With a Fine-Tuned Model
A builder's firsthand account of migrating 12 n8n workflows from OpenAI to locally-running fine-tuned models. The costs, the gotchas, and the results after 60 days.

n8n Local AI: Replace OpenAI With Your Own Fine-Tuned Model
Step-by-step guide to replacing OpenAI API calls in your n8n workflows with a locally-running fine-tuned model. Cut costs to zero without sacrificing quality.

SLM-First Architecture: The 80/20 Routing Strategy That Cuts AI Costs 75%
Most AI features don't need GPT-4. An SLM-first architecture routes 80% of requests to fine-tuned local models and 20% to cloud APIs — cutting costs by 60-75% while maintaining quality.