从每月 $500 的 OpenAI 账单到 $0：将 n8n 工作流迁移到本地模型

你从一个使用 OpenAI 的 n8n 工作流开始。一个简单的——也许它分类传入的邮件或从表单提交中提取数据。API 调用每次执行只花费几分之一美分。几乎不被注意到。于是你又构建了五个工作流。然后十个。然后你给需要更好推理的工作流添加了 GPT-4。然后你的同事看到了你构建的东西，又要求了三个。

现在你盯着一张每月 $500 的 OpenAI 账单。而且还在攀升。

事实是：大多数工作流不需要 GPT-4。它们甚至不需要 GPT-3.5。它们需要一个在某个特定任务上非常出色的模型——分类、提取、重格式化、摘要——而这正是微调 7B 模型所做的。从 OpenAI API 调用迁移到本地微调模型并不像听起来那么可怕，成本节省是显著的：从每月数百美元到每 Token 成本字面上的零。

本指南逐步引导你完成整个迁移。我们将审计你的工作流，确定迁移优先级，为每种工作流类型微调模型，使用 Ollama 部署它们，并在 n8n 中替换端点而不破坏任何东西。

迁移审计

在迁移任何东西之前，你需要知道你在处理什么。审计的目标是盘点每个使用 AI 节点的 n8n 工作流，按复杂度和流量分类，并识别快速收益。

第 1 步：列出每个带有 AI 节点的工作流。 在 n8n 中，转到工作流列表并搜索包含 OpenAI 节点（或任何 AI/LLM 节点）的工作流。对于每个工作流，记录：

工作流名称和用途
使用的模型（GPT-4、GPT-4o、GPT-3.5-turbo）
每天大约执行次数
每次执行的平均输入 Token 数
每次执行的平均输出 Token 数
是否使用结构化输出（JSON 模式、函数调用）

第 2 步：按任务类型分类。 大多数 AI 驱动的 n8n 工作流属于以下类别：

任务类型	示例	复杂度	迁移难度
分类	邮件路由、工单分类、情感分析	低	简单
提取	从文本中提取姓名/日期/金额、解析发票	低-中	简单
重格式化	将散文转为要点、标准化格式	低	简单
摘要	摘要邮件、会议笔记、文档	中	中等
生成	撰写邮件回复、创建描述、起草内容	中-高	中等
推理	多步分析、决策、复杂问答	高	困难
代码生成	编写 SQL 查询、生成脚本	高	困难

第 3 步：计算每个工作流的成本。 将每个工作流的每日执行次数乘以 Token 使用量和模型的每 Token 费率。

首先迁移哪些工作流

并非所有工作流都是同等候选者。理想的首要目标是：

高流量、低复杂度。 每天分类 2,000 封邮件为 5 个类别的工作流是完美的。它有清晰的输入-输出模式、高流量（因此高节省）和低复杂度（微调 3B 模型就能轻松处理）。

结构化输出。 期望 JSON 输出的工作流——如从发票提取字段或解析表单数据——是很好的候选者。

重复模式。 如果一个工作流基本上以相同的转换执行数千次，只有输入数据变化，微调效果非常好。

优先级框架：

优先级	标准	预期节省
P0 — 立即迁移	分类、提取、重格式化；每天 100 次以上执行	90-100% 成本降低
P1 — 下一步迁移	摘要、简单生成；每天 50 次以上执行	85-95% 成本降低
P2 — 仔细评估	复杂生成、多步推理；任何流量	70-90% 成本降低
P3 — 保持在 API	安全关键、需要世界知识、高度可变的任务	0%（保持在 API）

迁移框架

迁移分四个阶段。不要跳过阶段。不要急于求成。

阶段 1：导出执行数据

对于你要迁移的每个工作流，你需要来自真实执行的实际输入-输出对。这是你的训练数据。

从 n8n 执行日志： n8n 存储每个工作流运行的执行数据。对于 AI 节点的每次执行，提取：

发送给 OpenAI 的提示/输入
收到的响应/输出
工作流是否成功完成（过滤掉失败的）

每种工作流类型需要多少数据？

工作流复杂度	最少示例	推荐	收益递减点
分类（5-10 类）	200	500	2,000
数据提取	300	800	3,000
重格式化	200	500	1,500
摘要	500	1,500	5,000
内容生成	800	2,000	5,000+

对于大多数 n8n 工作流，两到四周的执行日志提供的训练数据绑定有余。

阶段 2：按工作流微调

一个关键问题：训练一个模型用于所有工作流还是每种工作流类型一个模型？

每种工作流类型一个模型 几乎总是正确的选择。原因：

每个模型可以很小很快（3B-7B 参数），因为它只需要处理一个任务
质量更高，因为模型不会被竞争的任务模式混淆
你可以在需求变化时独立更新每个模型
如果一个模型表现不佳，你只需重训那个——不是所有的

阶段 3：部署和测试

在单个 Ollama 实例上部署所有微调模型。

并行测试策略： 在生产中切换任何东西之前，至少并行运行微调模型和现有 OpenAI 工作流一周。

你希望分类和提取工作流至少有 95% 匹配率。对于生成和摘要，需要人工判断——但输出应该在功能上等效。

阶段 4：切换和监控

一旦并行测试确认质量，切换生产工作流。

渐进式切换方案：

第 1 周： 迁移 P0 工作流（分类、提取）。保持 OpenAI 作为兜底。
第 2 周： 如果 P0 稳定，移除 P0 工作流的 OpenAI 兜底。带兜底迁移 P1 工作流。
第 3 周： 移除 P1 兜底。评估 P2 工作流。
第 4 周： 根据评估结果迁移或推迟 P2。

迁移成本计算器

典型迁移的费用对比：

之前：OpenAI API 成本

工作流	模型	执行/天	月 Token 成本
邮件分类	GPT-4o	800	$45
发票提取	GPT-4o	200	$38
工单摘要	GPT-4	150	$85
潜客评分	GPT-3.5	500	$12
内容重格式化	GPT-4o	300	$28
报告生成	GPT-4	50	$62
情感分析	GPT-3.5	1,000	$18
数据标准化	GPT-4o	400	$32
FAQ 回复	GPT-4o	250	$55
邮件起草	GPT-4	100	$78
合计		3,750/天	$453/月

之后：本地微调模型

成本组件	月费
Ollama VPS（8 vCPU, 32GB RAM, Hetzner）	$48
Ertas 订阅（无限训练）	$14.50
OpenAI API（P3 工作流保持在 API）	$35
合计	$97.50/月

月节省：$355.50。年节省：$4,266。

30 天后的结果

一个月运行迁移技术栈后实际发生了什么：

成本降低：78%。 从 $453/月到 $97.50/月。

延迟改善：平均快 40%。 本地推理始终比 OpenAI API 调用快，特别是在高峰时段。

指标	OpenAI API	本地 Ollama	变化
平均响应时间（分类）	800ms	320ms	-60%
平均响应时间（提取）	1,200ms	650ms	-46%
平均响应时间（摘要）	2,500ms	1,800ms	-28%
P99 响应时间（全部）	8,500ms	2,100ms	-75%
每日速率限制错误	3-5	0	-100%

质量指标：

分类准确率：97.2%（本地） vs 98.1%（OpenAI）。差异不到 1%。
提取准确率：95.8%（本地） vs 96.4%（OpenAI）。差异可忽略。
摘要质量（人工评估，100 个样本）：4.2/5（本地） vs 4.4/5（OpenAI）。可接受。

每月 $500 的 OpenAI 账单不是不可避免的。它是使用通用模型完成特定任务的扩展产物。微调本地模型是解决方案——迁移比你想象的更简单。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

从每月 $500 的 OpenAI 账单到 $0：将 n8n 工作流迁移到本地模型

迁移审计

首先迁移哪些工作流

迁移框架

阶段 1：导出执行数据

阶段 2：按工作流微调

阶段 3：部署和测试

阶段 4：切换和监控

迁移成本计算器

30 天后的结果

延伸阅读

Ship AI that runs on your users' devices.

Keep reading

我用微调模型替换了 n8n 工作流中的每一个 OpenAI 调用

n8n 本地 AI：用你自己的微调模型替换 OpenAI

n8n + Ollama + 微调模型：零 API 成本自动化技术栈