
n8nfine-tuningplaybookagencyworkflowsegment:agency
从 n8n 工作流到微调模型:代理机构分步手册
一份面向 n8n 代理机构的战术指南:通过工作流收集客户交互数据,清洗和格式化,在 Ertas Studio 中微调模型,本地部署,并连接回 n8n 进行推理。
EErtas Team·
你有为客户运行的 n8n 工作流。它们调用 OpenAI 或 Anthropic API 进行分类、摘要、生成或分析任务。工作流有效,但 API 成本吞噬了你的利润,质量也不一致。
以下是将这些现有 n8n 工作流转变为微调流水线的手册——使用你已经生成的交互数据来训练更便宜、更快、更准确的自定义模型。
流水线概览
n8n 工作流(现有)→ 数据收集 → 清洗 → 微调 → 本地部署 → n8n 工作流(更新后)
你从 n8n 开始和结束。中间步骤将客户的使用数据转化为替代 API 调用的自定义模型。
第 1 步:通过 n8n 收集客户交互数据
你现有的 n8n 工作流已经包含你需要的训练数据——每次 API 调用都包含输入(指令)和输出(模型的响应)。你只需要捕获它。
添加数据收集分支
对于调用 AI API 的每个工作流,添加一个记录交互的并行分支:
- 在 HTTP 请求节点(API 调用)之后,添加一个 Set 节点,提取输入提示/消息、收到的响应、时间戳、客户 标识符和任务类型。
- 将其路由到存储记录的 Google Sheets、Airtable 或 PostgreSQL 节点。
数据量目标
| 微调质量 | 需要的示例数 | 收集时间(典型) |
|---|---|---|
| 最低可行 | 500 | 1-2 周 |
| 良好质量 | 1,500-2,000 | 3-6 周 |
| 生产就绪 | 3,000+ | 6-12 周 |
现在就开始收集,即使你距离微调还有几周。更多数据产生更好的模型。
第 2 步:清洗和格式化数据集
原始交互日志在微调前需要清洗。
自动化清洗(n8n 工作流)
创建一个数据清洗工作流:
- 从数据存储读取
- 过滤掉被拒绝的响应
- 删除重复项
- 标准化格式
- 验证结构
- 导出为 JSONL
输出格式
{"instruction": "Classify this email as: billing, technical, general, or spam.\n\nEmail: I can't log into my account after the update...", "response": "technical"}
第 3 步:在 Ertas Studio 中微调
- 在 Ertas Studio 中为此客户和任务创建项目
- 上传 JSONL 文件
- 选择基础模型——大多数代理机构任务选择 Llama 3.1 8B
- 配置训练(LoRA 秩:16,轮数:3,学习率:2e-4)
- 开始训练——2,000 个示例的 8B 模型通常 30-60 分钟
- 评估——使用 Studio 的并排对比测试微调模型