
从API依赖到模型所有者:90天迁移实战手册
一个分阶段、风险管控的计划,用于将AI工作负载从云API迁移到你拥有的微调模型。每周细分,每个阶段都有具体里程碑。
你已经了解了供应商依赖风险。你已经完成了独立性检查清单。你知道成本计算有利于自有模型。现在你需要一个计划。
这本实战手册涵盖了从API依赖到模型所有的前90天。它为没有ML专业知识的团队设计,假设你可以访问你的API日志和领域数据。目标不是消除所有API使用——而是拥有你最关键的AI能力,并为持续独立奠定基础。
开始前:迁移心态
两个原则决定了迁移是顺利还是痛苦:
并行运行,而非冷切换。 你不是在第一天就拆除API集成并替换为微调模型。你是并行运行两者,比较质量,逐步路由流量。API保持活跃,直到微调模型证明自己。
从小处开始,系统性扩展。 不要试图一次迁移所有东西。选一个任务。做好它。建立信心和组织知识。然后重复。
阶段1:审计(第1-14天)
第1周:盘点你的AI触点
映射应用或工作流中调用AI API的每个位置。对于每个触点,记录:
| 字段 | 示例 |
|---|---|
| 任务描述 | 将支持工单分类到类别 |
| 提供商/模型 | OpenAI GPT-4o-mini |
| 月度流量 | 12,000请求 |
| 月度成本 | $340 |
| 输入格式 | 非结构化文本(1-3段) |
| 输出格式 | 预定义列表中的单个类别标签 |
| 质量要求 | 90%以上准确率 |
| 关键性 | 高——将工单路由到正确团队 |
| 可用训练数据 | 是——CRM中18个月的已分类工单 |
大多数团队发现他们有3-8个不同的AI任务在生产中。有些更多。
第2周:评分和优先排序
在三个维度上对每个任务评分:
微调适用性(1-5):
- 一致的输入/输出格式 → 更高分
- 大流量 → 更高分
- 可用训练数据 → 更高分
- 领域特定词汇或知识 → 更高分
- 主观或创意输出 → 较低分
业务影响(1-5):
- 高月度成本 → 更高分
- 面向客户 → 更高分
- SLA敏感 → 更高分
- 创收 → 更高分
迁移复杂度(1-5,低分更好):
- 简单分类/提取 → 低复杂度
- 多步推理 → 中等复杂度
- 开放式生成 → 较高复杂度
- 多模态(文本+图像) → 最高复杂度
优先级 = 适用性 × 影响 ÷ 复杂度
你的最高分任务就是你的试点迁移目标。在大多数企业中,它是以下之一:
- 客户支持工单分类/路由
- 特定格式的内容生成
- 从结构化文档中提取数据
- FAQ/知识库响应生成
- 潜在客户资格评定或评分
阶段2:试点(第15-45天)
第3周:准备训练数据集
你的API日志就是你的训练数据。从生产系统中提取输入/输出对。
最小数据集大小: 500个高质量样本。这对于格式一致的明确任务来说已经足够。
推荐: 1,000-2,000个样本。给模型更多边缘情况来学习。
质量重于数量。 500个仔细审查的样本胜过5,000个嘈杂的样本。花时间在数据质量上,而不仅仅是数量。
数据集准备步骤:
-
导出原始数据。 从API日志、CRM或数据库中提取输入/输出对。格式化为训练工具所需的聊天消息结构的JSONL。
-
质量过滤。 删除API输出不正确、格式不佳或需要手动修正的样本。你只需要任务正确完成的样本。
-
去重。 近似相同的样本增加噪声。删除重复和近似重复。
-
类别平衡。 如果你在训练分类器,确保所有类别有合理的代表性。极端不平衡(90%的类别A,2%的类别B)会导致模型在少数类别上表现不佳。
-
分割数据。 保留10-15%作为不会用于训练的测试集。这是你的评估基准。
第4-5周:微调模型
选择基础模型。 对于大多数业务任务:
- 7B参数 — 推理快速,在消费硬件上运行,适合分类和提取
- 14B参数 — 更适合生成任务,需要更多计算但仍然实用
- Llama 3、Qwen 2.5或Mistral — 都是生产质量的,都允许商业使用
选择训练方法:
- LoRA/QLoRA — 标准方法。在冻结的基础权重之上训练轻量级适配器(50-200MB)。内存高效, 训练快速,适配器可移植。
- 全量微调 — 修改所有权重。对于复杂任务更好,但需要更多计算。对于明确定义的业务任务通常不必要。
训练配置(起点):
- 学习率:2e-4
- 批量大小:4-8
- 轮次:2-3
- LoRA秩:32
使用Ertas: 上传JSONL数据集,选择基础模型,开始训练。平台处理GPU配置、超参数管理和进度跟踪。设置大约需要2分钟。训练时间取决于数据集大小和模型——LoRA微调通常为15-60分钟。
运行2-3个实验。 尝试不同的基础模型、LoRA秩或训练时长。跨实验的并排比较帮助你找到最佳配置。
第6周:评估
在保留的测试集上通过API模型和微调模型运行。比较:
定量指标:
- 准确率(用于分类/提取 任务)
- 格式合规(输出是否匹配预期结构?)
- 一致性(等效输入是否得到相同答案?)
- 延迟(每次请求的响应时间)
质量阈值: 对于具有良好训练数据的领域特定任务,期望:
- 分类和提取90-95%的准确率
- 在生成质量上与API模型相差5-10%以内
- 格式合规性高于98%
如果微调模型未达标:
- 在表现不佳的领域添加更多训练样本
- 检查数据质量问题(错误标注的样本、不一致的格式)
- 尝试更大的基础模型(7B → 14B)
- 增加LoRA秩以获得更多容量
大多数质量差距通过更好的数据来修复,而不是更大的模型。
阶段3:验证(第46-60天)
第7-8周:影 子部署
将微调模型部署在API旁边。将所有生产流量路由通过两个模型,但只向用户提供API模型的响应。
实时比较输出:
- 记录每个请求的两个响应
- 标记不一致之处进行人工审查
- 跟踪真实生产流量上的质量指标(不仅仅是测试集性能)
- 监控训练数据中未出现的边缘情况
影子部署捕获静态评估遗漏的问题:
- 输入分布偏移(真实流量模式与训练数据不同)
- 罕见边缘情况(测试集未覆盖的输入)
- 格式变化(用户不总是像训练样本那样写作)
第8-9周:A/B测试
影子部署确认质量对等后,运行真正的A/B测试:
- 将10-20%的生产流量路由到微调模型
- 向这些用户提供微调模型的响应
- 比较业务指标:用户满意度、任务完成率、错误率
- 如果指标保持不变,扩展到50%
- 在每个流量百分比下至少监控一整周
继续的决策标准:
- 在关键指标上与API模型相差5%以内
- 用户投诉或错误报告没有增加
- 格式合规性高于95%
- 延迟在应用的可接受范围内
开始你的90天迁移。Ertas处理最困难的部分——数据集准备、训练、评估、GGUF导出——全部在可视化界面中。以早鸟价格预订 →
阶段4:扩展(第61-90天)
第9-10周:试点任务的生产切换
A/B测试验证通过后,将试点任务100%的流量路由到微调模型。
切换清单:
- 将模型导出为GGUF格式
- 部署在生产推理基础设施上(Ollama、vLLM或llama.cpp)
- 配置质量指标的监控和告警
- 维护API回退(保持API集成活跃但休眠——如果需要可以路由回去)
- 更新文档和运维手册
衡量影响:
- 月度成本降低(API账单减少)
- 延迟改善(本地推理通常更快)
- 可靠性改善(不依赖外部API正常运行时间)
- 质量指标(应保持A/B测试期间验证的水平)
第11-12周:开始下一次迁移
对你的第二优先级任务应用相同的流程。这次更快,因为你已经建立了组织知识:
- 数据管道已建立
- 评估框架已存在
- 部署基础设施正在运行
- 团队理解微调工作流程
后续迁移的典型时间:3-4周(相对于第一次的6周)。
第12周:建立持续节奏
建立保持微调模型更新的系统:
重新训练计划。 随着业务发展,模型需要更新。使用新数据进行月度或季度重新训练以保持高性能。使用生产日志作为新训练数据——模型自己的输出(经人工验证)反馈到未来的训练中。
质量监控。 持续跟踪准确率指标。设置质量下降的告警。如果准确率低于阈值,触发重新训练周期。
版本管理。 保持先前模型版本可用于回滚。跟踪哪个模型版本部署在每个环境中。
常见陷阱(以及如何避免)
陷阱1:试图一次迁移所有东西
错误: 花数周为所有8 个AI任务构建详细的迁移计划,然后试图并行执行。
修复: 先完成一次迁移。从中学习。将这些经验应用到下一次。当你在构建新的组织能力时,顺序优于并行。
陷阱2:训练数据质量不足
错误: 将10,000条原始API日志倒入训练数据集而不审查。日志中包含不正确的输出、不一致的格式和API模型处理不好的边缘情况。
修复: 在数据策划上花更多时间,在数据量上花更少时间。审查样本。删除不好的。确保格式一致。800个策划过的样本胜过5,000个未审查的样本。
陷阱3:跳过影子部署
错误: 直接从测试集评估跳到生产部署。测试集无法捕获真实世界输入的完整分布。
修复: 始终进行影子部署。始终进行A/B测试。额外的2-3周验证可以防止生产事故,而从生产事故中恢复需要 的时间超过2-3周。
陷阱4:优化错误的指标
错误: 当你的API模型只达到85%时追求99%的准确率。微调模型达到92%——比API更好——但团队继续迭代因为它不"完美"。
修复: 你的基准是当前的API模型,不是理论上的完美。如果微调模型在你的指标上匹配或超过API,那就是一次成功的迁移。
陷阱5:忘记回退
错误: 迁移到微调模型后删除API集成。三个月后,你需要重新训练模型,在训练窗口期间没有回退。
修复: 保持API集成休眠。如果你不调用它,你就不用付费。但在紧急情况下——即使是短暂的——让它可用是值得的最小维护成本。
Ertas快捷方式
上述实战手册适用于任何微调工具链。但大部分手动工作——GPU配置、训练配置、数据集格式化、GGUF导出——可以通过正确的平台压缩。
使用Ertas,阶段2-3显著压缩:
- 数据集上传替代手动JSONL准备(或使用可视化编辑器)
- 一键训练替代GPU设置、配置文件和监控脚本
- 内置评估替代自定义评估管道
- 跨实验并排比较替代手动跟踪
- GGUF导出替代量化工具链
使用手动工具需要6周的迁移可以通过集成平台压缩到2-3周。团队陷入困境的最难部分——正是平台处理的部分。
90天后
在这本实战手册结束时,你应该拥有:
- 1-2个生产任务运行在你拥有的微调模型上
- 经证明的成本节约已记录和量化
- 评估框架为未来迁移做好准备
- 部署基础设施运行并受监控
- 优先级列表下一步要迁移的任务
- 组织知识关于微调工作流程
你不再完全依赖API。你拥有关键的AI能力。你的成本更可预测。你的产品更有韧性。
下次AI提供商发送弃用通知或定价变更时,你将拥有选择——而不仅仅是义务。
开始你的迁移。Ertas处理整个管道——从数据集到GGUF——在可视化界面中,不需要代码。以早鸟价格预订。查看计划 →
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.