从API依赖到模型所有者：90天迁移实战手册

你已经了解了供应商依赖风险。你已经完成了独立性检查清单。你知道成本计算有利于自有模型。现在你需要一个计划。

这本实战手册涵盖了从API依赖到模型所有的前90天。它为没有ML专业知识的团队设计，假设你可以访问你的API日志和领域数据。目标不是消除所有API使用——而是拥有你最关键的AI能力，并为持续独立奠定基础。

开始前：迁移心态

两个原则决定了迁移是顺利还是痛苦：

并行运行，而非冷切换。 你不是在第一天就拆除API集成并替换为微调模型。你是并行运行两者，比较质量，逐步路由流量。API保持活跃，直到微调模型证明自己。

从小处开始，系统性扩展。 不要试图一次迁移所有东西。选一个任务。做好它。建立信心和组织知识。然后重复。

阶段1：审计（第1-14天）

第1周：盘点你的AI触点

映射应用或工作流中调用AI API的每个位置。对于每个触点，记录：

字段	示例
任务描述	将支持工单分类到类别
提供商/模型	OpenAI GPT-4o-mini
月度流量	12,000请求
月度成本	$340
输入格式	非结构化文本（1-3段）
输出格式	预定义列表中的单个类别标签
质量要求	90%以上准确率
关键性	高——将工单路由到正确团队
可用训练数据	是——CRM中18个月的已分类工单

大多数团队发现他们有3-8个不同的AI任务在生产中。有些更多。

第2周：评分和优先排序

在三个维度上对每个任务评分：

微调适用性（1-5）：

一致的输入/输出格式 → 更高分
大流量 → 更高分
可用训练数据 → 更高分
领域特定词汇或知识 → 更高分
主观或创意输出 → 较低分

业务影响（1-5）：

高月度成本 → 更高分
面向客户 → 更高分
SLA敏感 → 更高分
创收 → 更高分

迁移复杂度（1-5，低分更好）：

简单分类/提取 → 低复杂度
多步推理 → 中等复杂度
开放式生成 → 较高复杂度
多模态（文本+图像） → 最高复杂度

优先级 = 适用性 × 影响 ÷ 复杂度

你的最高分任务就是你的试点迁移目标。在大多数企业中，它是以下之一：

客户支持工单分类/路由
特定格式的内容生成
从结构化文档中提取数据
FAQ/知识库响应生成
潜在客户资格评定或评分

阶段2：试点（第15-45天）

第3周：准备训练数据集

你的API日志就是你的训练数据。从生产系统中提取输入/输出对。

最小数据集大小： 500个高质量样本。这对于格式一致的明确任务来说已经足够。

推荐： 1,000-2,000个样本。给模型更多边缘情况来学习。

质量重于数量。 500个仔细审查的样本胜过5,000个嘈杂的样本。花时间在数据质量上，而不仅仅是数量。

数据集准备步骤：

导出原始数据。 从API日志、CRM或数据库中提取输入/输出对。格式化为训练工具所需的聊天消息结构的JSONL。
质量过滤。 删除API输出不正确、格式不佳或需要手动修正的样本。你只需要任务正确完成的样本。
去重。 近似相同的样本增加噪声。删除重复和近似重复。
类别平衡。 如果你在训练分类器，确保所有类别有合理的代表性。极端不平衡（90%的类别A，2%的类别B）会导致模型在少数类别上表现不佳。
分割数据。 保留10-15%作为不会用于训练的测试集。这是你的评估基准。

第4-5周：微调模型

选择基础模型。 对于大多数业务任务：

7B参数 — 推理快速，在消费硬件上运行，适合分类和提取
14B参数 — 更适合生成任务，需要更多计算但仍然实用
Llama 3、Qwen 2.5或Mistral — 都是生产质量的，都允许商业使用

选择训练方法：

LoRA/QLoRA — 标准方法。在冻结的基础权重之上训练轻量级适配器（50-200MB）。内存高效，训练快速，适配器可移植。
全量微调 — 修改所有权重。对于复杂任务更好，但需要更多计算。对于明确定义的业务任务通常不必要。

训练配置（起点）：

学习率：2e-4
批量大小：4-8
轮次：2-3
LoRA秩：32

使用Ertas： 上传JSONL数据集，选择基础模型，开始训练。平台处理GPU配置、超参数管理和进度跟踪。设置大约需要2分钟。训练时间取决于数据集大小和模型——LoRA微调通常为15-60分钟。

运行2-3个实验。 尝试不同的基础模型、LoRA秩或训练时长。跨实验的并排比较帮助你找到最佳配置。

第6周：评估

在保留的测试集上通过API模型和微调模型运行。比较：

定量指标：

准确率（用于分类/提取任务）
格式合规（输出是否匹配预期结构？）
一致性（等效输入是否得到相同答案？）
延迟（每次请求的响应时间）

质量阈值： 对于具有良好训练数据的领域特定任务，期望：

分类和提取90-95%的准确率
在生成质量上与API模型相差5-10%以内
格式合规性高于98%

如果微调模型未达标：

在表现不佳的领域添加更多训练样本
检查数据质量问题（错误标注的样本、不一致的格式）
尝试更大的基础模型（7B → 14B）
增加LoRA秩以获得更多容量

大多数质量差距通过更好的数据来修复，而不是更大的模型。

阶段3：验证（第46-60天）

第7-8周：影子部署

将微调模型部署在API旁边。将所有生产流量路由通过两个模型，但只向用户提供API模型的响应。

实时比较输出：

记录每个请求的两个响应
标记不一致之处进行人工审查
跟踪真实生产流量上的质量指标（不仅仅是测试集性能）
监控训练数据中未出现的边缘情况

影子部署捕获静态评估遗漏的问题：

输入分布偏移（真实流量模式与训练数据不同）
罕见边缘情况（测试集未覆盖的输入）
格式变化（用户不总是像训练样本那样写作）

第8-9周：A/B测试

影子部署确认质量对等后，运行真正的A/B测试：

将10-20%的生产流量路由到微调模型
向这些用户提供微调模型的响应
比较业务指标：用户满意度、任务完成率、错误率
如果指标保持不变，扩展到50%
在每个流量百分比下至少监控一整周

继续的决策标准：

在关键指标上与API模型相差5%以内
用户投诉或错误报告没有增加
格式合规性高于95%
延迟在应用的可接受范围内

开始你的90天迁移。Ertas处理最困难的部分——数据集准备、训练、评估、GGUF导出——全部在可视化界面中。以早鸟价格预订 →

阶段4：扩展（第61-90天）

第9-10周：试点任务的生产切换

A/B测试验证通过后，将试点任务100%的流量路由到微调模型。

切换清单：

将模型导出为GGUF格式
部署在生产推理基础设施上（Ollama、vLLM或llama.cpp）
配置质量指标的监控和告警
维护API回退（保持API集成活跃但休眠——如果需要可以路由回去）
更新文档和运维手册

衡量影响：

月度成本降低（API账单减少）
延迟改善（本地推理通常更快）
可靠性改善（不依赖外部API正常运行时间）
质量指标（应保持A/B测试期间验证的水平）

第11-12周：开始下一次迁移

对你的第二优先级任务应用相同的流程。这次更快，因为你已经建立了组织知识：

数据管道已建立
评估框架已存在
部署基础设施正在运行
团队理解微调工作流程

后续迁移的典型时间：3-4周（相对于第一次的6周）。

第12周：建立持续节奏

建立保持微调模型更新的系统：

重新训练计划。 随着业务发展，模型需要更新。使用新数据进行月度或季度重新训练以保持高性能。使用生产日志作为新训练数据——模型自己的输出（经人工验证）反馈到未来的训练中。

质量监控。 持续跟踪准确率指标。设置质量下降的告警。如果准确率低于阈值，触发重新训练周期。

版本管理。 保持先前模型版本可用于回滚。跟踪哪个模型版本部署在每个环境中。

常见陷阱（以及如何避免）

陷阱1：试图一次迁移所有东西

错误： 花数周为所有8个AI任务构建详细的迁移计划，然后试图并行执行。

修复： 先完成一次迁移。从中学习。将这些经验应用到下一次。当你在构建新的组织能力时，顺序优于并行。

陷阱2：训练数据质量不足

错误： 将10,000条原始API日志倒入训练数据集而不审查。日志中包含不正确的输出、不一致的格式和API模型处理不好的边缘情况。

修复： 在数据策划上花更多时间，在数据量上花更少时间。审查样本。删除不好的。确保格式一致。800个策划过的样本胜过5,000个未审查的样本。

陷阱3：跳过影子部署

错误： 直接从测试集评估跳到生产部署。测试集无法捕获真实世界输入的完整分布。

修复： 始终进行影子部署。始终进行A/B测试。额外的2-3周验证可以防止生产事故，而从生产事故中恢复需要的时间超过2-3周。

陷阱4：优化错误的指标

错误： 当你的API模型只达到85%时追求99%的准确率。微调模型达到92%——比API更好——但团队继续迭代因为它不"完美"。

修复： 你的基准是当前的API模型，不是理论上的完美。如果微调模型在你的指标上匹配或超过API，那就是一次成功的迁移。

陷阱5：忘记回退

错误： 迁移到微调模型后删除API集成。三个月后，你需要重新训练模型，在训练窗口期间没有回退。

修复： 保持API集成休眠。如果你不调用它，你就不用付费。但在紧急情况下——即使是短暂的——让它可用是值得的最小维护成本。

Ertas快捷方式

上述实战手册适用于任何微调工具链。但大部分手动工作——GPU配置、训练配置、数据集格式化、GGUF导出——可以通过正确的平台压缩。

使用Ertas，阶段2-3显著压缩：

数据集上传替代手动JSONL准备（或使用可视化编辑器）
一键训练替代GPU设置、配置文件和监控脚本
内置评估替代自定义评估管道
跨实验并排比较替代手动跟踪
GGUF导出替代量化工具链

使用手动工具需要6周的迁移可以通过集成平台压缩到2-3周。团队陷入困境的最难部分——正是平台处理的部分。

90天后

在这本实战手册结束时，你应该拥有：

1-2个生产任务运行在你拥有的微调模型上
经证明的成本节约已记录和量化
评估框架为未来迁移做好准备
部署基础设施运行并受监控
优先级列表下一步要迁移的任务
组织知识关于微调工作流程

你不再完全依赖API。你拥有关键的AI能力。你的成本更可预测。你的产品更有韧性。

下次AI提供商发送弃用通知或定价变更时，你将拥有选择——而不仅仅是义务。

开始你的迁移。Ertas处理整个管道——从数据集到GGUF——在可视化界面中，不需要代码。以早鸟价格预订。查看计划 →