Back to blog
    从API依赖到模型所有者:90天迁移实战手册
    迁移模型所有权微调自托管实战手册供应商锁定

    从API依赖到模型所有者:90天迁移实战手册

    一个分阶段、风险管控的计划,用于将AI工作负载从云API迁移到你拥有的微调模型。每周细分,每个阶段都有具体里程碑。

    EErtas Team·

    你已经了解了供应商依赖风险。你已经完成了独立性检查清单。你知道成本计算有利于自有模型。现在你需要一个计划。

    这本实战手册涵盖了从API依赖到模型所有的前90天。它为没有ML专业知识的团队设计,假设你可以访问你的API日志和领域数据。目标不是消除所有API使用——而是拥有你最关键的AI能力,并为持续独立奠定基础。

    开始前:迁移心态

    两个原则决定了迁移是顺利还是痛苦:

    并行运行,而非冷切换。 你不是在第一天就拆除API集成并替换为微调模型。你是并行运行两者,比较质量,逐步路由流量。API保持活跃,直到微调模型证明自己。

    从小处开始,系统性扩展。 不要试图一次迁移所有东西。选一个任务。做好它。建立信心和组织知识。然后重复。

    阶段1:审计(第1-14天)

    第1周:盘点你的AI触点

    映射应用或工作流中调用AI API的每个位置。对于每个触点,记录:

    字段示例
    任务描述将支持工单分类到类别
    提供商/模型OpenAI GPT-4o-mini
    月度流量12,000请求
    月度成本$340
    输入格式非结构化文本(1-3段)
    输出格式预定义列表中的单个类别标签
    质量要求90%以上准确率
    关键性高——将工单路由到正确团队
    可用训练数据是——CRM中18个月的已分类工单

    大多数团队发现他们有3-8个不同的AI任务在生产中。有些更多。

    第2周:评分和优先排序

    在三个维度上对每个任务评分:

    微调适用性(1-5):

    • 一致的输入/输出格式 → 更高分
    • 大流量 → 更高分
    • 可用训练数据 → 更高分
    • 领域特定词汇或知识 → 更高分
    • 主观或创意输出 → 较低分

    业务影响(1-5):

    • 高月度成本 → 更高分
    • 面向客户 → 更高分
    • SLA敏感 → 更高分
    • 创收 → 更高分

    迁移复杂度(1-5,低分更好):

    • 简单分类/提取 → 低复杂度
    • 多步推理 → 中等复杂度
    • 开放式生成 → 较高复杂度
    • 多模态(文本+图像) → 最高复杂度

    优先级 = 适用性 × 影响 ÷ 复杂度

    你的最高分任务就是你的试点迁移目标。在大多数企业中,它是以下之一:

    • 客户支持工单分类/路由
    • 特定格式的内容生成
    • 从结构化文档中提取数据
    • FAQ/知识库响应生成
    • 潜在客户资格评定或评分

    阶段2:试点(第15-45天)

    第3周:准备训练数据集

    你的API日志就是你的训练数据。从生产系统中提取输入/输出对。

    最小数据集大小: 500个高质量样本。这对于格式一致的明确任务来说已经足够。

    推荐: 1,000-2,000个样本。给模型更多边缘情况来学习。

    质量重于数量。 500个仔细审查的样本胜过5,000个嘈杂的样本。花时间在数据质量上,而不仅仅是数量。

    数据集准备步骤:

    1. 导出原始数据。 从API日志、CRM或数据库中提取输入/输出对。格式化为训练工具所需的聊天消息结构的JSONL。

    2. 质量过滤。 删除API输出不正确、格式不佳或需要手动修正的样本。你只需要任务正确完成的样本。

    3. 去重。 近似相同的样本增加噪声。删除重复和近似重复。

    4. 类别平衡。 如果你在训练分类器,确保所有类别有合理的代表性。极端不平衡(90%的类别A,2%的类别B)会导致模型在少数类别上表现不佳。

    5. 分割数据。 保留10-15%作为不会用于训练的测试集。这是你的评估基准。

    第4-5周:微调模型

    选择基础模型。 对于大多数业务任务:

    • 7B参数 — 推理快速,在消费硬件上运行,适合分类和提取
    • 14B参数 — 更适合生成任务,需要更多计算但仍然实用
    • Llama 3、Qwen 2.5或Mistral — 都是生产质量的,都允许商业使用

    选择训练方法:

    • LoRA/QLoRA — 标准方法。在冻结的基础权重之上训练轻量级适配器(50-200MB)。内存高效,训练快速,适配器可移植。
    • 全量微调 — 修改所有权重。对于复杂任务更好,但需要更多计算。对于明确定义的业务任务通常不必要。

    训练配置(起点):

    • 学习率:2e-4
    • 批量大小:4-8
    • 轮次:2-3
    • LoRA秩:32

    使用Ertas: 上传JSONL数据集,选择基础模型,开始训练。平台处理GPU配置、超参数管理和进度跟踪。设置大约需要2分钟。训练时间取决于数据集大小和模型——LoRA微调通常为15-60分钟。

    运行2-3个实验。 尝试不同的基础模型、LoRA秩或训练时长。跨实验的并排比较帮助你找到最佳配置。

    第6周:评估

    在保留的测试集上通过API模型和微调模型运行。比较:

    定量指标:

    • 准确率(用于分类/提取任务)
    • 格式合规(输出是否匹配预期结构?)
    • 一致性(等效输入是否得到相同答案?)
    • 延迟(每次请求的响应时间)

    质量阈值: 对于具有良好训练数据的领域特定任务,期望:

    • 分类和提取90-95%的准确率
    • 在生成质量上与API模型相差5-10%以内
    • 格式合规性高于98%

    如果微调模型未达标:

    • 在表现不佳的领域添加更多训练样本
    • 检查数据质量问题(错误标注的样本、不一致的格式)
    • 尝试更大的基础模型(7B → 14B)
    • 增加LoRA秩以获得更多容量

    大多数质量差距通过更好的数据来修复,而不是更大的模型。

    阶段3:验证(第46-60天)

    第7-8周:影子部署

    将微调模型部署在API旁边。将所有生产流量路由通过两个模型,但只向用户提供API模型的响应。

    实时比较输出:

    • 记录每个请求的两个响应
    • 标记不一致之处进行人工审查
    • 跟踪真实生产流量上的质量指标(不仅仅是测试集性能)
    • 监控训练数据中未出现的边缘情况

    影子部署捕获静态评估遗漏的问题:

    • 输入分布偏移(真实流量模式与训练数据不同)
    • 罕见边缘情况(测试集未覆盖的输入)
    • 格式变化(用户不总是像训练样本那样写作)

    第8-9周:A/B测试

    影子部署确认质量对等后,运行真正的A/B测试:

    • 将10-20%的生产流量路由到微调模型
    • 向这些用户提供微调模型的响应
    • 比较业务指标:用户满意度、任务完成率、错误率
    • 如果指标保持不变,扩展到50%
    • 在每个流量百分比下至少监控一整周

    继续的决策标准:

    • 在关键指标上与API模型相差5%以内
    • 用户投诉或错误报告没有增加
    • 格式合规性高于95%
    • 延迟在应用的可接受范围内

    开始你的90天迁移。Ertas处理最困难的部分——数据集准备、训练、评估、GGUF导出——全部在可视化界面中。以早鸟价格预订 →

    阶段4:扩展(第61-90天)

    第9-10周:试点任务的生产切换

    A/B测试验证通过后,将试点任务100%的流量路由到微调模型。

    切换清单:

    • 将模型导出为GGUF格式
    • 部署在生产推理基础设施上(Ollama、vLLM或llama.cpp)
    • 配置质量指标的监控和告警
    • 维护API回退(保持API集成活跃但休眠——如果需要可以路由回去)
    • 更新文档和运维手册

    衡量影响:

    • 月度成本降低(API账单减少)
    • 延迟改善(本地推理通常更快)
    • 可靠性改善(不依赖外部API正常运行时间)
    • 质量指标(应保持A/B测试期间验证的水平)

    第11-12周:开始下一次迁移

    对你的第二优先级任务应用相同的流程。这次更快,因为你已经建立了组织知识:

    • 数据管道已建立
    • 评估框架已存在
    • 部署基础设施正在运行
    • 团队理解微调工作流程

    后续迁移的典型时间:3-4周(相对于第一次的6周)。

    第12周:建立持续节奏

    建立保持微调模型更新的系统:

    重新训练计划。 随着业务发展,模型需要更新。使用新数据进行月度或季度重新训练以保持高性能。使用生产日志作为新训练数据——模型自己的输出(经人工验证)反馈到未来的训练中。

    质量监控。 持续跟踪准确率指标。设置质量下降的告警。如果准确率低于阈值,触发重新训练周期。

    版本管理。 保持先前模型版本可用于回滚。跟踪哪个模型版本部署在每个环境中。

    常见陷阱(以及如何避免)

    陷阱1:试图一次迁移所有东西

    错误: 花数周为所有8个AI任务构建详细的迁移计划,然后试图并行执行。

    修复: 先完成一次迁移。从中学习。将这些经验应用到下一次。当你在构建新的组织能力时,顺序优于并行。

    陷阱2:训练数据质量不足

    错误: 将10,000条原始API日志倒入训练数据集而不审查。日志中包含不正确的输出、不一致的格式和API模型处理不好的边缘情况。

    修复: 在数据策划上花更多时间,在数据量上花更少时间。审查样本。删除不好的。确保格式一致。800个策划过的样本胜过5,000个未审查的样本。

    陷阱3:跳过影子部署

    错误: 直接从测试集评估跳到生产部署。测试集无法捕获真实世界输入的完整分布。

    修复: 始终进行影子部署。始终进行A/B测试。额外的2-3周验证可以防止生产事故,而从生产事故中恢复需要的时间超过2-3周。

    陷阱4:优化错误的指标

    错误: 当你的API模型只达到85%时追求99%的准确率。微调模型达到92%——比API更好——但团队继续迭代因为它不"完美"。

    修复: 你的基准是当前的API模型,不是理论上的完美。如果微调模型在你的指标上匹配或超过API,那就是一次成功的迁移。

    陷阱5:忘记回退

    错误: 迁移到微调模型后删除API集成。三个月后,你需要重新训练模型,在训练窗口期间没有回退。

    修复: 保持API集成休眠。如果你不调用它,你就不用付费。但在紧急情况下——即使是短暂的——让它可用是值得的最小维护成本。

    Ertas快捷方式

    上述实战手册适用于任何微调工具链。但大部分手动工作——GPU配置、训练配置、数据集格式化、GGUF导出——可以通过正确的平台压缩。

    使用Ertas,阶段2-3显著压缩:

    • 数据集上传替代手动JSONL准备(或使用可视化编辑器)
    • 一键训练替代GPU设置、配置文件和监控脚本
    • 内置评估替代自定义评估管道
    • 跨实验并排比较替代手动跟踪
    • GGUF导出替代量化工具链

    使用手动工具需要6周的迁移可以通过集成平台压缩到2-3周。团队陷入困境的最难部分——正是平台处理的部分。

    90天后

    在这本实战手册结束时,你应该拥有:

    • 1-2个生产任务运行在你拥有的微调模型上
    • 经证明的成本节约已记录和量化
    • 评估框架为未来迁移做好准备
    • 部署基础设施运行并受监控
    • 优先级列表下一步要迁移的任务
    • 组织知识关于微调工作流程

    你不再完全依赖API。你拥有关键的AI能力。你的成本更可预测。你的产品更有韧性。

    下次AI提供商发送弃用通知或定价变更时,你将拥有选择——而不仅仅是义务。


    开始你的迁移。Ertas处理整个管道——从数据集到GGUF——在可视化界面中,不需要代码。以早鸟价格预订。查看计划 →

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.