
检测微调模型中的模型漂移:何时重新训练
如何在用户注意到之前检测微调 LLM 中的模型漂移——涵盖输入分布偏移、词汇漂移、任务分布变化、监控仪表板、决策框架和实际维护节奏。
你的模型在部署时达到 94% 的准确率。三个月后,支持工单开始出现:"AI 给出奇怪的答案。"
这就是模型漂移。微调模型的漂移与通用模型不同。通用模型因为世界变化而漂移。微调模型因为它训练的特定领域变化而漂移。
微调模型中的三种漂移类型
类型 1:输入分布偏移
查询不再匹配训练时的查询。通常 2-6 个月后显著。
类型 2:领域词汇偏移
领域本身变化——产品重命名、新术语出现。这是最可见的漂移类型。通常突然发生。
类型 3:任务分布偏移
任务混合变化。数周到数月。
检测方法
方法 1:置信度监控
跟踪模型随时间的平均 token 概率。7 天滚动平均下降超过 10% 时告警。
方法 2:输出质量评分(抽样 5-10%)
随机抽样生产输出并对质量标准评分。金标准方法。
方法 3:用户纠正跟踪
跟踪用户何时编辑、拒绝或覆盖模型输出。
方法 4:输入新颖性检测
使用嵌入相似度测量传入查询与训练数据的差异。
决策框架:何时重新训练
- 准确率下降低于 3%: 监控。无需重新训练。
- 准确率下降 3-7%: 针对性数据更新。4-8 小时。
- 准确率下降超过 7%: 完整重新训练。1-2 个工作日。
- 检测到新任务类型: 添加数据并重新训练。
实际时间线:月度维护
对于生产中健康的微调模型,预计每月 2-4 小时的主动维护。在 3% 而非 10% 标记处捕获漂移通常是半天维护任务和多天恢复项目之间的区别。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

The Cost of Not Retraining: How Stale Models Quietly Break Production
Models degrade silently. A support bot trained on old docs, a classifier missing new categories, a client model that feels 'generic' — stale models cost more than retraining ever will.

Fine-Tuned Model Ops: The Complete Lifecycle Guide
The full lifecycle of fine-tuned models in production — from data preparation through deployment, monitoring, and retraining. Stage-by-stage breakdown with time estimates, maturity levels, and failure modes.

From Prototype to Product: Replacing API Calls with Fine-Tuned Models
Your Lovable/Bolt prototype works. Users are signing up. But every API call eats your margin. Here's the step-by-step playbook for migrating from cloud APIs to fine-tuned local models in production.