为什么微调模型听起来很好但事实经常出错

有一种特定的故障模式让每个向客户部署微调模型的代理机构都感到恐惧。模型生成格式精美、自信流畅、表达清晰的回复——但其中的事实完全错误。

这就是幻觉，而微调可能让它更严重。

这听起来违反直觉。您在正确数据上训练了模型。它学会了正确的模式。额外训练怎么能让模型变得更不准确？答案在于微调实际优化的目标，这并不是大多数人假设的那样。

微调实际教了什么

当您在输入-输出对数据集上微调模型时，模型学会产生看起来像您训练数据的输出。关键词是"看起来"。模型学习模式——格式、语调、词汇、句子结构、正确答案的总体形状。它不学习验证事实或从第一原理推理。

为什么微调可能增加幻觉

1. 在小训练集上过拟合

少于 500 个示例时，模型记忆训练示例而非泛化。

2. 训练数据过于单一

所有示例遵循相同模式时，模型学会始终产生该模式。

3. 通过格式进行奖励黑客

训练数据总包含特定数字时，模型学会好输出应包含数字——即使需要编造。

4. 置信度校准漂移

微调可能侵蚀基础模型的不确定性机制。

如何检测幻觉

事实验证抽样

抽取 50 个输出，识别每个事实声明，对照源材料验证。

一致性检查

相同输入运行 5 次，比较事实声明是否变化。

与源文档交叉引用

验证输出中的每个声明是否可追溯到源文档。

置信度校准测试

用模型不可能正确回答的问题测试。

缓解策略

1. 提高训练数据质量和数量

最有效的缓解。包含"我不知道"的示例。

2. 添加 RAG 层进行事实锚定

微调教模型如何回应，RAG 提供回应的内容。两者结合可减少 40-70% 的幻觉率。

3. 输出验证管线

在模型和终端用户之间添加程序化验证层。

4. 温度和采样控制

低温度减少幻觉。事实性任务使用温度 0 到 0.3。

5. 显式不确定性训练

包含展示适当不确定性的训练示例。添加 50-100 个适当拒绝和不确定性表达的示例。

诚实评估

幻觉不是一个已解决的问题。没有任何微调技术、数据集大小或后处理管线能完全消除它。目标是减少和管理，而非消除。

对客户坦诚。"我们的验证管线下模型 97% 的时间是准确的「是可信的声明。」模型从不犯错"是一个最终会被揭穿的谎言。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →