What is 过拟合（Overfitting）?

一种训练失败模式，模型记忆了训练数据中的具体示例而非学习可泛化的模式，导致在未见过的输入上表现不佳。

Definition

过拟合发生在机器学习模型学习了训练数据中的噪声、特殊性和具体措辞，而非提取能够泛化到新的、未见过的输入的底层模式时。过拟合的模型在训练集上取得优异指标，但在留出的验证集或测试集上表现明显更差。在大语言模型微调的背景下，过拟合表现为模型可以几乎逐字复制训练示例，但无法处理同一领域内的变体、改写或新颖查询。

过拟合在数据集相对于模型容量较小的微调场景中尤为常见。一个拥有 70 亿参数的模型具有巨大的数据记忆能力，因此仅几百个示例的数据集可能在一个 epoch 内就被完全记忆。训练 epoch 过多、学习率过高或训练数据缺乏多样性时，风险会进一步放大。数据集中的重复或近似重复样本也会加速过拟合。

检测过拟合需要在整个训练过程中同时监控训练损失和验证损失。典型的标志是两者出现分歧：训练损失继续下降（模型越来越紧密地拟合训练数据），而验证损失趋于平稳或上升（模型正在失去泛化能力）。这种分歧是停止训练、回退到较早检查点或调整超参数的信号。

Why It Matters

过拟合的模型在生产中比没有用还糟——它在评估过程中给团队虚假的信心（因为训练指标看起来很好），然后在实际输入上不可预测地失败。对于准确性和可靠性至关重要的企业部署，过拟合可能导致令人尴尬的失败、用户信任的侵蚀和昂贵的回滚。因此，理解和防止过拟合是构建生产 AI 系统的必备技能。

How It Works

过拟合在机制上发生在模型权重对训练样本的调整变得如此精确，以至于编码了数据中的特定噪声而非一般信号。多种技术可以缓解这一问题：使用验证集监控泛化能力，应用早停在验证损失停止改善时终止训练，使用 dropout 或权重衰减作为正则化手段，训练更少的 epoch，降低学习率，以及最重要的——确保训练数据集大、多样且高质量。在基于 LoRA 的微调中，使用较低的适配器秩也可以通过限制模型的记忆能力来降低过拟合风险。

Example Use Case

一家初创公司在 500 个产品 FAQ 对上微调模型 10 个 epoch。训练损失降到接近零，模型完美回答了训练集中的原始问题。但当客户问出稍微改写的问题时，模型要么给出无关答案，要么产生幻觉。在诊断出过拟合（验证损失在第 3 个 epoch 后发散）后，团队将 epoch 减少到 3 个，增加了 200 个更多样化的示例，并将 LoRA 秩从 64 降低到 16。重新训练的模型正确回答新措辞问题的比率达到 78%。

Key Takeaways

过拟合意味着模型记忆训练数据而非学习可泛化的模式。
典型标志是训练损失下降而验证损失上升。
在微调中，数据集过小和训练 epoch 过多是主要原因。
缓解策略包括早停、降低学习率、增加数据多样性和降低适配器秩。
始终使用留出的验证集在训练过程中监控过拟合。

How Ertas Helps

Ertas Studio 通过多项内置保障帮助用户避免过拟合。平台并排显示实时训练和验证损失曲线，使分歧立即可见。Ertas 支持自动早停，在验证损失停止改善时终止训练，防止在适得其反的 epoch 上浪费 GPU 额度。训练配置面板还根据数据集大小提供 epoch 和学习率的推荐范围，引导用户选择最小化过拟合风险的设置。