数据质量 > 数据数量：为什么 250 个好示例胜过 10,000 个坏示例

在微调中有一个持续的假设：更多数据总是更好的。它听起来合理——机器学习应该是数据饥渴的，最大的模型是在数万亿 token 上训练的。所以当你的微调模型表现不佳时，直觉是收集更多训练数据。

这种直觉通常是错误的。具体到微调，数据质量以很大的幅度主导数据数量。

反直觉的发现

2025 年初，Kiln 进行了一个蒸馏实验清楚地说明了这一点。他们取 Gemma 3 27B 并仅在 250 个精心策划的合成示例上微调——通过严格质量过滤从 GPT-4o 生成。结果模型在目标任务上匹配了 GPT-4o 的 few-shot 性能。

250 个示例。不是 25,000。不是 2,500。二百五十。

模式是一致的：小型高质量数据集优于大型嘈杂数据集。每次都是。

什么使数据"高质量"

1. 正确的标签

最明显也最重要的。不正确标签的损害不是成比例的——它被放大。

2. 多样化的输入

你的训练示例应覆盖模型在生产中将看到的输入范围。

3. 代表性分布

训练数据中的示例分布应匹配生产中的输入分布。

4. 干净的格式

一致的格式教模型输出结构。不一致的格式教模型结构不重要。

5. 推理链（适用时）

包含推理过程的训练示例比只包含答案的示例泛化效果好得多。

噪声问题

标签错误的示例不只是向训练中添加噪声——它们积极地降低模型质量。在微调期间，模型调整权重以产出每个训练示例中显示的输出。当矛盾的示例出现时，模型收到矛盾的梯度信号。结果是比任何一个单独都差的妥协。

实践中，一个在 1,000 个示例（10% 标签错误，即 100 个坏示例）上微调的 70 亿模型表现与在 600-700 个干净示例上微调的相同模型相当。那 100 个坏示例不仅浪费空间——它们积极抹去了 200-300 个好示例的收益。

这就是为什么清洗 1,000 个示例几乎总是比收集 2,000 个更好的投资。

质量改进流程

第 1 步：随机审计（30-60 分钟）

从数据集中抽取 50 个随机示例。如果超过 3 个有问题，你有系统性质量问题。

第 2 步：修复标注不一致（1-3 小时）

第 3 步：移除近重复（15 分钟）

第 4 步：平衡分布（30-60 分钟）

第 5 步：验证格式（15 分钟）

第 6 步：标记示例的最终人工审查（1-2 小时）

1,000 个示例的总时间： 4-8 小时。这项投资通常将模型性能提高 5-15%。

要追踪的质量指标

标签准确率（经第二审查者验证）：目标大于 96%
格式合规率（自动检查）：目标大于 98%
去重比率（近重复 %）：目标低于 5%
分布匹配（与生产的 KL 散度）：越低越好
标注者间一致性：目标大于 90%（Cohen's kappa 大于 0.8）

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →