
数据质量 > 数据数量:为什么 250 个好示例胜过 10,000 个坏示例
为什么数据质量对微调比数据量更重要——有近期研究证据表明精心策划的小数据集始终优于大型嘈杂数据集。
在微调中有一个持续的假设:更多数据总是更好的。它听起来合理——机器学习应该是数据饥渴的,最大的模型是在数万亿 token 上训练的。所以当你的微调模型表现不佳时,直觉是收集更多训练数据。
这种直觉通常是错误的。具体到微调,数据质量以很大的幅度主导数据数量。
反直觉的发现
2025 年初,Kiln 进行了一个蒸馏实验清楚地说明了这一点。他们取 Gemma 3 27B 并仅在 250 个精心策划的合成示例上微调——通过严格质量过滤从 GPT-4o 生成。结果模型在目标任务上匹配了 GPT-4o 的 few-shot 性能。
250 个示例。不是 25,000。不是 2,500。二百五十。
模式是一致的:小型高质量数据集优于大型嘈杂数据集。每次都是。
什么使数据"高质量"
1. 正确的标签
最明显也最重要的。不正确标签的损害不是成比例的——它被放大。
2. 多样化的输入
你的训练示例应覆盖模型在生产中将看到的输入范围。
3. 代表性分布
训练数据中的示例分布应匹配生产中的输入分布。
4. 干净的格式
一致的格式教模型输出结构。不一致的格式教模型结构不重要。
5. 推理链(适用时)
包含推理过程的训练示例比只包含答案的示例泛化效果好得多。
噪声问题
标签错误的示例不只是向训练中添加噪声——它们积极地降低模型质量。在微调期间,模型调整权重以产出每个训练示例中显示的输出。当矛盾的示例出现时,模型收到矛盾的梯度信号。结果是比任何一个单独都差的妥协。
实践中,一个在 1,000 个示例(10% 标签错误,即 100 个坏示例)上微调的 70 亿模型表现 与在 600-700 个干净示例上微调的相同模型相当。那 100 个坏示例不仅浪费空间——它们积极抹去了 200-300 个好示例的收益。
这就是为什么清洗 1,000 个示例几乎总是比收集 2,000 个更好的投资。
质量改进流程
第 1 步:随机审计(30-60 分钟)
从数据集中抽取 50 个随机示例。如果超过 3 个有问题,你有系统性质量问题。
第 2 步:修复标注不一致(1-3 小时)
第 3 步:移除近重复(15 分钟)
第 4 步:平衡分布(30-60 分钟)
第 5 步:验证格式(15 分钟)
第 6 步:标记示例的最终人工审查(1-2 小时)
1,000 个示例的总时间: 4-8 小时。这项投资通常将模型性能提高 5-15%。
要追踪的质量指标
- 标签准确率(经第二审查者验证):目标大于 96%
- 格式合规率(自动检查):目标大于 98%
- 去重比率(近重复 % ):目标低于 5%
- 分布匹配(与生产的 KL 散度):越低越好
- 标注者间一致性:目标大于 90%(Cohen's kappa 大于 0.8)
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
相关阅读
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Cleaning and Curating Datasets for Fine-Tuning Without a Data Science Team
Step-by-step guide to cleaning, validating, and curating fine-tuning datasets using no-code tools — covering deduplication, label validation, format checks, and distribution analysis for non-technical teams.

The AI Data Quality Framework: Measuring What Actually Matters for Training Data
A systematic framework for measuring and ensuring AI training data quality across five dimensions, with scoring methodology and maturity levels for enterprise teams.

Your Model Is Only as Good as Your Worst Training Example
How small amounts of noisy, mislabeled, or low-quality training data disproportionately degrade fine-tuned model performance — and what the research says about the asymmetric impact of bad data.