Back to blog
    数据质量 > 数据数量:为什么 250 个好示例胜过 10,000 个坏示例
    data-qualityfine-tuningbest-practicesinsightssegment:agency

    数据质量 > 数据数量:为什么 250 个好示例胜过 10,000 个坏示例

    为什么数据质量对微调比数据量更重要——有近期研究证据表明精心策划的小数据集始终优于大型嘈杂数据集。

    EErtas Team·

    在微调中有一个持续的假设:更多数据总是更好的。它听起来合理——机器学习应该是数据饥渴的,最大的模型是在数万亿 token 上训练的。所以当你的微调模型表现不佳时,直觉是收集更多训练数据。

    这种直觉通常是错误的。具体到微调,数据质量以很大的幅度主导数据数量。

    反直觉的发现

    2025 年初,Kiln 进行了一个蒸馏实验清楚地说明了这一点。他们取 Gemma 3 27B 并仅在 250 个精心策划的合成示例上微调——通过严格质量过滤从 GPT-4o 生成。结果模型在目标任务上匹配了 GPT-4o 的 few-shot 性能。

    250 个示例。不是 25,000。不是 2,500。二百五十。

    模式是一致的:小型高质量数据集优于大型嘈杂数据集。每次都是。

    什么使数据"高质量"

    1. 正确的标签

    最明显也最重要的。不正确标签的损害不是成比例的——它被放大。

    2. 多样化的输入

    你的训练示例应覆盖模型在生产中将看到的输入范围。

    3. 代表性分布

    训练数据中的示例分布应匹配生产中的输入分布。

    4. 干净的格式

    一致的格式教模型输出结构。不一致的格式教模型结构不重要。

    5. 推理链(适用时)

    包含推理过程的训练示例比只包含答案的示例泛化效果好得多。

    噪声问题

    标签错误的示例不只是向训练中添加噪声——它们积极地降低模型质量。在微调期间,模型调整权重以产出每个训练示例中显示的输出。当矛盾的示例出现时,模型收到矛盾的梯度信号。结果是比任何一个单独都差的妥协。

    实践中,一个在 1,000 个示例(10% 标签错误,即 100 个坏示例)上微调的 70 亿模型表现与在 600-700 个干净示例上微调的相同模型相当。那 100 个坏示例不仅浪费空间——它们积极抹去了 200-300 个好示例的收益。

    这就是为什么清洗 1,000 个示例几乎总是比收集 2,000 个更好的投资。

    质量改进流程

    第 1 步:随机审计(30-60 分钟)

    从数据集中抽取 50 个随机示例。如果超过 3 个有问题,你有系统性质量问题。

    第 2 步:修复标注不一致(1-3 小时)

    第 3 步:移除近重复(15 分钟)

    第 4 步:平衡分布(30-60 分钟)

    第 5 步:验证格式(15 分钟)

    第 6 步:标记示例的最终人工审查(1-2 小时)

    1,000 个示例的总时间: 4-8 小时。这项投资通常将模型性能提高 5-15%。

    要追踪的质量指标

    • 标签准确率(经第二审查者验证):目标大于 96%
    • 格式合规率(自动检查):目标大于 98%
    • 去重比率(近重复 %):目标低于 5%
    • 分布匹配(与生产的 KL 散度):越低越好
    • 标注者间一致性:目标大于 90%(Cohen's kappa 大于 0.8)

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    相关阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading