Back to blog
    小语言模型的数据准备:质量优于数量
    slmdata-qualityfine-tuningdata-preparationsegment:enterprise

    小语言模型的数据准备:质量优于数量

    大模型可以暴力处理嘈杂数据。小模型不行。对于 SLM,数据质量不仅仅是重要的——它是决定模型能否工作的决定性因素。

    EErtas Team·

    大语言模型——700 亿参数及以上——对杂乱训练数据的容忍度惊人。它们庞大的参数量给予足够的容量来吸收矛盾、容忍噪声,并仍然提取有用的模式。如果 5% 的训练示例标签不正确,700 亿模型几乎不会注意到。

    小语言模型——30 亿到 140 亿参数——没有这种奢侈。参数更少,每个训练示例对模型行为的影响成比例地更大。一个在 2,000 个示例上微调的 70 亿模型给予每个示例大约 350 万参数的影响。一个坏示例不只是增加噪声——它积极地扭曲模型学习的模式。

    这就是 SLM 数据悖论:最实用的部署模型(小型、快速、运行成本低)是对训练数据要求最高的模型。

    为什么小模型不宽容

    模型大小和数据质量容忍度之间的关系不是线性的——而是指数级的:

    700 亿以上模型: 可以容忍 5-10% 的标签噪声并仍然表现良好。

    140 亿模型: 容忍 3-5% 的标签噪声,然后性能开始明显下降。

    70 亿模型: 容忍不到 3% 的标签噪声。2,000 个纯净示例始终优于 10,000 个普通示例。

    30 亿模型: 基本上零容忍标签噪声。这些模型需要近乎完美的训练数据。

    SLM 的质量要求

    标签准确率:大于 95%

    对于 SLM,阈值最低 95%,目标 98%+。通过双重标注和专家审查不一致来实现。

    格式一致性:100%

    如果你的模型应该输出包含 categoryconfidenceexplanation 字段的 JSON,那么 100% 的训练示例必须恰好有这三个字段。不是 98%。不是 99%。全部。

    去重:近重复低于 1%

    对于 SLM 大小的数据集(500-5,000),保持近重复低于 1%。

    输入长度分布:匹配生产

    训练数据输入长度分布的第 10 和第 90 百分位应该包围生产输入长度的第 10 和第 90 百分位。

    类别分布:没有类别低于 5%

    目标:没有类别低于总数据集的 5%。

    "小数据"现实

    对于 SLM,最优数据集大小通常为 500-5,000 个示例:

    • 500 个示例足以应对输入/输出模式一致的窄任务
    • 1,000-2,000 个示例处理中等复杂度
    • 3,000-5,000 个示例用于复杂任务

    超过 5,000 个示例,为 SLM 添加更多数据显示收益递减。

    SLM 数据准备的反模式

    在未审查的合成数据上训练

    使用 LLM 生成合成训练数据然后在没有专家审查的情况下微调 SLM 是最常见的 SLM 训练失败。合成数据是有用的,但只有在专家审查之后。

    在一个数据集中混合多个任务

    SLM 在针对特定任务微调时表现最佳。对于 SLM:一个模型,一个任务。

    示例之间格式不一致

    在训练前标准化格式。选择一个约定并应用于每个示例。

    Ertas Data Suite 的质量评分针对 SLM 训练需求进行了校准。质量指标对较小的目标模型应用更严格的阈值——更高的标签一致性要求、更紧的去重比率和更严格的格式合规检查。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading