小语言模型的数据准备：质量优于数量

大语言模型——700 亿参数及以上——对杂乱训练数据的容忍度惊人。它们庞大的参数量给予足够的容量来吸收矛盾、容忍噪声，并仍然提取有用的模式。如果 5% 的训练示例标签不正确，700 亿模型几乎不会注意到。

小语言模型——30 亿到 140 亿参数——没有这种奢侈。参数更少，每个训练示例对模型行为的影响成比例地更大。一个在 2,000 个示例上微调的 70 亿模型给予每个示例大约 350 万参数的影响。一个坏示例不只是增加噪声——它积极地扭曲模型学习的模式。

这就是 SLM 数据悖论：最实用的部署模型（小型、快速、运行成本低）是对训练数据要求最高的模型。

为什么小模型不宽容

模型大小和数据质量容忍度之间的关系不是线性的——而是指数级的：

700 亿以上模型： 可以容忍 5-10% 的标签噪声并仍然表现良好。

140 亿模型： 容忍 3-5% 的标签噪声，然后性能开始明显下降。

70 亿模型： 容忍不到 3% 的标签噪声。2,000 个纯净示例始终优于 10,000 个普通示例。

30 亿模型： 基本上零容忍标签噪声。这些模型需要近乎完美的训练数据。

SLM 的质量要求

标签准确率：大于 95%

对于 SLM，阈值最低 95%，目标 98%+。通过双重标注和专家审查不一致来实现。

格式一致性：100%

如果你的模型应该输出包含 category、confidence 和 explanation 字段的 JSON，那么 100% 的训练示例必须恰好有这三个字段。不是 98%。不是 99%。全部。

去重：近重复低于 1%

对于 SLM 大小的数据集（500-5,000），保持近重复低于 1%。

输入长度分布：匹配生产

训练数据输入长度分布的第 10 和第 90 百分位应该包围生产输入长度的第 10 和第 90 百分位。

类别分布：没有类别低于 5%

目标：没有类别低于总数据集的 5%。

"小数据"现实

对于 SLM，最优数据集大小通常为 500-5,000 个示例：

500 个示例足以应对输入/输出模式一致的窄任务
1,000-2,000 个示例处理中等复杂度
3,000-5,000 个示例用于复杂任务

超过 5,000 个示例，为 SLM 添加更多数据显示收益递减。

SLM 数据准备的反模式

在未审查的合成数据上训练

使用 LLM 生成合成训练数据然后在没有专家审查的情况下微调 SLM 是最常见的 SLM 训练失败。合成数据是有用的，但只有在专家审查之后。

在一个数据集中混合多个任务

SLM 在针对特定任务微调时表现最佳。对于 SLM：一个模型，一个任务。

示例之间格式不一致

在训练前标准化格式。选择一个约定并应用于每个示例。

Ertas Data Suite 的质量评分针对 SLM 训练需求进行了校准。质量指标对较小的目标模型应用更严格的阈值——更高的标签一致性要求、更紧的去重比率和更严格的格式合规检查。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

小语言模型的数据准备：质量优于数量

为什么小模型不宽容

SLM 的质量要求

标签准确率：大于 95%

格式一致性：100%

去重：近重复低于 1%

输入长度分布：匹配生产

类别分布：没有类别低于 5%

"小数据"现实

SLM 数据准备的反模式

在未审查的合成数据上训练

在一个数据集中混合多个任务

示例之间格式不一致

延伸阅读

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

真正预测微调结果的数据质量指标

RAG 数据集 vs 微调数据集准备：不同管道，相同源数据

企业数据准备 ROI 商业案例模板