
小语言模型的数据准备:质量优于数量
大模型可以暴力处理嘈杂数据。小模型不行。对于 SLM,数据质量不仅仅是重要的——它是决定模型能否工作的决定性因素。
大语言模型——700 亿参数及以上——对杂乱训练数据的容忍度惊人。它们庞大的参数量给予足够的容量来吸收矛盾、容忍噪声,并仍然提取有用的模式。如果 5% 的训练示例标签不正确,700 亿模型几乎不会注意到。
小语言模型——30 亿到 140 亿参数——没有这种奢侈。参数更少,每个训练示例对模型行为的影响成比例地更大。一个在 2,000 个示例上微调的 70 亿模型给予每个示例大约 350 万参数的影响。一个坏示例不只是增加噪声——它积极地扭曲模型学习的模式。
这就是 SLM 数据悖论:最实用的部署模型(小型、快速、运行成本低)是对训练数据要求最高的模型。
为什么小模型不宽容
模型大小和数据质量容忍度之间的关系不是线性的——而是指数级的:
700 亿以上模型: 可以容忍 5-10% 的标签噪声并仍然表现良好。
140 亿模型: 容忍 3-5% 的标签噪声,然后性能开始明显下降。
70 亿模型: 容忍不到 3% 的标签噪声。2,000 个纯净示例始终优于 10,000 个普通示例。
30 亿模型: 基本上零容忍标签噪声。这些模型需要近乎完美的训练数据。
SLM 的质量要求
标签准确率:大于 95%
对于 SLM,阈值最低 95%,目标 98%+。通过双重标注和专家审查不一致来实现。
格式一致性:100%
如果你的模型应该输出包含 category、confidence 和 explanation 字段的 JSON,那么 100% 的训练示例必须恰好有这三个字段。不是 98%。不是 99%。全部。
去重:近重复低于 1%
对于 SLM 大小的数据集(500-5,000),保持近重复低于 1%。
输入长度分布:匹配生产
训练数据输入长度分布的第 10 和第 90 百分位应该包围生产输入长度的第 10 和第 90 百分位。
类别分布:没有类别低于 5%
目标:没有类别低于总数据集的 5%。
"小数据"现实
对于 SLM,最优数据集大小通常为 500-5,000 个示例:
- 500 个示例足以应对输入/输出模式一致的窄任务
- 1,000-2,000 个示例处理中等复杂度
- 3,000-5,000 个示例用于复杂任务
超过 5,000 个示例,为 SLM 添加更多数据显示收益递减。
SLM 数据准备的反模式
在未审查的合成数据上训练
使用 LLM 生成合成训练数据然后在没有专家审查的情况下微调 SLM 是最常见的 SLM 训练失败。合成数据是有用的,但只有在专家审查之后。
在一个数据集中混合多个任务
SLM 在针对特定任务微调时表现最佳。对于 SLM:一个模型,一个任务。
示例之间格式不一致
在训练前标准化格式。选择一个约定并应用于每个示例。
Ertas Data Suite 的质量评分针对 SLM 训练需求进行了校准。质量指标对较小的目标模型应用更严格的阈值——更高的标签一致性要求、更紧的去重比率和更严格的格式合规检查。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

SLM Fine-Tuning for Document Processing: Turning Enterprise PDFs into Structured Data
How enterprises use fine-tuned small language models to extract structured data from PDFs — construction BOQs, legal contracts, medical records, and financial statements — at a fraction of manual processing cost.

Preparing RAG Datasets vs Fine-Tuning Datasets: Different Pipelines, Same Source Data
RAG needs chunked, retrieval-optimized text. Fine-tuning needs input/output pairs. Both start from the same raw documents. Here's how to run parallel preparation pipelines from a single source.

Data Quality Metrics That Actually Predict Fine-Tuning Outcomes
Not all data quality metrics matter equally for fine-tuning. Here are the 7 metrics that actually correlate with model performance — and the ones that are noise.