
真正预测微调结果的数据质量指标
并非所有数据质量指标对微调同等重要。以下是真正与模型性能相关的 7 个指标——以及那些只是噪声的指标。
企业数据团队追踪数十个关于训练数据的指标。数据集大小、完整性百分比、每个类别的标签计数、平均文档长度、总标注小时数。跨越 15 页的覆盖率报告。
然而,当微调模型表现不佳时,这些指标几乎没有诊断价值。问题不在于缺乏度量——而在于度量了错误的东西。大多数数据质量指标是描述性的(告诉你数据长什么样)而不是预测性的(告诉你模型将如何表现)。
预测微调成功的 7 个指标
1. 标签一致性(标注者间一致性)
目标: Cohen's kappa 大于 0.85(分类任务)。这是微调结果最具预测性的单一指标。
2. 类别分布平衡
目标: 没有类别低于总数据集的 5%。最大和最小类别之间的比率最好小于 10:1。
3. 输入长度分布
目标: 训练数据的第 10 和第 90 百分位长度应包围生产的第 10 和第 90 百分位长度。
4. 输出格式合规
目标: 100%。这是唯一目标为绝对值的指标。
5. 去重比率
目标: 近重复少于 3%。小数据集(少于 1,000 个示例)目标低于 1%。
6. 领域覆盖
目标: 每个领域子类别至少 5 个示例,没有生产子类别完全缺失。
7. 边缘案例表示
目标: 每个已识别的边缘案例类别至少 3-5 个示例。已识别的边缘案例应占总数据集的 10-15%。
不预测结果的指标
总数据集大小(超过最低阈值后)
2,000 个高质量示例始终优于 10,000 个普通示例。
原始标签准确率(无一致性)
"99% 的标签是正确的"如果是让标注数据的人检查自己的工作则毫无意义。
完整性百分比
只意 味着没有人留下空白。它不说明标签是否正确。
每个示例的标注时间
花更多时间不保证更高质量。
付诸实践
- 标注开始前: 定义输出格式模式、识别领域子类别、进行边缘案例研讨会
- 标注期间: 为 15% 的示例设置双重标注。每天运行格式合规检查
- 标注后: 计算所有 7 个指标。如果任何一个低于阈值,在训练前修复
- 训练后: 将模型错误与数据质量问题关联
Ertas Data Suite 在数据准备管道中自动计算所有七个预测性质量指标。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.


