真正预测微调结果的数据质量指标

企业数据团队追踪数十个关于训练数据的指标。数据集大小、完整性百分比、每个类别的标签计数、平均文档长度、总标注小时数。跨越 15 页的覆盖率报告。

然而，当微调模型表现不佳时，这些指标几乎没有诊断价值。问题不在于缺乏度量——而在于度量了错误的东西。大多数数据质量指标是描述性的（告诉你数据长什么样）而不是预测性的（告诉你模型将如何表现）。

预测微调成功的 7 个指标

1. 标签一致性（标注者间一致性）

目标： Cohen's kappa 大于 0.85（分类任务）。这是微调结果最具预测性的单一指标。

2. 类别分布平衡

目标： 没有类别低于总数据集的 5%。最大和最小类别之间的比率最好小于 10:1。

3. 输入长度分布

目标： 训练数据的第 10 和第 90 百分位长度应包围生产的第 10 和第 90 百分位长度。

4. 输出格式合规

目标： 100%。这是唯一目标为绝对值的指标。

5. 去重比率

目标： 近重复少于 3%。小数据集（少于 1,000 个示例）目标低于 1%。

6. 领域覆盖

目标： 每个领域子类别至少 5 个示例，没有生产子类别完全缺失。

7. 边缘案例表示

目标： 每个已识别的边缘案例类别至少 3-5 个示例。已识别的边缘案例应占总数据集的 10-15%。

不预测结果的指标

总数据集大小（超过最低阈值后）

2,000 个高质量示例始终优于 10,000 个普通示例。

原始标签准确率（无一致性）

"99% 的标签是正确的"如果是让标注数据的人检查自己的工作则毫无意义。

完整性百分比

只意味着没有人留下空白。它不说明标签是否正确。

每个示例的标注时间

花更多时间不保证更高质量。

付诸实践

标注开始前： 定义输出格式模式、识别领域子类别、进行边缘案例研讨会
标注期间： 为 15% 的示例设置双重标注。每天运行格式合规检查
标注后： 计算所有 7 个指标。如果任何一个低于阈值，在训练前修复
训练后： 将模型错误与数据质量问题关联

Ertas Data Suite 在数据准备管道中自动计算所有七个预测性质量指标。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →