
真正预测微调结果的数据质量指标
并非所有数据质量指标对微调同等重要。以下是真正与模型性能相关的 7 个指标——以及那些只是噪声的指标。
企业数据团队追踪数十个关于训练数据的指标。数据集大小、完整性百分比、每个类别的标签计数、平均文档长度、总标注小时数。跨越 15 页的覆盖率报告。
然而,当微调模型表现不佳时,这些指标几乎没有诊断价值。问题不在于缺乏度量——而在于度量了错误的东西。大多数数据质量指标是描述性的(告诉你数据长什么样)而不是预测性的(告诉你模型将如何表现)。
预测微调成功的 7 个指标
1. 标签一致性(标注者间一致性)
目标: Cohen's kappa 大于 0.85(分类任务)。这是微调结果最具预测性的单一指标。
2. 类别分布平衡
目标: 没有类别低于总数据集的 5%。最大和最小类别之间的比率最好小于 10:1。
3. 输入长度分布
目标: 训练数据的第 10 和第 90 百分位长度应包围生产的第 10 和第 90 百分位长度。
4. 输出格式合规
目标: 100%。这是唯一目标为绝对值的指标。
5. 去重比率
目标: 近重复少于 3%。小数据集(少于 1,000 个示例)目标低于 1%。
6. 领域覆盖
目标: 每个领域子类别至少 5 个示例,没有生产子类别完全缺失。
7. 边缘案例表示
目标: 每个已识别的边缘案例类别至少 3-5 个示例。已识别的边缘案例应占总数据集的 10-15%。
不预测结果的指标
总数据集大小(超过最低阈值后)
2,000 个高质量示例始终优于 10,000 个普通示例。
原始标签准确率(无一致性)
"99% 的标签是正确的"如果是让标注数据的人检查自己的工作则毫无意义。
完整性百分比
只意味着没有人留下空白。它不说明标签是否正确。
每个示例的标注时间
花更多时间不保证更高质量。
付诸实践
- 标注开始前: 定义输出格式模式、识别领域子类别、进行边缘案例研讨会
- 标注期间: 为 15% 的示例设置双重标注。每天运行格式合规检查
- 标注后: 计算所有 7 个指标。如果任何一个低于阈值,在训练前修复
- 训练后: 将模型错误与数据质量问题关联
Ertas Data Suite 在数据准备管道中自动计算所有七个预测性质量指标。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Data Preparation for Small Language Models: Quality Over Quantity
Large models can brute-force through noisy data. Small models can't. For SLMs, data quality isn't just important — it's the determining factor between a model that works and one that doesn't.

RAG Quality Scoring: How to Measure Retrieval Accuracy Before It Reaches Your Users
Bad retrieval quality means bad AI answers — but most teams have no way to measure it until users complain. Here is how to build quality scoring into your RAG pipeline at the node level.

Your Model Is Only as Good as Your Worst Training Example
How small amounts of noisy, mislabeled, or low-quality training data disproportionately degrade fine-tuned model performance — and what the research says about the asymmetric impact of bad data.