Back to blog
    真正预测微调结果的数据质量指标
    data-qualitymetricsfine-tuningevaluationsegment:enterprise

    真正预测微调结果的数据质量指标

    并非所有数据质量指标对微调同等重要。以下是真正与模型性能相关的 7 个指标——以及那些只是噪声的指标。

    EErtas Team·

    企业数据团队追踪数十个关于训练数据的指标。数据集大小、完整性百分比、每个类别的标签计数、平均文档长度、总标注小时数。跨越 15 页的覆盖率报告。

    然而,当微调模型表现不佳时,这些指标几乎没有诊断价值。问题不在于缺乏度量——而在于度量了错误的东西。大多数数据质量指标是描述性的(告诉你数据长什么样)而不是预测性的(告诉你模型将如何表现)。

    预测微调成功的 7 个指标

    1. 标签一致性(标注者间一致性)

    目标: Cohen's kappa 大于 0.85(分类任务)。这是微调结果最具预测性的单一指标。

    2. 类别分布平衡

    目标: 没有类别低于总数据集的 5%。最大和最小类别之间的比率最好小于 10:1。

    3. 输入长度分布

    目标: 训练数据的第 10 和第 90 百分位长度应包围生产的第 10 和第 90 百分位长度。

    4. 输出格式合规

    目标: 100%。这是唯一目标为绝对值的指标。

    5. 去重比率

    目标: 近重复少于 3%。小数据集(少于 1,000 个示例)目标低于 1%。

    6. 领域覆盖

    目标: 每个领域子类别至少 5 个示例,没有生产子类别完全缺失。

    7. 边缘案例表示

    目标: 每个已识别的边缘案例类别至少 3-5 个示例。已识别的边缘案例应占总数据集的 10-15%。

    不预测结果的指标

    总数据集大小(超过最低阈值后)

    2,000 个高质量示例始终优于 10,000 个普通示例。

    原始标签准确率(无一致性)

    "99% 的标签是正确的"如果是让标注数据的人检查自己的工作则毫无意义。

    完整性百分比

    只意味着没有人留下空白。它不说明标签是否正确。

    每个示例的标注时间

    花更多时间不保证更高质量。

    付诸实践

    1. 标注开始前: 定义输出格式模式、识别领域子类别、进行边缘案例研讨会
    2. 标注期间: 为 15% 的示例设置双重标注。每天运行格式合规检查
    3. 标注后: 计算所有 7 个指标。如果任何一个低于阈值,在训练前修复
    4. 训练后: 将模型错误与数据质量问题关联

    Ertas Data Suite 在数据准备管道中自动计算所有七个预测性质量指标。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading