Back to blog
    无需云 API 的训练数据集数据质量评分
    data-qualityquality-scoringtraining-dataon-premisecleanlabconfidence-learningsegment:service-provider

    无需云 API 的训练数据集数据质量评分

    如何在本地对训练数据质量进行评分——涵盖标签准确率、标注者间一致性、异常值检测和置信学习,无需云依赖。

    EErtas Team·

    训练数据集不是因为存在就准备好了。它准备好是当你能量化其质量——且质量足够高使训练出的模型在生产中表现可接受时。

    大多数团队将数据质量视为二元的:数据是"干净的"或不是。实践中,质量是跨多个维度的频谱,数据中不同的问题在训练模型中导致不同的失败模式。

    在这些维度上评分质量——无需将数据发送到云 API——是本指南的重点。


    训练数据的质量维度

    标签准确率

    最具影响力的质量维度。如果 10% 的标签错误,模型性能上限大约是 90%——实际上更低,因为错误标签不只是降低准确率,它们积极教授不正确的模式。

    标注者间一致性

    Cohen's Kappa 大于 0.8 表示强一致性;低于 0.6 建议标注指南需要修订。

    数据分布平衡

    不平衡比率超过 10:1 通常需要通过数据增强、过采样、欠采样或类别加权训练来缓解。

    重复检测

    近重复膨胀了数据集的有效大小而没有添加信息。使用 MinHash/LSH 进行高效的近重复检测。

    异常值识别

    不属于的记录——偏题内容、损坏文本、从不同领域泄漏的记录。


    启发式质量评分(无需模型)

    启发式捕获的问题实现
    文本长度(token)空的、截断的或过长的记录计算 token;标记超出范围的
    句子数片段和拼接错误计算句子边界
    词汇多样性重复或样板文本类型-token 比率
    特殊字符比率OCR 伪影、编码错误计算非字母数字字符
    语言置信度混合语言或损坏文本语言检测库
    重复 n-gram复制粘贴伪影计算 4-gram 频率
    PII 密度不充分的脱敏每 100 token 计算 PII 标记

    基于嵌入的质量分析

    本地嵌入模型支持强大的质量分析:

    一致性评分

    计算所有记录嵌入的质心。每条记录到质心的距离表示它有多"典型"。距离远的记录是潜在异常值。

    聚类分析

    将 k-means 或 HDBSCAN 聚类应用到嵌入空间。质量信号:单例聚类(可能偏题)、高度集中的聚类(近重复)、类别-聚类不对齐(可能的标签错误)。


    实际质量评分工作流

    第 1 步:启发式扫描(15 分钟) 第 2 步:去重分析(30 分钟 - 2 小时) 第 3 步:分布分析(30 分钟) 第 4 步:基于嵌入的分析(1-2 小时) 第 5 步:标签质量评分(2-4 小时) 第 6 步:标注者间一致性(如适用) 第 7 步:生成质量报告


    质量分数作为交付物

    对于服务提供商,当你向客户交付一个带有文档化质量报告的数据集,显示 98.2% 的估计标签准确率、0.87 的 Krippendorff's Alpha、所有近重复已解决、99.7% 的 PII 脱敏覆盖率——这是客户可以在合规文档中引用的可衡量质量声明。

    Ertas Data Suite 包含所有维度的内置质量评分——启发式检查、去重、分布分析、基于嵌入的异常值检测和标签质量估计。


    连接到管道

    质量评分主要发生在清洗期间和标注之后,但也是导出前的最终验证步骤。

    完整管道概述,参见如何构建用于 LLM 微调的本地数据准备管道

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading