无需云 API 的训练数据集数据质量评分

训练数据集不是因为存在就准备好了。它准备好是当你能量化其质量——且质量足够高使训练出的模型在生产中表现可接受时。

大多数团队将数据质量视为二元的：数据是"干净的"或不是。实践中，质量是跨多个维度的频谱，数据中不同的问题在训练模型中导致不同的失败模式。

在这些维度上评分质量——无需将数据发送到云 API——是本指南的重点。

训练数据的质量维度

标签准确率

最具影响力的质量维度。如果 10% 的标签错误，模型性能上限大约是 90%——实际上更低，因为错误标签不只是降低准确率，它们积极教授不正确的模式。

标注者间一致性

Cohen's Kappa 大于 0.8 表示强一致性；低于 0.6 建议标注指南需要修订。

数据分布平衡

不平衡比率超过 10:1 通常需要通过数据增强、过采样、欠采样或类别加权训练来缓解。

重复检测

近重复膨胀了数据集的有效大小而没有添加信息。使用 MinHash/LSH 进行高效的近重复检测。

异常值识别

不属于的记录——偏题内容、损坏文本、从不同领域泄漏的记录。

启发式质量评分（无需模型）

启发式	捕获的问题	实现
文本长度（token）	空的、截断的或过长的记录	计算 token；标记超出范围的
句子数	片段和拼接错误	计算句子边界
词汇多样性	重复或样板文本	类型-token 比率
特殊字符比率	OCR 伪影、编码错误	计算非字母数字字符
语言置信度	混合语言或损坏文本	语言检测库
重复 n-gram	复制粘贴伪影	计算 4-gram 频率
PII 密度	不充分的脱敏	每 100 token 计算 PII 标记

基于嵌入的质量分析

本地嵌入模型支持强大的质量分析：

一致性评分

计算所有记录嵌入的质心。每条记录到质心的距离表示它有多"典型"。距离远的记录是潜在异常值。

聚类分析

将 k-means 或 HDBSCAN 聚类应用到嵌入空间。质量信号：单例聚类（可能偏题）、高度集中的聚类（近重复）、类别-聚类不对齐（可能的标签错误）。

实际质量评分工作流

第 1 步：启发式扫描（15 分钟） 第 2 步：去重分析（30 分钟 - 2 小时） 第 3 步：分布分析（30 分钟） 第 4 步：基于嵌入的分析（1-2 小时） 第 5 步：标签质量评分（2-4 小时） 第 6 步：标注者间一致性（如适用） 第 7 步：生成质量报告

质量分数作为交付物

对于服务提供商，当你向客户交付一个带有文档化质量报告的数据集，显示 98.2% 的估计标签准确率、0.87 的 Krippendorff's Alpha、所有近重复已解决、99.7% 的 PII 脱敏覆盖率——这是客户可以在合规文档中引用的可衡量质量声明。

Ertas Data Suite 包含所有维度的内置质量评分——启发式检查、去重、分布分析、基于嵌入的异常值检测和标签质量估计。

连接到管道

质量评分主要发生在清洗期间和标注之后，但也是导出前的最终验证步骤。