
无需云 API 的训练数据集数据质量评分
如何在本地对训练数据质量进行评分——涵盖标签准确率、标注者间一致性、异常值检测和置信学习,无需云依赖。
训练数据集不是因为存在就准备好了。它准备好是当你能量化其质量——且质量足够高使训练出的模型在生产中表现可接受时。
大多数团队将数据质量视为二元的:数据是"干净的"或不是。实践中,质量是跨多个维度的频谱,数据中不同的问题在训练模型中导致不同的失败模式。
在这些维度上评分质量——无需将数据发送到云 API——是本指南的重点。
训练数据的质量维度
标签准确率
最具影响力的质量维度。如果 10% 的标签错误,模型性能上限大约是 90%——实际上更低,因为错误标签不只是降低准确率,它们积极教授不正确的模式。
标注者间一致性
Cohen's Kappa 大于 0.8 表 示强一致性;低于 0.6 建议标注指南需要修订。
数据分布平衡
不平衡比率超过 10:1 通常需要通过数据增强、过采样、欠采样或类别加权训练来缓解。
重复检测
近重复膨胀了数据集的有效大小而没有添加信息。使用 MinHash/LSH 进行高效的近重复检测。
异常值识别
不属于的记录——偏题内容、损坏文本、从不同领域泄漏的记录。
启发式质量评分(无需模型)
| 启发式 | 捕获的问题 | 实现 |
|---|---|---|
| 文本长度(token) | 空的、截断的或过长的记录 | 计算 token;标记超出范围的 |
| 句子数 | 片段和拼接错误 | 计算句子边界 |
| 词汇多样性 | 重复或样板文本 | 类型-token 比率 |
| 特殊字符比率 | OCR 伪影、编码错误 | 计算非字母数字字符 |
| 语言置信度 | 混合语言或损坏文本 | 语言检测库 |
| 重复 n-gram | 复制粘贴伪影 | 计算 4-gram 频 率 |
| PII 密度 | 不充分的脱敏 | 每 100 token 计算 PII 标记 |
基于嵌入的质量分析
本地嵌入模型支持强大的质量分析:
一致性评分
计算所有记录嵌入的质心。每条记录到质心的距离表示它有多"典型"。距离远的记录是潜在异常值。
聚类分析
将 k-means 或 HDBSCAN 聚类应用到嵌入空间。质量信号:单例聚类(可能偏题)、高度集中的聚类(近重复)、类别-聚类不对齐(可能的标签错误)。
实际质量评分工作流
第 1 步:启发式扫描(15 分钟) 第 2 步:去重分析(30 分钟 - 2 小时) 第 3 步:分布分析(30 分钟) 第 4 步:基于嵌入的分析(1-2 小时) 第 5 步:标签质量评分(2-4 小时) 第 6 步:标注者间一致性(如适用) 第 7 步:生成质量报告
质量分数作为交付物
对于服务提供商,当你向客户交付一个带有文档化质量报告的数据集,显示 98.2% 的估计标签准确率、0.87 的 Krippendorff's Alpha、所有近重复已解决、99.7% 的 PII 脱敏覆盖率——这是客户可以在合规文档中引用的可衡量质量声明。
Ertas Data Suite 包含所有维度的内置质量评分——启发式检查、去重、分布分析、基于嵌入的异常值检测和标签质量估计。
连接到管道
质量评分主要发生在清洗期间和标注之后,但也是导出前的最终验证步骤。
完整管道概述,参见如何构建用于 LLM 微调的本地数据准备管道。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.


