
无需云 API 的训练数据集数据质量评分
如何在本地对训练数据质量进行评分——涵盖标签准确率、标注者间一致性、异常值检测和置信学习,无需云依赖。
训练数据集不是因为存在就准备好了。它准备好是当你能量化其质量——且质量足够高使训练出的模型在生产中表现可接受时。
大多数团队将数据质量视为二元的:数据是"干净的"或不是。实践中,质量是跨多个维度的频谱,数据中不同的问题在训练模型中导 致不同的失败模式。
在这些维度上评分质量——无需将数据发送到云 API——是本指南的重点。
训练数据的质量维度
标签准确率
最具影响力的质量维度。如果 10% 的标签错误,模型性能上限大约是 90%——实际上更低,因为错误标签不只是降低准确率,它们积极教授不正确的模式。
标注者间一致性
Cohen's Kappa 大于 0.8 表示强一致性;低于 0.6 建议标注指南需要修订。
数据分布平衡
不平衡比率超过 10:1 通常需要通过数据增强、过采样、欠采 样或类别加权训练来缓解。
重复检测
近重复膨胀了数据集的有效大小而没有添加信息。使用 MinHash/LSH 进行高效的近重复检测。
异常值识别
不属于的记录——偏题内容、损坏文本、从不同领域泄漏的记录。
启发式质量评分(无需模型)
| 启发式 | 捕获的问题 | 实现 |
|---|---|---|
| 文本长度(token) | 空的、截断的或过长的记录 | 计算 token;标记超出范围的 |
| 句子数 | 片段和拼接错误 | 计算句子边界 |
| 词汇多样性 | 重复或样板文本 | 类型-token 比率 |
| 特殊字符比率 | OCR 伪影、编码错误 | 计算非字母数字字符 |
| 语言置信度 | 混合语言或损坏文本 | 语言检测库 |
| 重复 n-gram | 复制粘贴伪影 | 计算 4-gram 频率 |
| PII 密度 | 不充分的脱敏 | 每 100 token 计算 PII 标记 |
基于嵌入的质量分析
本地嵌入模型支持强大的质量分析:
一致性评分
计算所有记录嵌入的质心。每条记录到质心的距离表示它有多"典型"。距离远的记录是潜在异常值。
聚类分析
将 k-means 或 HDBSCAN 聚类应用到嵌入空间。质量信号:单例聚类(可能偏题)、高度集中的聚类(近重复)、类别-聚类不对齐(可能的标签错误)。
实际质量评分工作流
第 1 步:启发式扫描(15 分钟) 第 2 步:去重分析(30 分钟 - 2 小时) 第 3 步:分布分析(30 分钟) 第 4 步:基于嵌入的分析(1-2 小时) 第 5 步:标签质量评分(2-4 小时) 第 6 步:标注者间一致性(如适用) 第 7 步:生成质量报告
质量分数作为交付物
对于服务提供商,当你向客户交付一个带有文档化质量报告的数据集,显示 98.2% 的估计标签准确率、0.87 的 Krippendorff's Alpha、所有近重复已解决、99.7% 的 PII 脱敏覆盖率——这是客户可以在合规文档中引用的可衡量质量声明。
Ertas Data Suite 包含所有维度的内置质量评分——启发式检查、去重、分布分析、基于嵌入的异常值检测和标签质量估计。
连接到管道
质量评分主要发生在清洗期间和标注之后,但也是导出前的最终验证步骤。
完整管道概述,参见如何构建用于 LLM 微调的本地数据准备管道。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Premise Data Cleaning for ML Training Datasets: Deduplication, Normalization, and Quality Scoring
How to clean ML training datasets on-premise — covering deduplication with MinHash, text normalization, PII redaction, and quality scoring without cloud APIs.

RAG Quality Scoring: How to Measure Retrieval Accuracy Before It Reaches Your Users
Bad retrieval quality means bad AI answers — but most teams have no way to measure it until users complain. Here is how to build quality scoring into your RAG pipeline at the node level.

Training AI on Financial Statements: Data Extraction and Labeling On-Premise
How to extract and label financial statement data for AI training — parsing XBRL, extracting tables from PDFs, handling format variation, and building classification models for financial analysis.