数据准备差距：为什么 ML 团队在训练开始前花费 80% 的时间

这个统计数据几乎是陈词滥调：ML 团队将 60-80% 的时间花在数据准备上。十多年来它一直被引用在调查、博客文章和会议演讲中。然而——什么都没有改变。百分比没有变动。

这种持续性值得审视。ML 团队效率低下吗？他们的数据管道过度工程化了吗？还是行业处理数据准备的方式存在某种结构性问题，保证了这个结果？

答案是结构性的。修复不在于更好的 ML 工程师——而在于解决根本原因的专用工具。

为什么百分比没有变动

大多数企业的数据准备工作流涉及 3-7 个断开的工具。这些工具之间的集成是自定义 Python 代码——没有人想写、没有人想维护、破坏时没有人想调试的"粘合脚本"。

这种碎片化在每个边界处倍增工作量。格式转换、错误处理、数据验证和审计跟踪连续性都需要不直接改善数据质量的工程时间。

最了解数据是否正确标注的人——医生、律师、工程师、会计师——通常无法使用 ML 数据准备工具。Label Studio 需要 Docker 部署。Prodigy 需要 Python。Cleanlab 是一个 Python 库。

如果领域专家可以直接标注数据——不需要 Docker、Python 或作为中间人的 ML 工程师——标注阶段将只需当前时间的一小部分。

大多数数据准备管道没有内置审计跟踪。在受监管行业中，审计跟踪不仅仅是调试便利——它是合规要求。

在大多数组织中，数据准备被视为通往模型训练"真正工作"的初步步骤。它没有专门的人员编制、专门的工具预算或专门的项目管理。

部分数据准备工作确实是不可简化的。但不可简化的复杂性不意味着当前方法是最优的。60-80% 中的大部分不是花在困难问题上——而是花在集成、格式转换、工具维护和解决工具限制上。

用处理摄取、清洗、标注、增强和导出的单一平台替换 3-7 个工具链。

构建领域专家可以直接使用的数据准备工具——带有可视界面的原生桌面应用，而非 Python 库和 Docker 容器。

使日志记录自动化且全面。每次转换、每个标签、每个质量决策都无需手动记录即可记录。

将数据准备视为核心能力，而非预处理步骤。专用工具、专用时间、专用质量指标。

Ertas Data Suite 基于这些原则构建：覆盖所有五个管道阶段的统一平台，通过原生桌面界面供领域专家访问，具有自动审计跟踪和合规文档。60-80% 的统计数据持续存在是因为工具没有改变。当工具改变时，数字也会跟着变。