
数据准备差距:为什么 ML 团队在训练开始前花费 80% 的时间
为什么 60-80% 的数据准备统计数据持续存在——碎片化工具、领域专家排斥、缺失的审计跟踪,以及对专用数据准备工具的结构性投资不足。
这个统计数据几乎是陈词滥调:ML 团队将 60-80% 的时间花在数据准备上。十多年来它一直被引用在调查、博客文章和会议演讲中。然而——什么都没有改变。百分比没有变动。
这种持续性值得审视。ML 团队效率低下吗?他们的数据管道过度工程化了吗?还是行业处理数据准备的方式存在某种结构性问题,保证了这个结果?
答案是结构性的。修复不在于更好的 ML 工程师——而在于解决根本原因的专用工具。
为什么百分比没有变动
原因 1:碎片化工具
大多数企业的数据准备工作流涉及 3-7 个断开的工具。这些工具之间的集成是自定义 Python 代码——没有人想写、没有人想维护、破坏时没有人想调试的"粘合脚本"。
这种碎片化在每个边界处倍增工作量。格式转换、错误处理、数据验证和审计跟踪连续性都需要不直接改善数据质量的工程时间。
原因 2:领域专家排斥
最了解数据是否正确标注的人——医生、律师、工程师、会计师——通常无法使用 ML 数据准备工具。Label Studio 需要 Docker 部署。Prodigy 需要 Python。Cleanlab 是一个 Python 库。
如果领域专家可以直接标注数据——不需要 Docker、Python 或作为中间人的 ML 工程师——标注阶段将只需当前时间的一小部分。
原因 3:没有审计跟踪架构
大多数数据准备管道没有内置审计跟踪。在受监管行业中,审计跟踪不仅仅是调试便利——它是合规要求。
原因 4:数据准备被视为附属任务
在大多数组织中,数据准备被视为通往模型训练"真正工作"的初步步骤。它没有专门的人员编制、专门的工具预算或专门的项目管理。
原因 5:复杂性是不可简化的(但可以更好地管理)
部分数据准备工作确实是不可简化的。但不可简化的复杂性不意味着当前方法是最优的。60-80% 中的大部分不是花在困难问题上——而是花在集成、格式转换、工具维护和解决工具限制上。