Back to blog
    数据准备差距:为什么 ML 团队在训练开始前花费 80% 的时间
    data-preparationml-engineeringenterprise-aiproductivitysegment:enterprise

    数据准备差距:为什么 ML 团队在训练开始前花费 80% 的时间

    为什么 60-80% 的数据准备统计数据持续存在——碎片化工具、领域专家排斥、缺失的审计跟踪,以及对专用数据准备工具的结构性投资不足。

    EErtas Team·

    这个统计数据几乎是陈词滥调:ML 团队将 60-80% 的时间花在数据准备上。十多年来它一直被引用在调查、博客文章和会议演讲中。然而——什么都没有改变。百分比没有变动。

    这种持续性值得审视。ML 团队效率低下吗?他们的数据管道过度工程化了吗?还是行业处理数据准备的方式存在某种结构性问题,保证了这个结果?

    答案是结构性的。修复不在于更好的 ML 工程师——而在于解决根本原因的专用工具。

    为什么百分比没有变动

    原因 1:碎片化工具

    大多数企业的数据准备工作流涉及 3-7 个断开的工具。这些工具之间的集成是自定义 Python 代码——没有人想写、没有人想维护、破坏时没有人想调试的"粘合脚本"。

    这种碎片化在每个边界处倍增工作量。格式转换、错误处理、数据验证和审计跟踪连续性都需要不直接改善数据质量的工程时间。

    原因 2:领域专家排斥

    最了解数据是否正确标注的人——医生、律师、工程师、会计师——通常无法使用 ML 数据准备工具。Label Studio 需要 Docker 部署。Prodigy 需要 Python。Cleanlab 是一个 Python 库。

    如果领域专家可以直接标注数据——不需要 Docker、Python 或作为中间人的 ML 工程师——标注阶段将只需当前时间的一小部分。

    原因 3:没有审计跟踪架构

    大多数数据准备管道没有内置审计跟踪。在受监管行业中,审计跟踪不仅仅是调试便利——它是合规要求。

    原因 4:数据准备被视为附属任务

    在大多数组织中,数据准备被视为通往模型训练"真正工作"的初步步骤。它没有专门的人员编制、专门的工具预算或专门的项目管理。

    原因 5:复杂性是不可简化的(但可以更好地管理)

    部分数据准备工作确实是不可简化的。但不可简化的复杂性不意味着当前方法是最优的。60-80% 中的大部分不是花在困难问题上——而是花在集成、格式转换、工具维护和解决工具限制上。

    什么能真正解决这个问题

    1. 统一平台

    用处理摄取、清洗、标注、增强和导出的单一平台替换 3-7 个工具链。

    2. 领域专家访问

    构建领域专家可以直接使用的数据准备工具——带有可视界面的原生桌面应用,而非 Python 库和 Docker 容器。

    3. 内置审计跟踪

    使日志记录自动化且全面。每次转换、每个标签、每个质量决策都无需手动记录即可记录。

    4. 数据准备作为一等功能

    将数据准备视为核心能力,而非预处理步骤。专用工具、专用时间、专用质量指标。

    Ertas Data Suite 基于这些原则构建:覆盖所有五个管道阶段的统一平台,通过原生桌面界面供领域专家访问,具有自动审计跟踪和合规文档。60-80% 的统计数据持续存在是因为工具没有改变。当工具改变时,数字也会跟着变。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading