
企业 AI 项目在数据阶段失败——而非模型阶段
65%的企业 AI 部署正在停滞。传统观点将原因归咎于模型选择或基础设施。真正的原因几乎总是相同的:数据准备投资不足。
65%的企业 AI 部署正在停滞。这个数字已经大致保持恒定三年了,这意味着问题是结构性的,而非偶然性的。新一代基础模型没有解决它。更好的 MLOps 工具、更多的 ML 工程师人数或更多的高管支持也没有。
传统的诊断归咎于错误的阶段。当企业 AI 项目未能交付时,事后分析通常关注模型选择("我们应该使用不同的架构「)、基础设施(」我们的云端设置不对「)或组织准备度(」我们需要更多的 AI 素养")。这些并非总是错的。但它们几乎总是不完整的——而且经常在为真正 的罪魁祸首开脱。
企业 AI 项目停滞的真正原因几乎总是相同的:数据没有准备好,也没有人分配时间或工具来使其准备好。
数字并不含糊
研究是一致的,而且已经一致多年了。
行业共识——跨越 MIT、McKinsey、Gartner 和大规模实践者——将60到80%的 ML 项目时间归于数据准备,而非模型训练。不是部署、不是评估、不是基础设施配置。数据准备。
Forrester 在2024年与 Capital One 联合对500名企业数据领导者进行的调查中发现,73%将数据质量和准备确定为 AI 成功的头号障碍。不是模型质量。不是计算成本。不是治理。数据质量和准备。
IBM 和 MIT 的研究一致发现,80到90%的企业数据是非结构化的——文档、电子邮件、图像、PDF、手写记录、遗留数据库导出。这些是大多数企业 AI 系统需要学习的数据,也是在任何训练或检索系统使用之前需要最多准备的数据。
只有30%的组织使用 AI 进行自动化数据准备。其余70%在手动处理、使用自定义脚本或根本没有处理。
这些数字汇成一幅清晰的图景。大多数企业组织的大部分数据都是 AI 无法直接消费的格式。他们大部分 ML 项目时间都在试图解决这个问题。而且他们大多数仍然未能按时交付可工作的 AI 系统。
团队对自己讲的故事
企业 AI 团队解释失败或停滞项目的方式有一个可预测的模式。故事经历几个阶段。
**阶段1:乐观。**试点获批。用例明确。数据源已确定。团队选择模型、搭建基础设施,然后开始。
**阶段2:摩擦。**数据比预期的更混乱。文件格式是管道无法解析的。标签不一致。领域专家无法操作标注工具。合规审查标记了基于云的工具。时间表滑动。
**阶段3:转向。**面对缓慢的进展,团队尝试不同的方法:不同的模型、不同的提示策略、更多计算、更多工程师。这些感觉像是行动。它们很少解决实际问题。
**阶段4:停滞。**经过几次转向后,项目超预算、超时间表、低于预期。原始数据问题没有被解决——它被绕过了,产生了技术债务和可靠性问题。
**阶段5:事后分析。**结论通常是关于组织准备度、模型局限性或基础设施挑战。底层的数据问题如果被提及的话,也只是简要地承认。
数据问题在事后分析中被低估的原因是它感觉不像战略失败。它感觉像执行失败——一个肮脏的、不光彩的问题,团队中的某个人应该已经解决了。承认数据准备阶段是瓶颈感觉像是承认你没有做好基本工作。所以团队寻找更复杂的解释。
为什么数据是原因时模型被归咎
模型性能是最常见的错误诊断有一个原因。
模型质量是可衡量的。你可以计算准确率、F1分数、BLEU分数、人类偏好评分。当模型表现不佳时,指标清楚地告诉你。数据质量更难衡量——尤其是在训练之前,问题是潜在的。
质量差的训练数据会产生看起来在工作直到它们不工作的模型。在不一致标注的数据上训练的模型会显得在学习,并产生看似合理的输出。不一致性表现为性能上限——无论超参数如何更改,模型都不会超过某个点。但从外部看,这个上限看起来像模型限制。团队转向更大的模型、不同的架构或更多的训练计算。这些都不起作用,因为它们都没有解决根本原因。
数据量也是如此。认为自己有数据质量问题的团队有时试图用数据数量来解决:收集更多样本、生成合成数据、运行更多标注轮次。如果底层数据嘈杂或标注不一致,更多的数据只会放大问题。模型在更大但质量相同的数据集上训练,产生相同的(有时更差的)结果。