
27个企业 AI 团队告诉我们的数据准备难题
基于在受监管行业进行的27次需求发现访谈,一个问题在微调、RAG 或智能体开始之前反复出现:数据准备。以下是我们了解到的情况。
我们在六个月内对受监管行业进行了27次需求发现访谈。对话涵盖了工程和建筑公司、医疗机构、律师事务所、金融服务团队、端侧 AI 初创公司,以及为企业客户构建解决方案的 AI 机构。
我们询问了 AI 采用目标、当前工具、障碍以及时间实际花在哪里。我们预期会得到各种各样的答案。我们得到的模式是如此一致,几乎令人不安。
九个 不同的理想客户画像将数据准备命名为他们的头号 AI 痛点——在我们直接询问之前就主动提出了。具体问题各不相同:文件格式、监管限制、标注复杂性、基础设施限制。但根本原因始终相同。在原始业务数据和 AI 就绪训练数据之间存在一个缺失的层,没有人有好的解决方案来弥合它。
以下是他们告诉我们的。
我们交谈的团队
27次访谈的大致分布如下:
- **工程和建筑公司(4家):**管理大量文档档案——工程量清单、规格说明书、工程图纸、项目报告——积累了多年的 PDF、扫描文件和遗留格式数据。
- **医疗机构(5家):**临床笔记、患者记录、影像报告、计费数据。HIPAA 合规要求意味着云端工具实际上不可用。
- **律师事务所和法律科技公司(4家):**合同库、案件文件、监管备案文件。数据特权和客户保密性产生了与医疗行业类似的限制。
- **金融服务和金融科技(3家):**交易记录、合规文档、风险评估。监管审计追踪要求在标准 AI 工具之上增加了一层复杂性。
- **端侧和边缘 AI 公司(4家):**构建设计在硬件上本地运行的 AI 产品。他们自己的数据准备管道正在阻碍产品开发时间表。
- **AI 机构(5家):**为企业客户构建 AI 系统。他们报告的问题通常是客户问题的代理——他们自己在吸收数据准备的复杂性。
- **早期 AI 初创公司(2家):**笔记、文档智能、知识管理。更小的团队但同样的数据问题,压缩到了创始人的时间中。
在所有这些团队中,9个团队将数据准备命名为 AI 项目的主要瓶颈——在模型选择、基础设施、合规审查之前。在大多数情况下,他们已经解决了其他领域。数据是剩下的问题。
"数据准备"对每个细分领域的实际含义
更有趣的发现之一是,"数据准备"对不同行业的含义确实不同——但痛苦的体验是相同的。
对于工程和建筑公司,数据准备意味着将700GB的 PDF 规格说明书、手绘工程文件和扫描工程量清单转换为结构化数据,以训练模型提取行项目、数量和成本估算。其中一家公司的 AI 负责人直言不讳地说:
"问题不在于微调,而在于清理和准备多样化的数据。"
多样性才是挑战。一个项目可能涉及嵌入表格的 PDF、扫描蓝图、专有格式的 Excel 文件和手写笔记。从这些数据到干净的、标注好的数据集需要解析、标准化、去重和专家标注——没有任何单一工具能处理整个链条。
对于医疗团队,数据准备意味着不同的东西:在任何处理开始之前进行 PHI 脱敏,然后从以非标准缩写书写的临床笔记中提取结构,然后由不是数据科学家的临床医生进行标注。合规要求不是附带的——它决定了哪些工具可以使用,哪些不行。
对于法律团队,挑战类似,但增加了特权的复杂性。你不能将客户文件发送到云端 API 来解析它们。你需要本地运行的解析工具、领域专家(律师,而非 ML 工程师)实际上能操作的标注工具,以及能够经受审查的审计追踪。
对于边缘 AI 公司,数据准备正在阻碍产品时间表。他们的问题是标注吞吐量——目标类别随产品发展而变化,标注工具需要 ML 工程来操作,而工程师对本质上是领域专家任务的依赖减慢了一切。一家边缘 AI 初创公司的团队告诉我们:
"数据标注是主要挑战——目标类别频繁变化。"
最后一点——目标类别频繁变化——被低估了。在企业 AI 中,标注模式不是固定的。它随着团队对问题了解的深入而演变。每次变化时,标注工具都需要重新配置,这需要 ML 工程时间。这使得问题是动态的,而不仅仅是大规模的。
对于 AI 机构