
企业 AI 数据管道构建的前 30 天
企业 AI 数据管道构建的幕后每周进展:每个阶段发生什么、出了什么问题、以及什么样的结果才算好。
企业 AI 时间表在幻灯片上看起来很整洁。简洁的阶段、平滑的箭头,一切按计划进行。现实要混乱得多。数据的格式没有人记录过。访问权限配置需要一周而不是一天。本应全职参与的领域专家只在周四有两个小时可用。
这是构建企业 AI 数据管道前 30 天的每周实际进展。不是理想化的版本——而是真实的版本,包括出错的部分和如何应对。
第一周:数据审计和范围界定
预计发生的事情
前线部署工程师到达(实际或虚拟到场),与团队见面,并对数据环境进行彻底审计。目标是回答三个问题:存在哪些数据?它们在哪里?它们的状态如何?
同时,工程师与 IT 部门合作获取环境访问权限:计算资源、网络凭证、存储访问、安全许可。
实际发生的事情
第 1-2 天:介绍和访问请求。 工程师与利益相关者见面,参观系统,提交访问请求。在大多数企业中,这是第一个延迟发生的地方。安全审查、背景调查和受监管环境中的访问权限配置可能需要 2-5 个工作日。良好的项目会预见到这一点,在正式开始之前就启动访问请求。
第 3-4 天:数据发现。 工程师开始映射数据源。这几乎 总是出乎意料的。客户在销售过程中描述的数据只是实际存在数据的子集。还有额外的数据库、遗留文件共享、三年前已停用系统的导出,以及某人桌面上包含关键参考数据的电子表格。
常见发现:
- 数据分布在比任何人意识到的更多的系统中
- 即使在单一来源内,文件格式也不一致
- 元数据不完整或不可靠
- 数据量是估计的 3-10 倍
- 某些数据的格式需要专门的解析器(扫描的 PDF、专有数据库导出、大型机提取)
第 5 天:范围调整。 基于销售过程中客户描述而定义的原始范围,根据数据审计的实际发现进行修订。这不是范围蔓延——这是范围修正。工作一直是这么大的;只是估算当时不知道而已。
出现的问题
访问延迟是第一周最常见的问题。如果工程师无法访问数据系统,一切都会停滞。缓解措施是在项目正式开始之前就启动访问权限配置。
第二个最常见的问题:主要利益相关者(购买项目的人)对数据的理解与实际操作数据的人不同。利益相关者说,"我们的合同都在一个 SharePoint 文件夹里。「合同团队说,」嗯,最近的在 SharePoint 里。2022 年之前的在旧文档 管理系统里。修改件在邮件里。"
第二周:管道架构和数据摄入测试
预计发生的事情
基于第一周的审计,工程师设计管道架构并开始构建数据摄入层——从源系统将数据拉入准备环境的部分。
实际发生的事情
第 6-7 天:架构设计。 工程师规划管道:源连接器、转换步骤、标注工作流、导出格式。这会与客户的技术团队一起审查。本周做出的架构决策——在哪里处理、如何处理错误、记录什么——决定了管道的长期可维护性。
第 8-9 天:摄入构建和测试。 第一批连接器被构建和测试。这是数据格式问题变得具体的地方。PDF 解析器在 90% 的文档上工作正常,但在 10% 的扫描图像上失败。数据库连接器成功拉取记录,但时间戳有三种不同的格式。CSV 导出有嵌入的换行符导致解析器崩溃。
每个问题都是可解决的。但每个都需要时间,而且会累积。有经验的工程师不会感到惊讶。第一次做的工程师会低估工作量 2-3 倍。
第 10 天:首次端到端数据流。 到第二周结束时,原始数据应该从至少一个源系统流入准备环境。它不会是干净的。它不会被标注。但它在流动,这是后续一切的基础。
出现的问题
与遗留系统的集成问题是第二周最常见的问题。现代 API 是可预测的。遗留数据库导出、专有文件格式和没有文档的系统则不是。如果你的数据存在于超过 10 年的系统中,需要额外预留时间。
性能也可能带来惊喜。处理 100 个测试文档只需几秒的管道,可能在处理 100,000 个生产文档时卡住。第二周是这些瓶颈变得可见的时候。
第三周:清洗规则、标注模式和领域专家培训
预计发生的事情
数据流入管道后,重点转向转换:标准化数据的清洗规则,以及领域专家将用于标注模型训练数据的标签模式。
实际发生的事情
第 11-13 天:清洗和转换规则。 工程师构建清洗原始数据的规则:去重、归一化、处理缺失值、格式标准化、PII 检测和脱敏(如适用)。这是迭代的——规则被编写、在样本数据上测试、改进,然后再次测试。
关键洞察:清洗规则编码了领域知识。一条说"如果日期字段包含'待定',则视为空值"的规则是领域决策,而不是技术决策。这就是为什么领域专家需要参与,而不仅仅是工程师。
第 14-15 天:标签模式设计。 工程师与领域专家合作定义标签模式——将应用于数据的类别、标签或注释。这是项目中智力要求最高的部分。
好的标签模式是:
- 穷尽的(覆盖数据中的所有情况)
- 互斥的(没有模糊的重叠)
- 实用的(标注者可以一致地应用标签)
- 与下游模型任务对齐的
坏的标签模式事后看来是显而易见的,但在设计期间是看不到的。"合同类型「似乎是一个清晰的标签,直到你遇到一份既是修改又是续签的文件。」严重性「似乎很直观,直到两个领域专家对某个发现是」中等「还是」高"意见不一。
第 15 天续:领域专家培训。 领域专家接受标注界面和标签模式的培训。他们标注一个样本集。测量标注者间一致性。如果一致性低,模式需要修订。
出现的问题
领域专家的可用性是第三周的关键风险。如果领域专家太忙无法参与,标签模式将由不了解领域的工程师设计,结果训练数据质量平庸。
另一个常见问题:标签模式分歧。不同的领域专家有不同的心智模型。资深律师对合同的分类方式与初级律师不同。心脏病学家和放射科医生对同一份影像报告的解读不同。解决这些分歧需要时间和沟通技巧。