AI 数据成熟度的 5 个层级（以及大多数企业卡在哪里）

并非所有企业数据都同样为 AI 做好准备。有些组织拥有干净、标注、版本化且具有完整审计轨迹的数据集。大多数则是文件服务器上的 TB 级 PDF。

这个成熟度模型提供了一个框架，用于评估你的组织处于什么位置，以及达到下一级需要什么。基于企业 AI 采用的模式，大多数组织停留在第 1 级或第 2 级——而从第 2 级到第 3 级的跳跃是项目最常停滞的地方。

第 1 级：原始

状态：存储中的非结构化文件。PDF、Word 文档、电子邮件、扫描纸质文件、图像、电子表格——多年甚至几十年来积累的，没有针对 AI 的组织。

特征：

数据存放在文件服务器、SharePoint、电子邮件存档或物理存储中
没有现有内容、格式或状况的清单
格式种类极其多样（各部门有数十种文件类型）
存储位置之间存在大量重复
未进行质量评估

此级别的 AI 能力：无。原始数据无法用于模型训练。

大多数企业拥有的：大量第 1 级数据。IBM/MIT 估计的 80-90% 企业数据为非结构化数据主要指的就是这个级别。

升级需要什么：数据清单和格式评估。你需要知道你有什么，然后才能处理它。

第 2 级：已编目

状态：数据已被清点。你知道存在哪些类型的文档、大约有多少、是什么格式以及存储在哪里。但内容尚未被提取或处理。

特征：

数据清单已存在（文档类型、数量、位置）
有一些元数据可用（日期、作者、文件大小）
格式分布已了解（X% PDF、Y% Excel、Z% 扫描件）
数据质量已抽样但未系统评估
未进行提取或解析

此级别的 AI 能力：极少。你可以做出关于优先处理哪些数据的明智决策，但还不能训练模型。

大多数企业在初步评估后达到的：第 2 级。他们知道自己有什么，但还没开始处理。

升级需要什么：摄入管道。OCR、版面检测、表格提取、格式解析——将非结构化文件转换为已提取的、可搜索的内容。

第 3 级：已结构化

状态：内容已从原始文件中提取。文本已解析，表格已提取，图像已编目。数据可搜索和可处理——但尚未为特定 AI 用例进行标注或注释。

特征：

文档已通过 OCR 和解析进行摄入
文本已提取且可搜索
表格已识别和结构化
已执行基本清洗（去重、质量评分）
可能已运行 PII/PHI 检测
数据以可处理格式存在（JSON、文本、结构化记录）

此级别的 AI 能力：有限。你可以使用提取的文本构建基本的搜索/检索系统（RAG）。但监督模型（分类、提取、生成）需要标注数据——第 3 级没有。

第 3 级陷阱：许多团队在这里停下来，因为基本的 RAG 给人以进展的印象。但在未经整理、未标注的数据上的 RAG 有质量上限，而标注的 fine-tuned 模型则没有。

升级需要什么：标注基础设施。领域专家需要工具来用特定于 AI 用例的类别、实体和质量评估来注释结构化数据。

第 4 级：已标注

状态：结构化数据已由领域专家用特定 AI 应用所需的类别、实体或值进行注释。训练数据集已存在，可用于 fine-tune 或训练模型。

特征：

已为目标 AI 用例定义标注模式
领域专家已标注数据（不仅仅是 ML 工程师）
已衡量标注者间一致性
已执行质量审查
训练集、验证集和测试集划分已存在
导出格式匹配模型需求（JSONL、COCO 等）

此级别的 AI 能力：强。你可以 fine-tune 模型、训练分类器并构建提取管道。标注数据是使领域特定 AI 成为可能的训练信号。

大多数 AI 项目需要的：第 4 级数据。这是大多数监督 AI 应用的最低可行级别。

升级需要什么：治理基础设施。版本控制、审计轨迹、合规文档和持续维护流程。

第 5 级：已治理

状态：标注数据集已版本化、可审计且持续维护。从源到训练数据的完整数据血缘已存在。合规文档自动生成。组织将 AI 训练数据视为受管理的资产，而非一次性项目产出。

特征：

数据集版本控制，具有差异对比能力（版本之间发生了什么变化）
完整的数据血缘（任何训练记录都可追溯到源文档）
每次转换和标注决策的审计轨迹
偏差检查已记录且可重复
合规文档可导出（EU AI Act、HIPAA、GDPR）
持续监控数据漂移和质量退化
已定义数据集更新和重新训练触发的流程

此级别的 AI 能力：完整。你可以自信地部署 AI、展示合规性、通过追溯训练数据来调试问题，并使用更新的数据持续改进模型。

受监管行业需要的：第 5 级。EU AI Act、HIPAA 和 GDPR 共同要求这里描述的治理能力。医疗、法律、金融和政府领域的企业无法在低于此级别上负责任地部署高风险 AI。

大多数企业卡在哪里

第 1 级 → 第 2 级转换（评估）

阻碍：没人负责评估。它落在 IT、数据工程和业务部门之间。 解决方案：指定一个数据就绪负责人——一个对清单负责的人。

第 2 级 → 第 3 级转换（摄入）

阻碍：格式多样性。企业各部门有数十种文档类型，没有单一解析工具能处理所有类型。 解决方案：从一个用例的一种文档类型开始。不要试图一次摄入所有内容。

第 3 级 → 第 4 级转换（标注）

阻碍：领域专家可用性。能标注数据的人（医生、律师、工程师、会计师）都有本职工作。标注工具需要 Python。ML 工程师成为瓶颈。 解决方案：使用领域专家可访问的标注工具——具有无代码界面的桌面应用程序。分配专门的标注时间（它与任何其他项目任务同样重要）。

第 4 级 → 第 5 级转换（治理）

阻碍：将数据准备视为一次性活动。团队构建数据集、训练模型，然后继续——没有建立版本控制、监控或更新的流程。 解决方案：从一开始就将治理构建到管道架构中。使用能自动生成审计轨迹和版本历史的平台。

评估你的级别

问这些问题：

你知道你有什么数据吗？→ 如果否：第 1 级
数据已被解析和提取了吗？→ 如果否：第 2 级
已执行了领域特定的标注吗？→ 如果否：第 3 级
数据集是否已版本化且可审计？→ 如果否：第 4 级
以上全部？→ 第 5 级

大多数企业发现他们的大部分数据处于第 1-2 级。通往第 4-5 级的路径正是 Ertas Data Suite 等数据准备平台所设计的——将原始企业数据通过完整管道转变为已治理的、AI 就绪的数据集，每一步都有日志记录，每条血缘链都被保留。

每个级别的提升都需要时间和投资。但替代方案——在未准备好的数据上构建 AI——会产生不工作的、无法调试的、无法通过监管审查的模型。