Back to blog
    AI 数据成熟度的 5 个层级(以及大多数企业卡在哪里)
    ai-data-maturityenterprise-ai数据治理评估segment:enterprise

    AI 数据成熟度的 5 个层级(以及大多数企业卡在哪里)

    AI 数据就绪的实用成熟度模型——从原始非结构化文件到治理完善、版本化、审计就绪的数据集。大多数企业停留在第 1-2 级。

    EErtas Team·

    并非所有企业数据都同样为 AI 做好准备。有些组织拥有干净、标注、版本化且具有完整审计轨迹的数据集。大多数则是文件服务器上的 TB 级 PDF。

    这个成熟度模型提供了一个框架,用于评估你的组织处于什么位置,以及达到下一级需要什么。基于企业 AI 采用的模式,大多数组织停留在第 1 级或第 2 级——而从第 2 级到第 3 级的跳跃是项目最常停滞的地方。

    第 1 级:原始

    状态:存储中的非结构化文件。PDF、Word 文档、电子邮件、扫描纸质文件、图像、电子表格——多年甚至几十年来积累的,没有针对 AI 的组织。

    特征

    • 数据存放在文件服务器、SharePoint、电子邮件存档或物理存储中
    • 没有现有内容、格式或状况的清单
    • 格式种类极其多样(各部门有数十种文件类型)
    • 存储位置之间存在大量重复
    • 未进行质量评估

    此级别的 AI 能力:无。原始数据无法用于模型训练。

    大多数企业拥有的:大量第 1 级数据。IBM/MIT 估计的 80-90% 企业数据为非结构化数据主要指的就是这个级别。

    升级需要什么:数据清单和格式评估。你需要知道你有什么,然后才能处理它。

    第 2 级:已编目

    状态:数据已被清点。你知道存在哪些类型的文档、大约有多少、是什么格式以及存储在哪里。但内容尚未被提取或处理。

    特征

    • 数据清单已存在(文档类型、数量、位置)
    • 有一些元数据可用(日期、作者、文件大小)
    • 格式分布已了解(X% PDF、Y% Excel、Z% 扫描件)
    • 数据质量已抽样但未系统评估
    • 未进行提取或解析

    此级别的 AI 能力:极少。你可以做出关于优先处理哪些数据的明智决策,但还不能训练模型。

    大多数企业在初步评估后达到的:第 2 级。他们知道自己有什么,但还没开始处理。

    升级需要什么:摄入管道。OCR、版面检测、表格提取、格式解析——将非结构化文件转换为已提取的、可搜索的内容。

    第 3 级:已结构化

    状态:内容已从原始文件中提取。文本已解析,表格已提取,图像已编目。数据可搜索和可处理——但尚未为特定 AI 用例进行标注或注释。

    特征

    • 文档已通过 OCR 和解析进行摄入
    • 文本已提取且可搜索
    • 表格已识别和结构化
    • 已执行基本清洗(去重、质量评分)
    • 可能已运行 PII/PHI 检测
    • 数据以可处理格式存在(JSON、文本、结构化记录)

    此级别的 AI 能力:有限。你可以使用提取的文本构建基本的搜索/检索系统(RAG)。但监督模型(分类、提取、生成)需要标注数据——第 3 级没有。

    第 3 级陷阱:许多团队在这里停下来,因为基本的 RAG 给人以进展的印象。但在未经整理、未标注的数据上的 RAG 有质量上限,而标注的 fine-tuned 模型则没有。

    升级需要什么:标注基础设施。领域专家需要工具来用特定于 AI 用例的类别、实体和质量评估来注释结构化数据。

    第 4 级:已标注

    状态:结构化数据已由领域专家用特定 AI 应用所需的类别、实体或值进行注释。训练数据集已存在,可用于 fine-tune 或训练模型。

    特征

    • 已为目标 AI 用例定义标注模式
    • 领域专家已标注数据(不仅仅是 ML 工程师)
    • 已衡量标注者间一致性
    • 已执行质量审查
    • 训练集、验证集和测试集划分已存在
    • 导出格式匹配模型需求(JSONL、COCO 等)

    此级别的 AI 能力:强。你可以 fine-tune 模型、训练分类器并构建提取管道。标注数据是使领域特定 AI 成为可能的训练信号。

    大多数 AI 项目需要的:第 4 级数据。这是大多数监督 AI 应用的最低可行级别。

    升级需要什么:治理基础设施。版本控制、审计轨迹、合规文档和持续维护流程。

    第 5 级:已治理

    状态:标注数据集已版本化、可审计且持续维护。从源到训练数据的完整数据血缘已存在。合规文档自动生成。组织将 AI 训练数据视为受管理的资产,而非一次性项目产出。

    特征

    • 数据集版本控制,具有差异对比能力(版本之间发生了什么变化)
    • 完整的数据血缘(任何训练记录都可追溯到源文档)
    • 每次转换和标注决策的审计轨迹
    • 偏差检查已记录且可重复
    • 合规文档可导出(EU AI Act、HIPAA、GDPR)
    • 持续监控数据漂移和质量退化
    • 已定义数据集更新和重新训练触发的流程

    此级别的 AI 能力:完整。你可以自信地部署 AI、展示合规性、通过追溯训练数据来调试问题,并使用更新的数据持续改进模型。

    受监管行业需要的:第 5 级。EU AI Act、HIPAA 和 GDPR 共同要求这里描述的治理能力。医疗、法律、金融和政府领域的企业无法在低于此级别上负责任地部署高风险 AI。

    大多数企业卡在哪里

    第 1 级 → 第 2 级转换(评估)

    阻碍:没人负责评估。它落在 IT、数据工程和业务部门之间。 解决方案:指定一个数据就绪负责人——一个对清单负责的人。

    第 2 级 → 第 3 级转换(摄入)

    阻碍:格式多样性。企业各部门有数十种文档类型,没有单一解析工具能处理所有类型。 解决方案:从一个用例的一种文档类型开始。不要试图一次摄入所有内容。

    第 3 级 → 第 4 级转换(标注)

    阻碍:领域专家可用性。能标注数据的人(医生、律师、工程师、会计师)都有本职工作。标注工具需要 Python。ML 工程师成为瓶颈。 解决方案:使用领域专家可访问的标注工具——具有无代码界面的桌面应用程序。分配专门的标注时间(它与任何其他项目任务同样重要)。

    第 4 级 → 第 5 级转换(治理)

    阻碍:将数据准备视为一次性活动。团队构建数据集、训练模型,然后继续——没有建立版本控制、监控或更新的流程。 解决方案:从一开始就将治理构建到管道架构中。使用能自动生成审计轨迹和版本历史的平台。

    评估你的级别

    问这些问题:

    1. 你知道你有什么数据吗?→ 如果否:第 1 级
    2. 数据已被解析和提取了吗?→ 如果否:第 2 级
    3. 已执行了领域特定的标注吗?→ 如果否:第 3 级
    4. 数据集是否已版本化且可审计?→ 如果否:第 4 级
    5. 以上全部?→ 第 5 级

    大多数企业发现他们的大部分数据处于第 1-2 级。通往第 4-5 级的路径正是 Ertas Data Suite 等数据准备平台所设计的——将原始企业数据通过完整管道转变为已治理的、AI 就绪的数据集,每一步都有日志记录,每条血缘链都被保留。

    每个级别的提升都需要时间和投资。但替代方案——在未准备好的数据上构建 AI——会产生不工作的、无法调试的、无法通过监管审查的模型。

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading