
AI 数据成熟度的 5 个层级(以及大多数企业卡在哪里)
AI 数据就绪的实用成熟度模型——从原始非结构化文件到治理完善、版本化、审计就绪的数据集。大多数企业停留在第 1-2 级。
并非所有企业数据都同样为 AI 做好准备。有些组织拥有干净、标注、版本化且具有完整审计轨迹的数据集。大多数则是文件服务器上的 TB 级 PDF。
这个成熟度模型提供了一个框架,用于评估你的组织处于什么位置,以及达到下一级需要什么。基于企业 AI 采用的模式,大多数组织停留在第 1 级或第 2 级——而从第 2 级到第 3 级的跳跃是项目最常停滞的地方。
第 1 级:原始
状态:存储中的非结构化文件。PDF、Word 文档、电子邮件、扫描纸质文件、图像、电子表格——多年甚至几十年来积累的,没有针对 AI 的组织。
特征:
- 数据存放在文件服务器、SharePoint、电子邮件存档或物理存储中
- 没有现有内容、格式或状况的清单
- 格式种类极其多样(各部门有数十种文件类型)
- 存储位置之间存在大量重复
- 未进行质量评估
此级别的 AI 能力:无。原始数据无法用于模型训练。
大多数企业拥有的:大量第 1 级数据。IBM/MIT 估计的 80-90% 企业数据为非结构化数据主要指的就是这个级别。
升级需要什么:数据清单和格式评估。你需要知道你有什么,然后才能处理它。
第 2 级:已编目
状态:数据已被清点。你知道存在哪些类型的文档、大约有多少、是什么格式以及存储在哪里。但内容尚未被提取或处理。
特征:
- 数据清单已存在(文档类型、数量、位置)
- 有一些元数据可用(日期、作者、文件大小)
- 格式分布已了解(X% PDF、Y% Excel、Z% 扫描件)
- 数据质量已抽样但未系统评估
- 未进行提取或解析
此级别的 AI 能力:极少。你可以做出关于优先处理哪些数据的明智决策,但还不能训练模型。
大多数企业在初步评估后达到的:第 2 级。他们知道自己有什么,但还没开始处理。
升级需要什么:摄入管道。OCR、版面检测、表格提取、格式解析——将非结构化文件转换为已提取的、可搜索的内容。
第 3 级:已结构化
状态:内容已从原始文件中提取。文本已解析,表格已提取,图像已编目。数据可搜索和可处理——但尚未为特定 AI 用例进行标注或注释。
特征:
- 文档已通过 OCR 和解析进行摄入
- 文本已提取且可搜索
- 表格已识别和结构化
- 已执行基本清洗(去重、质量评分)
- 可能已运行 PII/PHI 检测
- 数据以可处理格式存在(JSON、文本、结构化记录)
此级别的 AI 能力:有限。你可以使用提取的文本构建基本的搜索/检索系统(RAG)。但监督模型(分类、提取、生成)需要标注数据——第 3 级没有。
第 3 级陷阱:许多团队在这里停下来,因为基本的 RAG 给人以进展的印象。但在未经整理、未标注的数据上的 RAG 有质量上限,而标注的 fine-tuned 模型则没有。
升级需要什么:标注基础设施。领域专家需要工具来用特定于 AI 用例的类别、实体和质量评估来注释结构化数据。
第 4 级:已标注
状态:结构化数据已由领域专家用特定 AI 应用所需的类别、实体或值进行注释。训练数据集已存在,可用于 fine-tune 或训练模型。
特征:
- 已为目标 AI 用例定义标注模式
- 领域专家已标注数据(不仅仅是 ML 工程师)
- 已衡量标注者间一致性
- 已执行质量审查
- 训练集、验证集和测试集划分已存在
- 导出格式匹配模型需求(JSONL、COCO 等)
此级别的 AI 能力:强。你可以 fine-tune 模型、训练分类器并构建提取管道。标注数据是使领域特定 AI 成为可能的训练信号。
大多数 AI 项目需要的:第 4 级数据。这是大多数监督 AI 应用的最低可行级别。
升级需要什么:治理基础设施。版本控制、审计轨迹、合规文档和持续维护流程。
第 5 级:已治理
状态:标注数据集已版本化、可审计且持续维护。从源到训练数据 的完整数据血缘已存在。合规文档自动生成。组织将 AI 训练数据视为受管理的资产,而非一次性项目产出。
特征:
- 数据集版本控制,具有差异对比能力(版本之间发生了什么变化)
- 完整的数据血缘(任何训练记录都可追溯到源文档)
- 每次转换和标注决策的审计轨迹
- 偏差检查已记录且可重复
- 合规文档可导出(EU AI Act、HIPAA、GDPR)
- 持续监控数据漂移和质量退化
- 已定义数据集更新和重新训练触发的流程
此级别的 AI 能力:完整。你可以自信地部署 AI、展示合规性、通过追溯训练数据来调试问题,并使用更新的数据持续改进模型。
受监管行业需要的:第 5 级。EU AI Act、HIPAA 和 GDPR 共同要求这里描述的治理能力。医疗、法律、金融和政府领域的企业无法在低于此级别上负责任地部署高风险 AI。
大多数企业卡在哪里
第 1 级 → 第 2 级转换(评估)
阻碍:没人负责评估。它落在 IT、数据工程和业务部门之间。 解决方案:指定一个数据就绪负责人——一个对清单负责的人。
第 2 级 → 第 3 级转换(摄入)
阻碍:格式多样性。企业各部门有数十种文档类型,没有单一解析工具能处理所有类型。 解决方案:从一个用例的一种文档类型开始。不要试图一次摄入所有内容。
第 3 级 → 第 4 级转换(标注)
阻碍:领域专家可用性。能标注数据的人(医生、律师、工程师、会计师)都有本职工作。标注工具需要 Python。ML 工程师成为瓶颈。 解决方案:使用领域专家可访问的标注工具——具有无 代码界面的桌面应用程序。分配专门的标注时间(它与任何其他项目任务同样重要)。
第 4 级 → 第 5 级转换(治理)
阻碍:将数据准备视为一次性活动。团队构建数据集、训练模型,然后继续——没有建立版本控制、监控或更新的流程。 解决方案:从一开始就将治理构建到管道架构中。使用能自动生成审计轨迹和版本历史的平台。
评估你的级别
问这些问题:
- 你知道你有什么数据吗?→ 如果否:第 1 级
- 数据已被解析和提取了吗?→ 如果否:第 2 级
- 已执行了领域特定的标注吗?→ 如果否:第 3 级
- 数据集是否已版本化且可审计?→ 如果否:第 4 级
- 以上全部?→ 第 5 级
大多数企业发现他们的大部分数据处于第 1-2 级。通往第 4-5 级的路径正是 Ertas Data Suite 等数据准备平台所设计的—— 将原始企业数据通过完整管道转变为已治理的、AI 就绪的数据集,每一步都有日志记录,每条血缘链都被保留。
每个级别的提升都需要时间和投资。但替代方案——在未准备好的数据上构建 AI——会产生不工作的、无法调试的、无法通过监管审查的模型。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.

Best On-Premise Alternative to LangChain for Enterprise RAG Pipelines
LangChain and LlamaIndex assume cloud deployment. For regulated industries that need on-premise RAG with full observability, here's how a visual pipeline builder compares — and when each approach fits.