80%的企业数据是非结构化的——这对AI究竟意味着什么

这个统计数据随处可见：80-90%的企业数据是非结构化的。IBM、MIT、Gartner和数十位分析师在过去十年中都引用过它。它已经成为背景知识——一个太熟悉以至于没人停下来思考它实际含义的事实。

对于采用AI的企业来说，其含义是具体且重大的。这80%代表着大多数组织中最大的未开发训练数据来源——也是AI项目在数据阶段停滞的主要原因。

"非结构化"到底是什么意思

非结构化数据是不适合行和列的信息。它没有预定义的模式、没有一致的格式、也没有简单的方法用SQL查询。

实际上，这就是企业拥有的：

文档（最大的类别）

PDF：合同、报告、规格书、手册、函件——商业文档的默认格式。有些是数字原生的（可搜索文本），许多是纸张的扫描图像（需要OCR）。
Word文档：提案、备忘录、会议纪要、政策——通常跨部门和年份的格式不一致。
带叙述内容的电子表格：Excel文件中真正的信息在注释、合并单元格和自由文本列中——而不是结构化的数字数据。

通讯

电子邮件：企业员工平均每天发送40多封邮件。多年的邮件存档包含客户需求、决策、批准、投诉和机构知识。
聊天记录：Slack、Teams和其他消息平台的存档。决策和知识共享越来越多地在这里发生。
会议录音和转录：质量参差不齐的视频和音频录制及其文字记录。

技术和领域特定

工程图纸：CAD导出、蓝图、原理图——视觉格式的空间信息。
医疗记录：临床笔记、出院总结、放射报告——结构化编码旁边的自由文本临床文档。
法律文件：合同、辩护状、法庭文件、监管提交——密集、领域特定的文本。

媒体

图像：产品照片、检查图像、卫星图像、扫描文档。
音视频：客服电话、培训视频、监控录像。

这对AI意味着什么

训练数据鸿沟

AI模型从数据中学习。20%结构化的企业数据（数据库、ERP记录、CRM字段）已经在使用——它驱动仪表板、报告和传统分析。80%非结构化的数据基本未被触及。

这造成了训练数据鸿沟：企业拥有的最具领域特定性、最富上下文的数据恰恰是它最难用于AI的数据。

律师事务所法律AI最有价值的资产不是案件编号数据库——而是包含事务所法律推理的合同、辩护状和备忘录。医院临床AI最有价值的资产不是计费代码——而是描述患者表现、诊断推理和治疗决策的临床笔记。

RAG的天花板

检索增强生成（RAG）是当前的变通方法：不在非结构化数据上训练模型，而是在查询时检索相关片段并注入提示。RAG无需准备即可处理原始非结构化数据——这是它的吸引力。

但RAG有质量上限：

分块产物在边界处破坏上下文
当措辞与查询不同时，检索会遗漏相关信息
没有领域特定的输出格式或术语一致性
检索到的文档中的噪声导致性能下降

在正确准备的数据上训练的微调模型没有这些限制。但它们需要RAG让你跳过的准备步骤。

竞争不对称

准备好非结构化数据用于AI的企业获得结构性优势。他们的模型是在竞争对手无法获取的专有领域知识上训练的。没有公开模型是在你特定的合同、患者记录、工程文档或客户函件上训练的。

这就是为什么数据准备不仅是运营任务——它是战略投资。最先将非结构化档案转化为AI就绪训练数据的企业获得随时间复合的模型质量优势。

为什么它一直被忽视

工具不存在

直到最近，将非结构化文档转换为结构化、标注的训练数据需要定制工程。没有单一工具处理完整的流水线：摄入、清洗、标注、增强和导出。尝试过的企业使用碎片化的工具链（Docling + Label Studio + 自定义脚本），构建和维护成本高昂。

用例不明确

在当前AI浪潮之前，非结构化数据的计算价值有限。你可以搜索它（全文搜索）或存储它（文档管理），但无法大规模从中学习。证明准备成本合理的用例——领域特定AI模型、智能文档处理、自动化分析——是相对较新的。

工作量巨大

准备非结构化数据确实很难。格式多样性、质量差异、领域专业知识要求、隐私约束和数据量都是ML项目60-80%时间花在数据准备上的原因。这种工作量是真实且不可削减的——但也是一次性投资，在后续每个AI应用中都能获得回报。

该怎么办

审计你的非结构化数据：你有什么？在哪里？什么状况？（参见我们的非结构化数据审计指南。）
按AI用例优先排序：不要试图准备所有内容。从支持最高价值AI应用的文档类型开始。
投资准备基础设施：统一的数据准备平台，处理完整的流水线——从摄入到导出——在你的基础设施上。Ertas Data Suite正是为此设计的。
让领域专家参与：理解数据的人应该参与标注。这意味着他们能实际使用的工具——桌面应用程序，而不是Python环境。
以资产创建的角度思考：你不是在做一个项目——你在构建一项资产。版本化、受治理、AI就绪的数据集，服务于多个模型和应用。