
80%的企业数据是非结构化的——这对AI究竟意味着什么
解析被广泛引用的统计数据:80-90%的企业数据是非结构化的——哪些类型的数据被困住了、机会成本是什么,以及它与AI采用的关系。
这个统计数据随处可见:80-90%的企业数据是非结构化的。IBM、MIT、Gartner和数十位分析师在过去十年中都引用过它。它已经成为背景知识——一个太熟悉以至于没人停下来思考它实际含义的事实。
对于采用AI的企业来说,其含义是具体且重大的。这80%代表着大多数组织中最大的未开发训练数据来源——也是AI项目在数据阶段停滞的主要原因。
"非结构化"到底是什么意思
非结构化数据是不适合行和列的信息。它没有预定义的模式、没有一致的格式、也没有简单的方法用SQL查询。
实际上,这就是企业拥有的:
文档(最大的类别)
- PDF:合同、报告、规格书、手册、函件——商业文档的默认格式。有些是数字原生的(可搜索文本),许多是纸张的扫描图像(需要OCR)。
- Word文档:提案、备忘录、会议纪要、政策——通常跨部门和年份的格式不一致。
- 带叙述内容的电子表格:Excel文件中真正的信息在注释、合并单元格和自由文本列中——而不是结构化的数字数据。
通讯
- 电子邮件:企 业员工平均每天发送40多封邮件。多年的邮件存档包含客户需求、决策、批准、投诉和机构知识。
- 聊天记录:Slack、Teams和其他消息平台的存档。决策和知识共享越来越多地在这里发生。
- 会议录音和转录:质量参差不齐的视频和音频录制及其文字记录。
技术和领域特定
- 工程图纸:CAD导出、蓝图、原理图——视觉格式的空间信息。
- 医疗记录:临床笔记、出院总结、放射报告——结构化编码旁边的自由文本临床文档。
- 法律文件:合同、辩护状、法庭文件、监管提交——密集、领域特定的文本。
媒体
- 图像:产品照片、检查图像、卫星图像、扫描文档。
- 音视频:客服 电话、培训视频、监控录像。
这对AI意味着什么
训练数据鸿沟
AI模型从数据中学习。20%结构化的企业数据(数据库、ERP记录、CRM字段)已经在使用——它驱动仪表板、报告和传统分析。80%非结构化的数据基本未被触及。
这造成了训练数据鸿沟:企业拥有的最具领域特定性、最富上下文的数据恰恰是它最难用于AI的数据。
律师事务所法律AI最有价值的资产不是案件编号数据库——而是包含事务所法律推理的合同、辩护状和备忘录。医院临床AI最有价值的资产不是计费代码——而是描述患者表现、诊断推理和治疗决策的临床笔记。
RAG的天花板
检索增强生成(RAG)是当前的变通方法:不在非结构化数据上训练模型,而是在查询时检索相关片段并注入提示。RAG无需准备即可处理原始非结构化数据— —这是它的吸引力。
但RAG有质量上限:
- 分块产物在边界处破坏上下文
- 当措辞与查询不同时,检索会遗漏相关信息
- 没有领域特定的输出格式或术语一致性
- 检索到的文档中的噪声导致性能下降
在正确准备的数据上训练的微调模型没有这些限制。但它们需要RAG让你跳过的准备步骤。
竞争不对称
准备好非结构化数据用于AI的企业获得结构性优势。他们的模型是在竞争对手无法获取的专有领域知识上训练的。没有公开模型是在你特定的合同、患者记录、工程文档或客户函件上训练的。
这就是为什么数据准备不仅是运营任务——它是战略投资。最先将非结构化档案转化为AI就绪训练数据的企业获得随时间复合的模型质量优势。
为什么它一直被忽视
工具不存在
直到最近,将非结构化文档转换为结构化、标注的训练数据需要定制工程。没有单一工具处理完整的流水线:摄入、清洗、标注、增强和导出。尝试过的企业使用碎片化的工具链(Docling + Label Studio + 自定义脚本),构建和维护成本高昂。
用例不明确
在当前AI浪潮之前,非结构化数据的计算价值有限。你可以搜索它(全文搜索)或存储它(文档管理),但无法大规模从中学习。证明准备成本合理的用例——领域特定AI模型、智能文档处理、自动化分析——是相对较新的。
工作量巨大
准备非结构化数据确实很难。格式多样性、质量差异、领域专业知识要求、隐私约束和数据量都是ML项目60-80%时间花在数据准备上的原因。这种工作量是真实且不可削减的——但也是一次性投资,在后续每个AI应用中都能获得回报。
该怎么办
- 审计你的非结构化数据:你有什么?在哪里?什么状况?(参见我们的非结构化数据审计指南。)
- 按AI用例优先排序:不要试图准备所有内容。从支持最高价值AI应用的文档类型开始。
- 投资准备基础设施:统一的数据准备平台,处理完整的流水线——从摄入到导出——在你的基础设施上。Ertas Data Suite正是为此设计的。
- 让领域专家参与:理解数据的人应该参与标注。这意味着他们能实际使用的工具——桌面应用程序,而不是Python环境。
- 以资产创建的角度思考:你不是在做一个项目——你在构建一项资产。版本化、受治理、AI就绪的数据集,服务于多个模型和应用。
80%的非结构化数据不仅是一个值得点头认可的统计数字。它是企业AI的原材料——最先准备好它的企业将拥有持久的优势。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.