企业AI项目的本地文档摄入设置指南

文档摄入是每个企业AI数据管道的起点——也是大多数服务提供商首次发现真实世界企业数据有多混乱的地方。

当客户交给你200,000个PDF、50,000个Word文档、10,000个Excel表格，以及一箱2003年的扫描纸质表单时，你的摄入系统需要处理所有这些。在本地。不向云端API发送一个字节。

本指南涵盖本地文档摄入的实际操作：你将遇到哪些企业文档类型、如何在本地处理每一种，以及常见的失败模式在哪里。

你实际会遇到的企业文档类型

企业文档集合不是干净的语料库。它们是数十年来在不同格式、惯例和质量水平下积累的文件。以下是实际中出现的情况：

原生PDF — 数字化生成，具有可提取的文本层。这是简单的情况。文本提取可靠工作，布局通常可恢复。但复杂布局（多列、浮动文本框、嵌套表格）仍可能挫败简单的提取方法。

扫描PDF和基于图像的文档 — 没有文本层。每个字符都必须通过OCR重建。质量差异巨大：2020年的干净300 DPI扫描很直接；1997年带咖啡渍的150 DPI传真则不然。

Word文档（.docx、.doc） — .docx（基于XML）通常很直接。2007年之前Word版本的旧式.doc文件需要不同的解析。注意修订痕迹、嵌入对象和承载语义含义的复杂格式。

Excel表格（.xlsx、.xls、.csv） — 表格结构是关键信息。合并单元格、多级表头、用作分隔符的空行和生成显示值的公式都需要处理。

PowerPoint演示文稿（.pptx） — 文本嵌入在形状、文本框和SmartArt中。幻灯片备注通常包含额外上下文。解析必须处理空间布局，不仅仅是文本提取。

CAD图纸和工程文档 — 标题栏包含结构化元数据。图纸注释携带关键信息。这些是领域特定的，需要专门的提取逻辑。

扫描表单 — 结构化文档（保险索赔、患者登记表、检查清单），其中字段位置编码含义。仅OCR不够——你需要表单字段检测和键值提取。

邮件档案（.eml、.msg、.mbox） — 头部元数据、正文文本和附件都需要分别处理。线程重建增加了另一层复杂性。

本地OCR选项

对于扫描文档，OCR是关键依赖。以下是本地选项的对比：

OCR引擎	精度（干净扫描）	精度（退化扫描）	语言支持	设置复杂度	许可证
Tesseract 5	好（92-96%）	一般（75-85%）	100+语言	低	Apache 2.0
EasyOCR	好（90-95%）	好（80-88%）	80+语言	低	Apache 2.0
PaddleOCR	非常好（94-97%）	好（82-90%）	80+语言	中	Apache 2.0
云API（Google、AWS、Azure）	优秀（97-99%）	优秀（90-95%）	100+语言	低	不可本地使用

对于本地部署，PaddleOCR提供最佳的精度-复杂度比。Tesseract最易部署，适用于干净的现代扫描。EasyOCR对多语言文档处理良好。

云端和本地OCR之间的精度差距是真实的——干净文档约2-5%，退化扫描差距更大。对于大多数企业用例，本地精度已足够。对于边缘情况（严重退化文档、不常见字体、手写文本），预期需要在管道中构建人工审查步骤。

表格提取：难题

PDF中的表格是大多数摄入管道崩溃的地方。在人类查看者看来完美结构化的表格，在底层PDF中只是一组定位的文本片段，没有显式的行/列结构。

Docling（IBM的文档理解库）在标准基准上报告了97.9%的表格结构识别精度。这令人印象深刻，在实践中它处理大多数企业表格效果良好。复杂情况——跨多行的合并单元格、嵌套子表格、跨页表格——仍需验证。

Camelot和Tabula 是PDF的专用表格提取库。它们对简单、结构良好的表格效果好，但对复杂布局力不从心。

布局感知提取 是当前最佳方法：首先在文档布局中识别表格区域，然后使用检测到的结构提取单元格内容。这需要模型（如Docling内部使用的模型）而非基于规则的启发式方法。

提取后，以编程方式验证表格结构：

行数应在各列之间一致
表头行应可识别
数值列应包含可解析的数字
单元格内容不应被截断

处理多列布局

多列PDF（学术论文、通讯、一些法律文档）造成阅读顺序问题。从左到右跨整页宽度读取的文本提取将交错两列的内容，产生乱码。

解决这需要布局检测：识别列边界，然后以正确的阅读顺序在每列内提取文本。方法有：

基于规则：检测文本定位中的大水平间距。适用于简单的两列布局，对复杂的则失败。
基于ML的布局检测：LayoutLMv3或Docling的布局模型等可检测列、标题、图表和表格。更可靠，但需要模型部署。
混合：先使用基于规则的检测，对无法干净解析的文档回退到基于ML的方法。

摄入输出应该是什么样的

设计良好的摄入阶段的输出是带有元数据的结构化文本——而非原始文本转储。良好的摄入输出包含：

文档级元数据：

源文件名、文件类型、页数
摄入时间戳
OCR置信度分数（对于扫描文档）
语言检测结果

章节级结构：

标题层级（H1、H2、H3）
段落边界
列表项
表格结构（行、列、表头已识别）

内联元数据：

在语义上有意义的加粗/斜体/下划线标记
脚注引用
交叉引用和内部链接

质量指标：

每页/区域的OCR置信度
布局检测置信度
解析警告（例如"表格可能格式不正确「、」检测到可能的多列布局"）

这些结构化输出直接馈入清洗阶段。如果摄入输出的是无结构的纯文本，每个下游阶段都要做更多工作。

常见失败模式

页眉/页脚噪声：页码、连续页头、文档标题和保密声明在每页重复。如果不去除，它们在提取文本中出现数百次，混淆去重和质量评分。

断字伪影：跨行分割的单词（如"docu-\nment「）需要重新连接。简单正则表达式处理大多数情况，但边缘情况（如」re-\nevaluate"中连字符是真实的）需要字典查找。

编码问题：旧文档可能使用Windows-1252、ISO-8859-1或其他非UTF-8编码。在混合编码文档集合中，乱码（编码不匹配导致的字符损坏）很常见。

元数据丢失：一些提取器会丢弃可能对过滤或来源追踪有价值的文档属性（作者、创建日期、修改历史）。

空或几乎空的页面：封面、分隔页和空白页浪费处理时间，如果不过滤会引入噪声。

实际设置

对于为客户项目设置本地摄入的服务提供商：

先清查文档集合。 在编写任何代码之前，按类型计数文件，在集合中采样质量，并识别边缘情况。30分钟的清查可以防止数天的调试。
从最难的格式开始。 如果集合包含1990年代的扫描PDF，先测试OCR。如果它们无法挽救，你需要在计划管道其余部分之前知道。
构建验证步骤。 摄入后，抽查随机样本：提取的文本是否与源文档匹配？表格是否完整？阅读顺序是否正确？
记录一切。 每个处理的文件、每个OCR置信度分数、每个解析警告。这些日志是审计追踪的一部分。

Ertas Data Suite的摄入模块原生处理64+种文件类型——包括PDF（原生和扫描）、Word、Excel、PowerPoint、图像和工程文档——内置OCR、表格提取和结构化输出。它记录每个解析决策和置信度分数作为项目审计追踪的一部分，整个过程在本地运行，无需网络调用。

连接到管道

摄入产生结构化文本和元数据。下一阶段——清洗——获取该结构化输出并去除重复、标准化编码、脱敏PII/PHI并评分质量。每个阶段建立在前一个之上，摄入输出的质量直接决定清洗需要多少工作。

完整的管道概览请参见How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning。

企业AI项目的本地文档摄入设置指南

你实际会遇到的企业文档类型

本地OCR选项

表格提取：难题

处理多列布局

摄入输出应该是什么样的

常见失败模式

实际设置

连接到管道

Ship AI that runs on your users' devices.

Keep reading

原生桌面 vs Docker vs Kubernetes：本地 ML 数据管道部署对比

基准测试：100GB+ 企业数据集的本地数据准备管道吞吐量

如何构建用于 LLM 微调的本地数据准备管道