
企业AI项目的本地文档摄入设置指南
如何为企业AI构建本地文档摄入——涵盖PDF、扫描表单、OCR选项、表格提取,以及在无云依赖情况下处理64+种文件类型。
文档摄入是每个企业AI数据管道的起点——也是大多数服务提供商首次发现真实世界企业数据有多混乱的地方。
当客户交给你200,000个PDF、50,000个Word文档、10,000个Excel表格,以及一箱2003年的扫描纸质表单时,你的摄入系统需要处理所有这些。在本地。不向云端API发送一个字节。
本指南涵盖本地文档摄入的实际操作:你将遇到哪些企业文档类型、如何在本地处理每一种,以及常见的失败模式在哪里。
你实际会遇到的企业文档类型
企业文档集合不是干净的语料库。它们是数十年来在不同格式、惯例和质量水平下积累的文件。以下是实际中出现的情况:
原生PDF — 数字化生成,具有可提取的文本层。这是简单的情况。文本提取可靠工作,布局通常可恢复。但复杂布局(多列、浮动文本框、嵌套表格)仍可能挫败简单的提取方法。
扫描PDF和基于图像的文档 — 没有文本层。每个字符都必须通过OCR重建。质量差异巨大:2020年的干净300 DPI扫描很直接;1997年带咖啡渍的150 DPI传真则不然。
Word文档(.docx、.doc) — .docx(基于XML)通常很直接。2007年之前Word版本的旧式.doc文件需要不同的解析。注意修订痕迹、嵌入对象和承载语义含义的复杂格式。
Excel表格(.xlsx、.xls、.csv) — 表格结构是关键信息。合并单元格、多级表头、用作分隔符 的空行和生成显示值的公式都需要处理。
PowerPoint演示文稿(.pptx) — 文本嵌入在形状、文本框和SmartArt中。幻灯片备注通常包含额外上下文。解析必须处理空间布局,不仅仅是文本提取。
CAD图纸和工程文档 — 标题栏包含结构化元数据。图纸注释携带关键信息。这些是领域特定的,需要专门的提取逻辑。
扫描表单 — 结构化文档(保险索赔、患者登记表、检查清单),其中字段位置编码含义。仅OCR不够——你需要表单字段检测和键值提取。
邮件档案(.eml、.msg、.mbox) — 头部元数据、正文文本和附件都需要分别处理。线程重建增加了另一层复杂性。
本地OCR选项
对于扫描文档,OCR是关键依赖。以下是本地选项的对比:
| OCR引擎 | 精度 (干净扫描) | 精度(退化扫描) | 语言支持 | 设置复杂度 | 许可证 |
|---|---|---|---|---|---|
| Tesseract 5 | 好(92-96%) | 一般(75-85%) | 100+语言 | 低 | Apache 2.0 |
| EasyOCR | 好(90-95%) | 好(80-88%) | 80+语言 | 低 | Apache 2.0 |
| PaddleOCR | 非常好(94-97%) | 好(82-90%) | 80+语言 | 中 | Apache 2.0 |
| 云API(Google、AWS、Azure) | 优秀(97-99%) | 优秀(90-95%) | 100+语言 | 低 | 不可本地使用 |
对于本地部署,PaddleOCR提供最佳的精度-复杂度比。Tesseract最易部署,适用于干净的现代扫描。EasyOCR对多语言文档处理良好。
云端和本地OCR之间的精度差距是真实的——干净文档约2-5%,退化扫描差距更大。对于大多数企业用例,本地精度已足够。对于边缘情况(严重退化文档、不常见字体、手写文本),预期需要在管道中构建人工审查步骤。
表格提取:难题
PDF中的表格是大多数摄入管道崩溃的地方。在人类查看者看来完美结构化的表格,在底层PDF中只是一组定位的文本片段,没有显式的行/列结构。
Docling(IBM的文档理解库)在标准基准上报告了97.9%的表格结构识别精度。这令人印象深刻,在实践中它处理大多数企业表格效果良好。复杂情况——跨多行的合并单元格、嵌套子表格、跨页表格——仍需验证。
Camelot和Tabula 是PDF的专用表格提取库。它们对简单、结构良好的表格效果好,但对复杂布局力不从心。
布局感知提取 是当前最佳方法:首先在文档布局中识别表格区域,然后使用检测到的结构提取单元格内容。这需要模型(如Docling内部使用的模型)而非基于规则的启发式方法。
提取后,以编程方式验证表格结构:
- 行数应在各列之间一致
- 表头行应可识别
- 数值列应包含可解析的数字
- 单元格内容不应被截断
处理多列布局
多列PDF(学术论文、通讯、一些法律文档)造成阅读顺序问题。从左到右跨整页宽度读取的文本提取将交错两列的内容,产生乱码。
解决这需要布局检测:识别列边界,然后以正确的阅读顺序在每列内提取文本。方法有:
- 基于规则:检测文本定位中的大水平间距。适用于简单的两列布局,对复杂的则失败。
- 基于ML的布局检测:LayoutLMv3或Docling的布局模型等可检测列、标题、图表和表格。更可靠,但需要模型部署。
- 混合: 先使用基于规则的检测,对无法干净解析的文档回退到基于ML的方法。
摄入输出应该是什么样的
设计良好的摄入阶段的输出是带有元数据的结构化文本——而非原始文本转储。良好的摄入输出包含:
文档级元数据:
- 源文件名、文件类型、页数
- 摄入时间戳
- OCR置信度分数(对于扫描文档)
- 语言检测结果
章节级结构:
- 标题层级(H1、H2、H3)
- 段落边界
- 列表项
- 表格结构(行、列、表头已识别)
内联元数据:
- 在语义上有意义的加粗/斜体/下划线标记
- 脚注引用
- 交叉引用和内部链接
质量指标:
- 每页/区域的OCR置信度
- 布局检测置信度
- 解析警告(例如"表格可能格式不正确「、」检测到可能的多列布局")
这些结构化输出直接馈入清洗阶段。如果摄入输出的是无结构的纯文本,每个下游阶段都要做更多工作。
常见失败模式
页眉/页脚噪声:页码、连续页头、文档标题和保密声明在每页重复。如果不去除,它们在提取文本中出现数百次,混淆去重和质量评分。
断字伪影:跨行分割的单词(如"docu-\nment「)需要重新连接。简单正则表达式处理大多数情况,但边缘情况(如」re-\nevaluate"中连字符是真实的)需要字典查找。
编码问题:旧文档可能使用Windows-1252、ISO-8859-1或其他非UTF-8编码。在混合编码文档集合中,乱码(编码不匹配导致的字符损坏)很常见。
元数据丢失:一些提取器会丢弃可能对过滤或来源追踪有价值的文档属性(作者、创建日期、修改历史)。
空或几乎空的页面:封面、分隔页和空白页浪费处理时间,如果不过滤会引入噪声。
实际设置
对于为客户项目设置本地摄入的服务提供商:
-
先清查文档集合。 在编写任何代码之前,按类型计数文件,在集合中采样质量,并识别边缘情况。30分钟的清查可以防止数天的调试。
-
从最难的格式开始。 如果集合包含1990年代的扫描PDF,先测试OCR。如果它们无法挽救,你需要在计划管道其余部分之前知道。
-
构建验证步骤。 摄入后,抽查随机样本:提取的文本是否与源文档匹配?表格是否完整?阅读顺序是否正确?
-
记录一切。 每个处理的文件、每个OCR置信度分数、每个解析警告。这些日志是审计追踪的一部分。
Ertas Data Suite的摄入模块原生处理64+种文件类型——包括PDF(原生和扫描)、Word、Excel、PowerPoint、图像和工程文档——内置OCR、表格提取和结构化输出。它记录每个解析决策和置信度分数作为项目审计追踪的一部分,整个过程在本地运行,无需网络调用。
连接到管道
摄入产生结构化文本和元数据。下一阶段——清洗——获取该结构化输出并去除重复、标准化编码、脱敏PII/PHI并评分质量。每个阶段建立在前一个之上,摄入输出的质量直接决定清洗需要多少工作。
完整的管道概览请参见How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Best Tool for PDF to RAG Pipeline: Parsing Multi-Column, Scanned, and Mixed-Format Documents
PDF parsing is where most RAG pipelines break first. Multi-column layouts, scanned pages, embedded tables, and mixed formatting produce garbage chunks that ruin retrieval quality. Here is how to handle them.

Multi-Format Document RAG: Building a Retrieval Pipeline Across PDFs, Word, Excel, and Audio
Enterprise knowledge lives in PDFs, Word documents, spreadsheets, presentations, and even audio recordings. A RAG pipeline that only handles one format misses most of the organisation's knowledge.

How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning
A complete guide to building on-premise data preparation pipelines for LLM fine-tuning — covering the 5 stages from ingestion to export, tool comparisons, and architecture for regulated environments.