Back to blog
    PDF 到 JSONL:构建企业级 AI 训练数据准备管道
    data-preparationpdf-ingestionjsonlenterprise-aifine-tuningsegment:enterprise

    PDF 到 JSONL:构建企业级 AI 训练数据准备管道

    将企业 PDF 文档转换为 JSONL 训练数据集的实用指南——涵盖摄入、OCR、提取、清洗和格式导出,用于微调和 RAG 管道。

    EErtas Team·

    企业 AI 数据准备最常见的起点是一个文件夹——或共享驱动器,或文档管理系统——装满了 PDF。年报、技术手册、临床笔记、法律合同、工程规格。数十年的机构知识被锁在一种为人类阅读而非机器学习设计的格式里。

    从那个 PDF 文件夹到一个可用于微调的 JSONL 文件是一个五阶段管道。每个阶段都有失败模式,如果你只处理过少量干净的现代 PDF,这些模式很容易忽视。在企业规模——数千或数十万个文档,积累多年,由不同团队用不同软件生成——每个失败模式都会成为可靠性问题。

    本指南详细介绍了完整管道:每个阶段发生什么、可能出什么问题,以及输出真正可用之前需要哪些质量检查。

    为什么 PDF 是问题

    据估计,非结构化数据占企业数据总量的 80-90%。PDF 占了其中的很大比例——它们是需要跨系统保持一致外观和长期保存的文档的事实标准格式。

    问题在于 PDF 是一种展示格式。它的内部结构描述的是墨水应如何出现在页面上,而非文本的含义或不同文本元素之间的关系。在可以写出单条 JSONL 记录之前,你必须解决:阅读顺序、表格结构、章节边界、嵌入图像、页眉页脚、脚注、数学表达式,以及正文和标题之间的区别。

    阶段 1:分类和路由

    不是所有 PDF 都一样。解析前需要按类型分类每个文档,因为不同类型需要不同的处理管道:

    • 带可选文本的原生 PDF:文本可以直接提取。仍需布局分析确定阅读顺序。
    • 扫描 PDF(仅图像):无嵌入文本。每页都需要 OCR。
    • 混合 PDF:部分页面原生,部分扫描。
    • 表单 PDF:交互字段、复选框和结构化表单数据需要不同于流式文本的提取逻辑。

    阶段 2:解析和提取

    对于原生 PDF,提取使用布局感知解析从页面上文本元素的空间位置重建阅读顺序。表格需要特别关注——PDF 中的表格没有显式的单元格结构。

    对于扫描 PDF,OCR 质量取决于扫描质量、字体清晰度和页面方向。

    阶段 3:清洗和规范化

    解析输出的原始提取文本通常包含:编码伪影、页眉页脚污染、连字符伪影、空白不规则和近似重复。

    去重值得特别关注。企业文档档案不是精心策划的,而是积累的。如果你在 30% 内容近似重复的数据集上训练,模型会以过度的置信度学习重现该内容。

    对于受监管行业,此阶段还包括 PII 和 PHI 检测和编辑。

    阶段 4:为目标格式构建结构

    JSONL 是格式,不是 schema。每个 JSON 对象里面放什么完全取决于你在训练什么。

    用于指令微调

    {"prompt": "总结以下合同条款:[文本]", "completion": "该条款确立了..."}

    用于聊天微调

    {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}

    用于RAG 管道

    {"text": "...", "source": "document_id", "page": 12, "section": "第 4.2 节"}

    格式选择必须在标注开始之前做出,因为标注策略会根据格式变化。

    阶段 5:导出前验证

    最终导出前的验证可以发现在训练失败或模型行为异常之前不可见的问题。

    最低验证检查:

    • Schema 验证:JSONL 中的每条记录符合预期的字段结构和类型
    • 长度分布:太短或太长的记录
    • 标签分布:分类任务的类别分布
    • 去重检查:确保没有近似重复遗漏
    • 编辑完整性:PII/PHI 检测覆盖的抽样审计

    企业规模时出什么问题

    小规模可管理的问题在大规模时变成可靠性问题:

    • 0.5% 的 OCR 错误率在 100 个文档中是 50 个错字符。在 100,000 个文档中,可能是数千条损坏的记录。
    • 遗漏 5% 重复的近似重复检测系统在小数据集中留下可接受的噪音。大规模时,它产生常见内容的系统性过度表示。
    • 捕获 95% 标识符的 PII 编辑系统可能遗漏 5%——当数据集包含医疗或金融记录时,这个数字代表真实的暴露风险。

    Ertas Data Suite 原生处理此管道——从单个项目中解析、清洗、去重、PII 编辑、标注和导出为 JSONL——具有每次转换的完整审计日志,且没有数据离开机器。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    延伸阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading