
数据精简企业PDF微调数据准备segment:enterprise
从700GB PDF到500条微调数据集:数据精简流水线
你有数TB的企业文档。你的微调模型只需要500-5,000条高质量样本。以下是将海量文档库系统性精简为精准训练数据集的完整流水线。
EErtas Team·
一家建筑公司带着700GB的PDF来找我们 ——工程量清单、技术规格书、建筑图纸、现场报告,以及15年积累的项目信函。他们想微调一个模型来完成两项任务:文档分类(从首页识别文档类型)和实体抽取(从规格书中提取关键项目信息)。
他们问:"我们怎样用所有这些数据来训练?"
答案是:不用全部。你需要做精简。
微调语言模型在大多数企业任务中只需要500-5,000条精心筛选的样本。使用"所有数据"会引入噪声、矛盾、冗余和格式不一致,这些会严重损害模型性能。目标不是最大化数据量——而是从700GB原始文档中蒸馏出2,000-3,000条能精确教会模型所需知识的样本。
本文将详细介绍五阶段精简流水线,它能将海量文档库转化为精准训练数据集。
规模差异
数字能说明问题的严峻性:
- 700GB PDF ≈ 140,000份文档,平均5MB
- 140,000份文档 ≈ 1400万页,平均100页
- 1400万页 ≈ 70亿token,每页500 token
- 微调所需 ≈ 2,000条样本,平均约500 token = 100万token
你只需要可用数据的0.014%。其余99.986%要么冗余、无关、过时,要么噪声太大,无法改善训练效果。
精简流水线必须找到正确的0.014%——具有代表性、准确、多样且格式正确的样本。这不是随机采样,而是系统化筛选。
阶段一:分拣
输入: 700GB原始文档 输出: 约200GB潜在相关文档 精简比例: 约70%
分拣将文档库分为"保留「、」丢弃「和」待审"三类。目标是在进行任何高成本处理之前,先排除明显无关的材料。
自动分拣
去重。 企业档案包含大量重复——同一份规格书分发给15个分包商,同一张图纸以微小文件名差异保存了4个版本。内容哈希(文件的MD5或SHA-256)可以捕获完全重复。对于建筑公司,我们通常在未管理的档案中发现15-30%的完全重复。