
数据精简企业PDF微调数据准备segment:enterprise
从700GB PDF到500条微调数据集:数据精简流水线
你有数TB的企业文档。你的微调模型只需要500-5,000条高质量样本。以下是将海量文档库系统性精简为精准训练数据集的完整流水线。
EErtas Team·
一家建筑公司带着700GB的PDF来找我们——工程量清单、技术规格书、建筑图纸、现场报告,以及15年积累的项目信函。他们想微调一个模型来完成两项任务:文档分类(从首页识别文档类型)和实体抽取(从规格书中提取关键项目信息)。
他们问:"我们怎样用所有这些数据来训练?"
答案是:不用全部。你需要做精简。
微调语言模型在大多数企业任务中只需要500-5,000条精心筛选的样本。使用"所有数据"会引入噪声、矛盾、冗余和格式不一致,这些会严重损害模型性能。目标不是最大化数据量——而是从700GB原始文档中蒸馏出2,000-3,000条能精确教会模型所需知识的样本。
本文将详细介绍五阶段精简流水线,它能将海量文档库转化为精准训练数据集。
规模差异
数字能说明问题的严峻性:
- 700GB PDF ≈ 140,000份文档,平均5MB
- 140,000份文档 ≈ 1400万页,平均100页
- 1400万页 ≈ 70亿token,每页500 token
- 微调所需 ≈ 2,000条样本,平均约500 token = 100万token
你只需要可用数据的0.014%。其余99.986%要么冗余、无关、过时,要么噪声太大,无法改善训练效果。
精简流水线必须找到正确的0.014%——具有代表性、准确、多样且格式正确的样本。这不是随机采样,而是系统化筛选。