
如何为小模型微调准备企业训练数据
将非结构化企业文档——PDF、Word 文件、扫描表格——转换为干净 JSONL 训练数据的五阶段实用指南,用于小语言模型微调。
模型不是难的部分。训练基础设施也不是难的部分。企业微调真正困难的部分是让训练数据准备好。
企业数据存在于 PDF、Word 文档、Excel 电子表格、扫描表格、电子邮件附件和遗留数据库导出中。微调语言模型需要结构化的 JSONL 文件,包含提示/完成对——干净的、一致的、正确格式的文本,具有清晰的指令-响应映射。
这两种状态之间的差距就是 数据准备挑战。这是大多数企业 AI 项目花费60-80%时间的地方。这是最常见和最昂贵的错误发生的地方。这也是区分在生产中有效的模型和在部署时失败的模型的地方。
本指南涵盖为小模型微调准备企业训练数据的五个阶段:摄入、清理、标注、增强和导出。
阶段1:摄入——将文档解析为结构化文本
第一阶段将源文档转换为具有保留结构的机器可读文本。这听起来简单。实际上并不简单。
PDF 表格重建、多列布局、扫描文档 OCR、电子表格处理——每种类型都有独特的挑战。
阶段2:清理——去噪、标准化、去标识化
原始解析输出包含会降低模型训练效果的噪声。清理阶段有三个目标:去除伪影、标准化格式和脱敏。
PII 和 PHI 去标识化是企业团队最常跳过、低估或做错的步骤。后果从合规罚款到刑事责任不等。
阶段3:标注——领域专家创建训练样本
标注将清理后的文档转换为训练数据。领域专家审查文档并产出模型将学习复制的正确提取样本。
**为什么是领域专家而非 ML 工程师:**准确率下降15-20%。ML 工程师标注建筑工程量清单不知道"PC Sum"是暂定成本总额。数据质量与数量的关系不是线性的——500个高质量样本持续优于10,000个嘈杂样本。
阶段4:增强——用合成变体扩展训练集
500个标注样本可能无法覆盖模型在生产中遇到的完整文档分布。合成数据增强在保持领域准确性的同时扩展训练集。
不要增强超过原始标注集的4-5倍。过度增强用合成噪声稀释了真实样本的信号。
阶段5:导出——转换为训练就绪的 JSONL
最终阶段将增强后的数据集转换为微调框架所需的格式。大多数微调框架(Hugging Face TRL、Axolotl、LLaMA-Factory)接受 JSONL。
包含用于可追溯性的元数据字段:source_document、labeled_by、labeled_date、augmentation_type、quality_review、pii_scan。
常见错误及如何避免
- 跳过去标识化:"我们以后再做"是企业 AI 中最昂贵的句子。
- 使用非专家标注者:短期省钱,长期花费更多。
- 标注数据无质量控制:标注错误在训练中复合。
- 训练重量不重质:更小的干净数据集胜过更大的嘈杂数据集。
- 没有审计追踪:EU AI Act 下的合规失败。
准备时间线
对于目标500个标注样本的典型项目:摄入1-2周、清理1-2周、标注3-5周、增强1周、导出2-3天。总计7-11周。
数据准备不是华丽的工作。但它是决定模型是否有效的部分。做好数据,7B模型会在你的特定任务上超越70B模型。做错数据,再多的模型规模或训练计算也无法弥补。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

SLM Fine-Tuning for Document Processing: Turning Enterprise PDFs into Structured Data
How enterprises use fine-tuned small language models to extract structured data from PDFs — construction BOQs, legal contracts, medical records, and financial statements — at a fraction of manual processing cost.

Training AI on Financial Statements: Data Extraction and Labeling On-Premise
How to extract and label financial statement data for AI training — parsing XBRL, extracting tables from PDFs, handling format variation, and building classification models for financial analysis.

From PDF Archives to AI Training Data: What the Journey Actually Looks Like
A practical walkthrough of the full journey from a folder of enterprise PDFs to usable AI training data — covering ingestion, cleaning, labeling, augmentation, and export.