如何为小模型微调准备企业训练数据

模型不是难的部分。训练基础设施也不是难的部分。企业微调真正困难的部分是让训练数据准备好。

企业数据存在于 PDF、Word 文档、Excel 电子表格、扫描表格、电子邮件附件和遗留数据库导出中。微调语言模型需要结构化的 JSONL 文件，包含提示/完成对——干净的、一致的、正确格式的文本，具有清晰的指令-响应映射。

这两种状态之间的差距就是数据准备挑战。这是大多数企业 AI 项目花费60-80%时间的地方。这是最常见和最昂贵的错误发生的地方。这也是区分在生产中有效的模型和在部署时失败的模型的地方。

本指南涵盖为小模型微调准备企业训练数据的五个阶段：摄入、清理、标注、增强和导出。

阶段1：摄入——将文档解析为结构化文本

第一阶段将源文档转换为具有保留结构的机器可读文本。这听起来简单。实际上并不简单。

PDF 表格重建、多列布局、扫描文档 OCR、电子表格处理——每种类型都有独特的挑战。

原始解析输出包含会降低模型训练效果的噪声。清理阶段有三个目标：去除伪影、标准化格式和脱敏。

PII 和 PHI 去标识化是企业团队最常跳过、低估或做错的步骤。后果从合规罚款到刑事责任不等。

标注将清理后的文档转换为训练数据。领域专家审查文档并产出模型将学习复制的正确提取样本。

**为什么是领域专家而非 ML 工程师：**准确率下降15-20%。ML 工程师标注建筑工程量清单不知道"PC Sum"是暂定成本总额。数据质量与数量的关系不是线性的——500个高质量样本持续优于10,000个嘈杂样本。

500个标注样本可能无法覆盖模型在生产中遇到的完整文档分布。合成数据增强在保持领域准确性的同时扩展训练集。

不要增强超过原始标注集的4-5倍。过度增强用合成噪声稀释了真实样本的信号。

最终阶段将增强后的数据集转换为微调框架所需的格式。大多数微调框架（Hugging Face TRL、Axolotl、LLaMA-Factory）接受 JSONL。

包含用于可追溯性的元数据字段：source_document、labeled_by、labeled_date、augmentation_type、quality_review、pii_scan。

对于目标500个标注样本的典型项目：摄入1-2周、清理1-2周、标注3-5周、增强1周、导出2-3天。总计7-11周。

数据准备不是华丽的工作。但它是决定模型是否有效的部分。做好数据，7B模型会在你的特定任务上超越70B模型。做错数据，再多的模型规模或训练计算也无法弥补。