What is 训练数据?

用于微调机器学习模型的精心策划的示例数据集，通常以 JSONL 等格式的结构化输入输出对进行格式化。

Definition

训练数据是机器学习模型在微调过程中学习的示例集合。对于大语言模型，训练数据通常由结构化的输入输出对组成：一条指令或提示与期望的响应配对。这些数据的格式、质量和多样性是决定微调后模型质量的最重要因素。即使是最强大的基础模型，如果在嘈杂、有偏差或不充分的数据上进行微调，也会产生糟糕的结果。

对于 LLM 微调，训练数据最常以 JSONL（JSON Lines）格式存储，其中每一行是一个独立的 JSON 对象，代表一个训练示例。典型的示例可能包含 "instruction"（模型应该做什么）、"input"（可选的上下文）和 "output"（理想的响应）等字段。对话式微调使用带有基于角色条目（system、user、assistant）的 "messages" 数组。结构必须匹配目标模型架构所期望的聊天模板。

在微调中，数据质量胜过数据数量。研究一致表明，几千个高质量、经过仔细审查的示例优于数万个嘈杂的自动生成示例。最佳实践包括去除重复、确保格式一致、平衡类别、过滤准确性，以及包含代表模型在生产中遇到的真实输入分布的边缘案例。

Why It Matters

"垃圾进，垃圾出"这一格言在微调中尤为适用。在不准确、格式不佳或有偏差的训练数据上微调的模型会在生产中自信地复制这些缺陷。相反，即使只有 1000-5000 个精心策划的示例组成的数据集也可以将通用基础模型转变为高性能的领域专家。对于组织来说，数据策划的投资——清洗、标注、验证和格式化——通常是任何微调项目中投资回报率最高的活动，远远超过超参数或训练方法的选择。

How It Works

训练数据管道通常从原始数据收集开始——从内部知识库、支持工单、领域专家或合成生成中收集示例。然后对原始数据进行清洗、去重并格式化为所需的结构（通常是 JSONL）。常见做法是将数据拆分为训练集和验证集（例如 90/10），其中验证集用于在训练期间监测过拟合。格式化后的数据集被上传到训练平台，在那里被分词（转换为数值 token）并批量处理以实现高效的 GPU 计算。

Example Use Case

一家金融科技公司想要微调一个用于监管合规问答的模型。他们的数据团队从内部合规文档中提取了 3000 个问答对，由领域专家审查每对的准确性，将其格式化为带有设置合规顾问角色的系统提示的 JSONL，并将 10% 分为验证集。最终的训练数据产生的模型在其基准测试中正确回答了 89% 的合规问题——而基础模型使用提示工程仅达到 52%。

Key Takeaways

训练数据质量是微调成功的最重要因素。
JSONL 是 LLM 微调数据集的标准格式，包含结构化的指令输出对。
几千个高质量示例通常优于数万个嘈杂的示例。
数据在训练前应该被清洗、去重、平衡，并由领域专家验证。
将数据拆分为训练集和验证集对于检测过拟合至关重要。

How Ertas Helps

Ertas Studio 提供内置工具，用于上传、预览和验证 JSONL 格式的训练数据。平台在训练开始前自动检查格式错误、重复条目和结构不一致。Ertas 还提供数据预览功能，让用户浏览示例并直观地发现质量问题，降低在有缺陷的数据上训练的风险。这使得数据准备步骤——通常是微调中最繁琐的部分——显著更快且更可靠。