What is 数据增强?

一组通过创建现有数据点的修改副本来人为增加训练数据集规模和多样性的技术。

Definition

数据增强是指通过对现有样本应用受控变换来生成新训练样本的做法，这些变换保留了原始数据的语义含义。在计算机视觉中，这可能涉及旋转、翻转、裁剪或色彩偏移。在自然语言处理中，增强策略包括释义、回译、同义词替换、随机插入、随机删除和句子重排。目标是在训练过程中让模型接触更广泛的输入分布，从而减少过拟合并改善对未见数据的泛化能力。

对于大语言模型微调，数据增强有额外的形式。从业者通常使用更强的模型来生成指令-回复对的释义，变换系统提示的措辞，或生成覆盖原始数据集中缺失的边缘案例的全新合成样本。另一种技术是在token级别进行增强，通过引入受控噪声——交换token、遮蔽输入的部分或打乱句子顺序——来增强鲁棒性。

数据增强在处理领域特定或低资源数据集时特别有价值，因为收集额外的人工标注样本既昂贵又耗时。通过增强将有效数据集规模扩大5-10倍，团队可以实现原本需要更大数据收集和标注投入才能达到的微调效果。

Why It Matters

训练数据的质量和数量是微调成功的最大决定因素。然而，策划大型高质量数据集既昂贵又缓慢。数据增强通过从已有数据中提取更多价值来弥合这一差距。1,000个精心标注的样本可以通过增强表现得像5,000-10,000个样本，显著提高模型在下游任务上的性能。

增强还解决了类别不平衡问题。如果某些类别或回复类型在数据集中代表不足，针对性地对这些少数类别进行增强可确保模型充分学习它们。没有增强，模型往往会对罕见但重要的场景产生盲点——而这些恰恰是正确回答最重要的案例。

How It Works

在LLM微调的文本增强中，过程通常以管道方式进行。首先，分析原始数据集以识别差距、不平衡和更多变化有益的领域。然后，选择增强策略：释义使用不同词汇重写指令或回复同时保留含义；回译将文本通过翻译模型翻译到另一种语言再翻译回来；模板变化将相同内容重新格式化为不同的指令风格。

然后验证增强样本——手动或通过自动质量检查——以确保语义保真度。扭曲原始含义的低质量增强被过滤掉。最终的增强数据集被打乱以防止模型学到增强特定的模式，并删除重复或近似重复的条目以避免记忆化伪影。

Example Use Case

一家法律科技公司有800个合同分析样本用于微调，但至少需要3,000个才能达到可接受的准确率。使用数据增强，他们以三种不同风格释义每条指令，通过法语和德语进行回译，并使用GPT-4为每个原始样本生成五个额外的合同场景。经过去重和质量过滤后，他们得到了4,200个高质量训练样本——足以微调出一个能够准确提取关键条款、识别风险条款和摘要合同的模型。