What is 数据标注?

为原始数据分配有意义的标签、类别或注释的过程，使机器学习模型能够从结构化样本中学习。

Definition

数据标注是将结构化元数据——分类、标签、边界框、实体跨度或质量评分——附加到原始数据上的过程，使其能够作为监督机器学习的训练信号。在大语言模型微调的场景下，标注通常意味着将文本组织成指令-回复对、按主题或难度分类样本、评价回复质量，或用实体类型和语义角色标注文本跨度。

标注存在于一个复杂度谱上。最简单的是二分类标签，将样本标记为相关或不相关。最复杂的是多维标注方案，可能为每个训练样本分配主题类别、难度分数、毒性评级和事实准确性评估——所有这些都会影响训练期间样本的加权方式。

标签质量直接决定了模型性能的上限。无论架构或训练配置如何，在标注质量差的数据上训练的模型都会学到错误的模式。这一现实催生了'垃圾进，垃圾出'的说法，这仍然是应用机器学习中最重要的原则。高质量的标注需要清晰的注释指南、训练有素的标注者（人工或自动化）以及系统的质量保证流程，包括标注者间一致性度量。

Why It Matters

对于语言模型微调来说，标注数据集是传达期望行为的主要机制。每个指令-回复对都是一个隐含的标签，教导模型好的回复是什么样子。如果这些样本标注不一致——质量、格式或正确性各异——模型将学到不连贯的行为混合体。

标注也是数据集创建中最耗时和昂贵的部分。领域专家的人工标注根据复杂性每个样本可能花费5到50美元，而大型微调数据集需要数千个样本。这种成本压力推动团队转向半自动标注方法，即初始标签由更强的模型生成，然后由人类标注者审核和修正。标注流程的正确与否决定了最终模型的质量和整个微调项目的经济性。

How It Works

LLM微调的典型标注工作流从定义标注方案开始——标注者将应用的类别集、格式和质量标准。接下来，配置标注界面，向标注者展示原始数据并以结构化格式捕获他们的回复。标注者按照指南逐步处理数据集。

质量通过几种机制来保证：冗余标注（多个标注者标注同一样本，分歧通过裁决解决）、金标准样本（预先标注的样本混入其中以衡量标注者准确性）和自动一致性检查（标记与相似样本冲突的标签）。标注后的数据集以适合训练的格式导出——通常是包含指令和回复字段的JSONL。

Example Use Case

一家电商公司希望微调模型将客户咨询分为15个类别（退货、配送、账单、产品问题等）。他们提取10,000条历史支持工单，三位标注者独立标注每张工单。标注者意见不一致的案例由资深客服审核。最终的标注数据集达到94%的标注者间一致性，产出了一个91%准确率的微调分类器——比基础模型的零样本性能提高了23%。