What is 标注?

由人类标注者或自动化系统为原始数据添加结构化元数据、标签或标记的过程，用于创建监督学习的训练数据集。

Definition

标注是用结构化标签、标记或元数据丰富原始数据的过程，使数据适合训练机器学习模型。在NLP和LLM微调的场景下，标注任务包括将文本分类到类别中、标记实体跨度（命名实体识别）、按李克特量表评定回复质量、识别事实错误、标注情感，以及将指令与适当的回复配对。

标注是原始数据和可用训练数据之间的桥梁。从网络抓取、文档提取或数据库拉取的原始文本不能直接用于监督微调——它缺少告诉模型应该学什么的结构化标签。标注者根据定义好的指南运用人类判断，将这些原始材料转化为训练信号。标注质量直接决定了最终模型的质量上限。

标注过程涉及几个组成部分：标注指南（定义每个标签类别的详细说明，包含示例和边缘案例的解决方案）、标注工具（向标注者展示数据并高效捕获其判断的界面）、质量保证流程（标注者间一致性度量、金标准检查以及分歧裁决）和项目管理（跟踪进度、管理标注者团队以及在整个项目生命周期中维持一致性）。

Why It Matters

标注质量是监督学习的基础。模型只能学习训练标注中一致存在的模式。如果标注者经常意见不一致、标签应用不一致或误解指南，模型就会学到混乱的冲突模式混合体，产生不可靠的输出。

标注的成本和可扩展性驱动了ML中许多重要的架构决策。高质量人工标注的费用（根据任务复杂性通常每个样本1至50美元）促使了主动学习（策略性选择标注哪些样本）、半自动标注（使用模型生成草稿标注然后由人类修正）和数据增强（通过变换增加每个标注样本的价值）等技术的发展。

How It Works

典型的标注工作流从指南创建开始。领域专家定义标注模式——存在哪些类别、如何处理边缘案例、什么是高质量和低质量的回复。这些指南在小型试点集上进行测试以发现歧义，然后根据标注者反馈进行完善。

在标注过程中，标注者使用专业界面逐步处理数据集。对于LLM微调数据，这可能涉及为给定指令编写回复补全、从多个维度评价回复质量或按主题和难度分类样本。质量在全程监控：标注者间一致性（通常用Cohen's kappa或Fleiss' kappa衡量）必须超过阈值（通常为0.7以上），定期校准会议使标注者在项目进行过程中重新对齐。个别样本的分歧通过高级标注者或领域专家的裁决来解决。

Example Use Case

一家准备医疗问答模型数据的公司聘请了10名临床医生标注者。每位标注者审核AI生成的患者问题回复，从准确性（1-5分）、完整性（1-5分）和安全性（通过/不通过）进行评分。每个回复由3名标注者评分，分差超过2分的由资深医师审核。在标注5,000条回复后，团队达到了0.82的Cohen's kappa值——强一致性——并利用评分创建了偏好数据集用于DPO训练，显著提高了模型的医疗回复质量。