What is 标注?
由人类标注者或自动化系统为原始数据添加结构化元数据、标签或标记的过程,用于创建监督学习的训练数据集。
Definition
标注是用结构化标签、标记或元数据丰富原始数据的过程,使数据适合训练机器学习模型。在NLP和LLM微调的场景下,标注任务包括将文本分类到类别中、标记实体跨度(命名实体识别)、按李克特量表评定回复质量、识别事实错误、标注情感,以及将指令与适当的回复配对。
标注是原始数据和可用训练数据之间的桥梁。从网络抓取、文档提取或数据库拉取的原始文本不能直接用于监督微调——它缺少告诉模型应该学什么的结构化标签。标注者根据定义好的指南运用人类判断,将这些原始材料转化为训练信号。标注质量直接决定了最终模型的质量上限。
标注过程涉及几个组成部分:标注指南(定义每个标签类别的详细说明,包含示例和边缘案例的解决方案)、标注工具(向标注者展示数据并高效捕获其判断的界面)、质量保证流程(标注者间一 致性度量、金标准检查以及分歧裁决)和项目管理(跟踪进度、管理标注者团队以及在整个项目生命周期中维持一致性)。
Why It Matters
标注质量是监督学习的基础。模型只能学习训练标注中一致存在的模式。如果标注者经常意见不一致、标签应用不一致或误解指南,模型就会学到混乱的冲突模式混合体,产生不可靠的输出。
标注的成本和可扩展性驱动了ML中许多重要的架构决策。高质量人工标注的费用(根据任务复杂性通常每个样本1至50美元)促使了主动学习(策略性选择标注哪些样本)、半自动标注(使用模型生成草稿标注然后由人类修正)和数据增强(通过变换增加每个标注样本的价值)等技术的发展。
How It Works
典型的标注工作流从指南创建开始。领域专家定义标注模式——存在哪些类别、如何处理边缘案例、什么是高质量和低质量的回复。这些指南在小型试点集上进行测试以发现歧义,然后根据标注者反馈进行完善。
在标注过程中,标注者使用专业界面逐步处理数据集。对于LLM微调数据,这可能涉及为给定指令编写回复补全、从多个维度评价回复质量或按主题和难度分类样本。质量在全程监控:标注者间一致性(通常用Cohen's kappa或Fleiss' kappa衡量)必须超过阈值(通常为0.7以上),定期校准会议使标注者在项目进行过程中重新对齐。个别样本的分歧通过高级标注者或领域专家的裁决 来解决。
Example Use Case
一家准备医疗问答模型数据的公司聘请了10名临床医生标注者。每位标注者审核AI生成的患者问题回复,从准确性(1-5分)、完整性(1-5分)和安全性(通过/不通过)进行评分。每个回复由3名标注者评分,分差超过2分的由资深医师审核。在标注5,000条回复后,团队达到了0.82的Cohen's kappa值——强一致性——并利用评分创建了偏好数据集用于DPO训练,显著提高了模型的医疗回复质量。
Key Takeaways
- 标注为原始数据添加结构化标签和元数据,创建可用于训练的数据集。
- 标注质量决定了模型性能的上限——不一致的标签会产生不一致的模型。
- 质量保证需要标注者间一致性度量、金标准检查和分歧裁决。
- 标注成本推动了主动学习、半自动标注和数据增强技术的采用。
- 清晰详细的标注指南以及边缘案例示例是获得一致结果的关键。
How Ertas Helps
Ertas Data Suite在其Label阶段提供标注工具,使团队能够在Ertas Studio中进行微调之前,通过内置的质量指标和一致性检查来对训练样本进行分类、评分和标记。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.