
零数据出口的本地LLM辅助数据标注
如何通过Ollama和llama.cpp使用本地LLM进行AI辅助数据标注——涵盖预标注、质量检查和主动学习,数据不离开本地。
数据标注是数据准备管道中最耗费人力的阶段。一个具有复杂标注需求的10,000个样本的数据集可能需要标注团队数周时间。将此乘以服务提供商每年处理的客户项目数量,标注就成为产能的主要瓶颈。
基于云的标注API(OpenAI、Anthropic、Google)可以大幅加速这个过程——模型可以在几分钟内预标注数千条记录。但对于受监管的企业客户,将数据发送到云端API不是一个选项。数据不能离开大楼。
实用的替代方案:使用在本地运行的本地LLM来辅助标注。不是取代人类标注员,而是将每个标注员的工作量减少40-60%。本指南涵盖本地LLM辅助标注的设置、模型选择和工作流程。
本地LLM能为标注做什么
本地LLM以三种方式辅助标注:
1. 预标注(草案标签)
模型为每条记录生成一个建议标签。然后人类标注员审查和修正建议,而不是从零开始标注。
对于具有10个类别的文本分类任务,经过良好提示的本地7B模型通常在草案标签上达到60-80%的准确率。这意味着60-80%的记录只需要验证(快速),而不是从零标注(慢速)。时间节省是显著的——标注员吞吐量大约翻倍。
2. 标签质量检查
在人类标注员应用标签后,模型审查一致性:
- 此标签是否与内容匹配?
- 此标签是否与类似记录的标注方式一致?
- 是否有表明疲劳或系统性错误的标注模式?
3. 主动学习优先排序
并非所有未标注记录对模型训练同等有价值。主动学习使用模型不确定性来优先确定接下来应该标注哪些记录——将标注员的时间集中在最能改善模型性能的记录上。
设置本地LLM推理
Ollama
Ollama提供了最简单的本地模型推理路径。安装二进制文件,拉取模型,通过本地API端点访问。
标注任务的硬件要求:
- 7B模型(Mistral 7B、Llama 3 8B):最低8 GB RAM,推荐16 GB
- 13B模型:最低16 GB RAM。在复杂标注任务上明显更好
- 70B+模型:需要强GPU基础设施(48+ GB VRAM)。对标注辅助通常过度
标注任务的模型选择
| 模型 | 大小 | 指令遵循 | 结构化输出 | 标注准确 率(典型) |
|---|---|---|---|---|
| Llama 3.1 8B Instruct | 8B | 优秀 | 好 | 65-80% |
| Mistral 7B Instruct v0.3 | 7B | 非常好 | 好 | 60-75% |
| Qwen 2.5 7B Instruct | 7B | 非常好 | 非常好 | 65-80% |
| Phi-3.5 Mini Instruct | 3.8B | 好 | 一般 | 50-65% |
| Llama 3.1 70B Instruct | 70B | 优秀 | 优秀 | 80-90% |
批处理vs交互式标注
批量预标注
在整个未标注数据集上运行模型,为所有记录生成草案标签。标注员然后处理队列,验证或修正每个草案。
优势:最大化GPU利用。标注员始终有预标注记录队列可供审查。实现简单。
劣势:初始批处理耗时(大数据集在普通硬件上需数小时)。草案标签的生成没有人工修正的帮助——模型在批处理期间不会改进。
交互式协同标注
模型在标注员打开每条记录时实时生成草案标签。标注员立即看到建议并接受、修改或拒绝。
优势:感觉更自然。提示可以包含最近标注的示例(少样本),随会话推进提高准确率。
劣势:需要低延迟推理(每条记录低于一秒) 。对于大多数服务提供商工作流,批量预标注是实际的起点。
硬件建议
| 场景 | 硬件 | 模型 | 预期吞吐量 |
|---|---|---|---|
| 预算/仅CPU | 32 GB RAM工作站 | Llama 3.1 8B Q4 | 50-100条/小时(批处理) |
| 中等 | NVIDIA RTX 4090(24 GB) | Llama 3.1 8B Q8 | 500-1,000条/小时(批处理) |
| 生产级 | NVIDIA A100(40 GB) | Llama 3.1 70B Q4 | 200-400条/小时(批处理,更高准确率) |
| Apple Silicon | M3 Max(64 GB统一内存) | Llama 3.1 8B Q8 | 200-400条/小时(批处理) |
能力延伸
Ertas Data Suite的标注模块将本地LLM辅助标注直接集成到数据准备管道中。内置协同助手通过Ollama或llama.cpp运行,支持批量预标注和交互式标注,并将每个标注决策记录到项目审计追踪中。领域专家在可视界面中工作——无需Python、命令行或配置文件。
连接到管道
标注数据馈入增强,其中合成数据生成扩展数据集——当真实标注数据稀缺时(典型的企业情况)尤其重要。
完整管道概览请参见How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.


