
零数据出口的本地LLM辅助数据标注
如何通过Ollama和llama.cpp使用本地LLM进行AI辅助数据标注——涵盖预标注、质量检查和主动学习,数据不离开本地。
数据标注是数据准备管道中最耗费人力的阶段。一个具有复杂标注需求的10,000个样本的数据集可能需要标注团队数周时间。将此乘以服务提供商每年处理的客户项目数量,标注就成为产能的主要瓶颈。
基于云的标注API(OpenAI、Anthropic、Google)可以大幅加速这个过程——模型可以在几分钟内预标注数千条记录。但对于受监管的企业客户,将数据发送到云端API不是一个选项。数据不能离开大楼。
实用的替代方案:使用在本地运行的本地LLM来辅助标注。不是取代人类标注员,而是将每个标注员的工作量减少40-60%。本指南涵盖本地LLM辅助标注的设置、模型选择和工作流程。
本地LLM能为标注做什么
本地LLM以三种方式辅助标注:
1. 预标注(草案标签)
模型为每条记录生成一个建议标签。然后人类标注员审查和修正建议,而不是从零开始标注。
对于具有10个类别的文本分类任务,经过良好提示的本地7B模型通常在草案标签上达到60-80%的准确率。这意味着60-80%的记录只需要验证(快速),而不是从零标注(慢速)。时间节省是显著的——标注员吞吐量大约翻倍。
2. 标签质量检查
在人类标注员应用标签后,模型审查一致性:
- 此标签是否与内容匹配?
- 此标签是否与类似记录的标注方式一致?
- 是否有表明疲劳或系统性错误的标注模式?
3. 主动学习优先排序
并非所有未标注记录对模型训练同等有价值。主动学习使用模型不确定性来优先确定接下来应该标注哪些记录——将标注员的时间集中在最能改善模型性能的记录上。
设置本地LLM推理
Ollama
Ollama提供了最简单的本地模型推理路径。安装二进制文件,拉取模型,通过本地API端点访问。
标注任务的硬件要求:
- 7B模型(Mistral 7B、Llama 3 8B):最低8 GB RAM,推荐16 GB
- 13B模型:最低16 GB RAM。在复杂标注任务上明显更好
- 70B+模型:需要强GPU基础设施(48+ GB VRAM)。对标注辅助通常过度
标注任务的模型选择
| 模型 | 大小 | 指令遵循 | 结构化输出 | 标注准确率(典型) |
|---|---|---|---|---|
| Llama 3.1 8B Instruct | 8B | 优秀 | 好 | 65-80% |
| Mistral 7B Instruct v0.3 | 7B | 非常好 | 好 | 60-75% |
| Qwen 2.5 7B Instruct | 7B | 非常好 | 非常好 | 65-80% |
| Phi-3.5 Mini Instruct | 3.8B | 好 | 一般 | 50-65% |
| Llama 3.1 70B Instruct | 70B | 优秀 | 优秀 | 80-90% |
批处理vs交互式标注
批量预标注
在整个未标注数据集上运行模型,为所有记录生成草案标签。标注员然后处理队列,验证或修正每个草案。
优势:最大化GPU利用。标注员始终有预标注记录队列可供审查。实现简单。
劣势:初始批处理耗时(大数据集在普通硬件上需数小时)。草案标签的生成没有人工修正的帮助——模型在批处理期间不会改进。
交互式协同标注
模型在标注员打开每条记录时实时生成草案标签。标注员立即看到建议并接受、修改或拒绝。
优势:感觉更自然。提示可以包含最近标注的示例(少样本),随会话推进提高准确率。
劣势:需要低延迟推理(每条记录低于一秒)。对于大多数服务提供商工作流,批量预标注是实际的起点。
硬件建议
| 场景 | 硬件 | 模型 | 预期吞吐量 |
|---|---|---|---|
| 预算/仅CPU | 32 GB RAM工作站 | Llama 3.1 8B Q4 | 50-100条/小时(批处理) |
| 中等 | NVIDIA RTX 4090(24 GB) | Llama 3.1 8B Q8 | 500-1,000条/小时(批处理) |
| 生产级 | NVIDIA A100(40 GB) | Llama 3.1 70B Q4 | 200-400条/小时(批处理,更高准确率) |
| Apple Silicon | M3 Max(64 GB统一内存) | Llama 3.1 8B Q8 | 200-400条/小时(批处理) |
能力延伸
Ertas Data Suite的标注模块将本地LLM辅助标注直接集成到数据准备管道中。内置协同助手通过Ollama或llama.cpp运行,支持批量预标注和交互式标注,并将每个标注决策记录到项目审计追踪中。领域专家在可视界面中工作——无需Python、命令行或配置文件。
连接到管道
标注数据馈入增强,其中合成数据生成扩展数据集——当真实标注数据稀缺时(典型的企业情况)尤其重要。
完整管道概览请参见How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Optimizing Local LLM Inference for Data Labeling and Augmentation Tasks
Practical guide to optimizing local LLM inference for data prep — model selection, quantization trade-offs, batch strategies, and throughput tuning for labeling and augmentation.

Running Ollama for AI-Assisted Data Prep in Air-Gapped Enterprise Environments
Step-by-step guide to deploying Ollama for AI-assisted data labeling in air-gapped environments — model transfer, offline setup, GPU configuration, and common failure modes.

Synthetic Data Generation in Air-Gapped Environments for Fine-Tuning
How to generate synthetic training data in air-gapped environments — covering paraphrasing, instruction generation, DPO pairs, and seed expansion using local LLMs only.