Back to blog
    零数据出口的本地LLM辅助数据标注
    data-labelinglocal-llmollamaactive-learningzero-egresson-premisesegment:service-provider

    零数据出口的本地LLM辅助数据标注

    如何通过Ollama和llama.cpp使用本地LLM进行AI辅助数据标注——涵盖预标注、质量检查和主动学习,数据不离开本地。

    EErtas Team·

    数据标注是数据准备管道中最耗费人力的阶段。一个具有复杂标注需求的10,000个样本的数据集可能需要标注团队数周时间。将此乘以服务提供商每年处理的客户项目数量,标注就成为产能的主要瓶颈。

    基于云的标注API(OpenAI、Anthropic、Google)可以大幅加速这个过程——模型可以在几分钟内预标注数千条记录。但对于受监管的企业客户,将数据发送到云端API不是一个选项。数据不能离开大楼。

    实用的替代方案:使用在本地运行的本地LLM来辅助标注。不是取代人类标注员,而是将每个标注员的工作量减少40-60%。本指南涵盖本地LLM辅助标注的设置、模型选择和工作流程。


    本地LLM能为标注做什么

    本地LLM以三种方式辅助标注:

    1. 预标注(草案标签)

    模型为每条记录生成一个建议标签。然后人类标注员审查和修正建议,而不是从零开始标注。

    对于具有10个类别的文本分类任务,经过良好提示的本地7B模型通常在草案标签上达到60-80%的准确率。这意味着60-80%的记录只需要验证(快速),而不是从零标注(慢速)。时间节省是显著的——标注员吞吐量大约翻倍。

    2. 标签质量检查

    在人类标注员应用标签后,模型审查一致性:

    • 此标签是否与内容匹配?
    • 此标签是否与类似记录的标注方式一致?
    • 是否有表明疲劳或系统性错误的标注模式?

    3. 主动学习优先排序

    并非所有未标注记录对模型训练同等有价值。主动学习使用模型不确定性来优先确定接下来应该标注哪些记录——将标注员的时间集中在最能改善模型性能的记录上。


    设置本地LLM推理

    Ollama

    Ollama提供了最简单的本地模型推理路径。安装二进制文件,拉取模型,通过本地API端点访问。

    标注任务的硬件要求:

    • 7B模型(Mistral 7B、Llama 3 8B):最低8 GB RAM,推荐16 GB
    • 13B模型:最低16 GB RAM。在复杂标注任务上明显更好
    • 70B+模型:需要强GPU基础设施(48+ GB VRAM)。对标注辅助通常过度

    标注任务的模型选择

    模型大小指令遵循结构化输出标注准确率(典型)
    Llama 3.1 8B Instruct8B优秀65-80%
    Mistral 7B Instruct v0.37B非常好60-75%
    Qwen 2.5 7B Instruct7B非常好非常好65-80%
    Phi-3.5 Mini Instruct3.8B一般50-65%
    Llama 3.1 70B Instruct70B优秀优秀80-90%

    批处理vs交互式标注

    批量预标注

    在整个未标注数据集上运行模型,为所有记录生成草案标签。标注员然后处理队列,验证或修正每个草案。

    优势:最大化GPU利用。标注员始终有预标注记录队列可供审查。实现简单。

    劣势:初始批处理耗时(大数据集在普通硬件上需数小时)。草案标签的生成没有人工修正的帮助——模型在批处理期间不会改进。

    交互式协同标注

    模型在标注员打开每条记录时实时生成草案标签。标注员立即看到建议并接受、修改或拒绝。

    优势:感觉更自然。提示可以包含最近标注的示例(少样本),随会话推进提高准确率。

    劣势:需要低延迟推理(每条记录低于一秒)。对于大多数服务提供商工作流,批量预标注是实际的起点。


    硬件建议

    场景硬件模型预期吞吐量
    预算/仅CPU32 GB RAM工作站Llama 3.1 8B Q450-100条/小时(批处理)
    中等NVIDIA RTX 4090(24 GB)Llama 3.1 8B Q8500-1,000条/小时(批处理)
    生产级NVIDIA A100(40 GB)Llama 3.1 70B Q4200-400条/小时(批处理,更高准确率)
    Apple SiliconM3 Max(64 GB统一内存)Llama 3.1 8B Q8200-400条/小时(批处理)

    能力延伸

    Ertas Data Suite的标注模块将本地LLM辅助标注直接集成到数据准备管道中。内置协同助手通过Ollama或llama.cpp运行,支持批量预标注和交互式标注,并将每个标注决策记录到项目审计追踪中。领域专家在可视界面中工作——无需Python、命令行或配置文件。


    连接到管道

    标注数据馈入增强,其中合成数据生成扩展数据集——当真实标注数据稀缺时(典型的企业情况)尤其重要。

    完整管道概览请参见How to Build an On-Premise Data Preparation Pipeline for LLM Fine-Tuning

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading