
主动学习循环:无数据外泄的模型辅助标注
主动学习利用模型建议标签,然后由领域专家确认或纠正。它将标注时间减少75%——当模型在本地运行时,零数据离开你的基础设施。
数据标注是任何企业AI流水线中最昂贵的阶段。它需要领域专家——时薪80-200美元的人——手动为数百或数千个样本分配标签。一个包含10,000份文档和15个类别的分类项目可能消耗400多小时的专家时间。按每小时120美元计算,仅人工成本就是48,000美元。
主动学习将这个数字减少75%。模型建议标签,专家确认或纠正,而不是从头标注每个样本。专家审查10,000个条目而不是标注10,000个条目——这是一个根本不同的任务,耗时只需一小部分。
问题在于传统的主动学习流水线在建议步骤中将数据发送到云托管模型。对于处理敏感文档的企业——法律合同、患者记录、财务报告、机密材料——这造成了数据外泄问题。文档离开了组织的基础设施,即使只是为了获取标签建议。
解决方案:在本地运行建议模型。Ollama、vLLM或任何本地推理服务器在本地托管模型。主动学习循环完全在组织的网络内运行。零数据外泄。完全的效率提升。
主动学习如何工作
概念很简单。主动学习是模型和人工标注者之间的反馈循环,旨在从每个人工决策中最大化获取的信息。
步骤1:从一个小的已标注数据集开始。50-200个样本,由领域专家手动标注。这是种子集。
步骤2:在种子集上训练初始模型。它不会很准确——如此少的数据下50-65%是典型的。没关系。准确率还不是目标,置信度校准才是。
步骤3:模型为所有未标注数据预测标签。对于每个预测,它还输出置信度分数——它对标签的确定程度。
步骤4:将预测呈现给领域专家,按不确定性排序(置信度最低的优先)。专家看到文档、建议的标签和置信度分数。他们要么批准建议,要么纠正它。
步骤5:将新标注的样本(批准和纠正的)添加到训练集中。
步骤6:在扩展的训练集上重新训练模型。
步骤7:从步骤3重复。
每个循环,模型都变得更好。经过3-4个循环,建议准确率通常达到85-92%,意味着专家只需单击即可批准85-92%的标签,只需要仔细思考剩余的8-15%。
为什么不确定性采样很重要
主动学习的关键洞察是,并非所有样本同等具有信息量。模型从最不确定的样本中学到最多——决策边界附近的样本、边界情况、模糊的文档。
考虑一个文档分类任务,类别包括"合同「、」发票「、」法律意见「和」函件"。在第一个训练循环后,模型可能对发票是发票有95%的置信度。标注那张发票几乎教不了模型任何东西——它已经知道了。
但一个模型评分为52%"法律意见「和48%」 函件"的文档是真正模糊的。当专家标注它时,模型精确地学到了这两个类别之间的边界在哪里。
不确定性采样通过始终先呈现最不确定的样本来利用这一点。专家的时间花在最难的案例上——对模型改进最重要的案例——而不是模型已经解决的简单案例。
效率提升是巨大的。随机采样(以任意顺序标注样本)需要大约4倍的标注样本才能达到与不确定性采样相同的模型准确率。换言之,不确定性采样以75%更少的专家时间达到相同的准确率。
本地主动学习循环
以下是在无数据外泄情况下运行主动学习的完整技术设置。
基础设施
- 推理服务器:Ollama运行一个有能力的分类模型。对于文本分类任务,Llama 3.3 8B或Qwen 2.5 7B效果很好。这些模型在单个16GB以上显存的GPU上运行。
- 训练服务器:一台带GPU的机器用于微调。如果在不同时间安排推理和训练,同一台机器可以兼用。
- 标注界面:领域专家审查建议的Web应用。可以简单到一个带批准/纠正按钮的电子表格,或本地运行的Label Studio等专用工具。
- 编排:协调循环的脚本——运行推理、按不确定性排序、呈现给标注者、收集决策、触发重新训练。
循环1:种子集
领域专家手动标注100-200个样本。选择这些样本以覆盖所有类别的完整范围——每个类别至少10个样本,模糊类别更多。在这里花时间确保质量。这些标签会传播到每个后续循环。
时间估算:200个样本需要4-8小时的专家时间。
循环2:首次主动学习
在200个种子样本上微调本地模型。在单个A100上,7B参数模型需要15-30分钟。
对所有未标注数据运行推理。对于10,000份文档,单GPU推理需要2-4小时。
按置信度排序预测。将底部200个(置信度最低的)呈现给专家。专家审查每一个:批准建议的标签或纠正它。在这个阶段,预计50-65%的建议是正确的——专家在做 真正的工作。
时间估算:200次审查需要3-5小时(比原始标注快,因为专家是评估而不是从头决定)。
循环3:第二轮
在扩展的数据集(现在400个标注样本)上重新训练。对剩余未标注数据运行推理。呈现下一个最不确定的300个样本。
在这个阶段,准确率跳升。模型已经看到了循环2中专家的纠正并从中学习。预计70-80%的建议是正确的。专家移动更快——大多数审查是快速"批准"。
时间估算:300次审查需要3-4小时。
循环4:第三轮
在700个标注样本上重新训练。呈现500个不确定样本。准确率:80-88%。专家时间:500次审查需要3-4小时(因为大部分是批准)。
循环5:最终轮
在1,200个样本上重新训练。呈现剩余的不确定样本(通常500-1,000个)。准确率:85-92%。 专家时间:3-5小时。
在这个循环之后,自动批准所有模型置信度超过95%的预测。对于10,000份文档的数据集,这通常覆盖6,000-7,000份专家永远不需要看的文档。
总专家时间
无主动学习:约400小时(标注10,000份文档,每小时约25份)。
有主动学习:4-5个循环约20-25小时,加上种子集的8小时。总计约30小时。
这是92%的专家时间减少。即使使用保守的75%基准,节省也是变革性的。
领域专家工作流
领域专家不应该需要接触终端、编写代码或理解机器学习。他们的界面应该显示:
- 文档(或相关摘录)
- 建议的标签
- 模型的置信度分数
- "批准"按钮和选择不同标签的下拉菜单
就这些。没有Python笔记本。没有命令行参数。没有JSON编辑。
专家的工作是领域判断:"这个标签正确 吗?"他们带来专业知识,系统带来效率。
对于使用Ertas Data Suite的团队,这个界面是内置的。主动学习循环自动运行——系统训练模型、按不确定性排序、呈现标注队列。专家只需打开应用并开始审查。
质量指标
两个指标告诉你主动学习循环是否有效。
标注者间一致性
如果多个专家审查相同数据,测量他们多久达成一致。Cohen的kappa高于0.8是强一致性。0.6到0.8之间,有模糊类别需要更清晰的定义。低于0.6,标注指南需要在继续之前进行全面修订。
即使只有一个标注者,你也可以通过重新呈现5%已标注样本(随机混入队列)并检查专家是否给出相同标签来测量一致性。低于90%的一致性表明疲劳或指南不明确。
模型置信度校准
模型的置信度分数应该是校准的— —当它说90%置信度时,应该90%的时间是正确的。如果模型说90%但只有70%的时间正确,不确定性采样不能正确工作,因为模型不知道它不知道什么。
在每个重训练循环后检查校准。在区间(0-10%、10-20%等)中绘制预测置信度与实际准确率。校准良好的模型显示对角线。过度自信的模型显示高预测置信度但低实际准确率。如果模型系统性地过度自信,考虑在训练中使用温度缩放或标签平滑。
何时停止
主动学习有递减回报。每个循环添加的新信息更少,因为剩余的未标注样本与模型已经看过的越来越相似。
当满足以下任何条件时停止:
- 模型准确率趋于平稳:连续两个循环显示准确率提升不到1%。模型已经从这些数据中学到了它能学到的。
- 专家工作量超过价值:当专家批准95%以上的建议时,剩余的纠正是边界情况,可能不值得专家的时间。
- 覆盖度足够:你有覆盖所有类别、所有边界情况和所有已知模糊性的标注样本。额外标签增加的是数量而不是多样性。
对于大多数企业分类任务,3-4个主动学习循环就足够了。第五个循环很少产生有意义的改进。
处理边界情况
主动学习自然地浮现边界情况——它们是呈现给专家的高不确定性样本。这是它被低估的优势之一。
没有主动学习,边界情况隐藏在未标注数据中。模型在生产中遇到它们,误分类,用户报告错误。有了主动学习,模型在准备阶段识别这些情况,专家在部署前解决它们。
记录边界情况决策。当专家标注一份模糊文档时,记录推理过程。"这份文档同时包含发票元素和合同语言。标注为'合同'因为约束性条款优先。"这些笔记成为未来标注者和模型迭代可以依靠的机构知识。
经济效益
对于每年处理50,000份文档、涉及3个分类任务的企业:
无主动学习:3个任务 x 50,000份文档 x 每个标签2分钟 = 5,000小时专家时间。按每小时120美元 = 每年600,000美元。
有主动学习:3个任务 x 每个任务约30小时 = 约90小时专家时间。按每小时120美元 = 每年10,800美元。加上约5,000美元/年的本地GPU时间基础设施成本。
总节省:约每年584,000美元。基础设施在第一周就能收回成本。
这些数字可以扩展。更大的文档量增加了节省,因为主动学习效率保持不变——模型仍然从固定数量的专家审查样本中学习,无论自动批准池中有多少文档。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
延伸阅读
- Domain Experts Should Own Data Labeling — 为什么领域专业知识比标注速度更重要,以及如何构建专家工作流。
- Optimize Local LLM Inference for Data Labeling — 在本地硬件上高效运行推理用于标注流水线的技术指南。
- Local LLM Data Labeling Without Egress — 将标注工作流完全保持在本地的更广泛案例。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.