
标注瓶颈:当组织中只有3个人能标注数据时
大多数企业只有2-3名ML工程师能操作标注工具。与此同时,数十名领域专家拥有高质量标注所需的知识却无法参与。这个瓶颈正在拖垮AI项目进度。
以下是几乎每个企业AI项目都会出现的场景。ML团队需要10,000个标注样本。组织中有40名具备领域专业知识的人可以准确标注。但标注工具需要Python、Docker或云平台访问权限。因此,实际的标注工作落在了2-3名ML工程师身上,他们需要解读自己并不具备的领域知识。
40名领域专家有知识。3名ML工程师有工具访问权限。项目花了4个月,而不是3周。
这就是标注瓶颈,也是企业AI项目错过截止日期、超出预算和产出令人失望的结果的最被低估的原因之一。
瓶颈是如何形成的
标注瓶颈不是关于努力或意愿的问题。它是关于工具可及性的问题。以下是它通常的发展方式:
阶段1:工具选择。 ML团队评估标注平台。他们根据功能、API质量、模型集成和导出格式来选择。非技术用户的可用性是次要考虑因素——如果有考虑的话。
阶段2:设置。 选定的工具需要云部署或自托管。云部署意味着将潜在敏感的企业数据上传到第三方服务器。自托管意味着Docker、反向代理、认证系统和持续维护。无论哪种方式,ML团队都拥有基础设施。
阶段3:入职尝试。 团队尝试让领域专家使用。这需要创建账户、解释界面、配置权限,通常还需要编写自定义脚本来加载特定领域的数据格式。经过2-3次培训后,采用停滞了。领域专家有自己的工作要做。学习新的技术工具不在他们的工作流程中。
阶段4:ML团队标注。 截止日期临近。ML工程师开始自己标注数据,当遇到模糊样本时,通过Slack、电子邮件或预约会议咨询领域专家。标注工作量现在与他们的工程职责竞争。
这就是瓶颈。它有三个复合效应。
效应1:传话游戏
当ML工程师遇到模糊样本时,他们会向领域专家寻求指导。这创造了一个在每一步都降低信息质量的沟通链。
以保险理赔处理项目为例。ML工程师看到一份理赔描述,需要对损害类型进行分类。他们给承保人发消息:"这是水损害还是结构损害?「承保人回复:」这是导致结构损害的水损害——你通常根据近因来分类,近因是水,但如果结构损害超过总理赔价值的40%,一些承运商会重新分类。"
ML工程师现在必须将这种细微的领域逻辑转化为一个标签。他们选择"水损害"然后继续。细微之处——40%的阈值、因承运商而异的差异——丢失了。
这就是传话游戏效应。领域知识通过无法承载其全部复杂性的沟通渠道被压缩。在数千个样本中,这些压缩累积成系统性的标注错误。
根据我们与企业团队合作的经验,传话游戏标注与领域专家直接标注相比,会引入5-12%的额外标签错误。在10,000个样本的数据集上,这意味着500-1,200个样本的标签质量下降——足以明显降低模型性能。
效应2:吞吐量崩溃
数学很简单。如果你的组织有3名能操作标注工具的ML工程师,每人每天在处理工程工作的同时大约能标注200个样本,你的最大吞吐量是每天600个标注样本。
如果你需要10,000个标注样本,那大约是17个工作日——超过3个日历周——假设ML工程师什么都不做。
实际上,他们还在构建管道、训练模型、调试基础设施和参加会议。实际吞吐量更接近每位工程师每天50-100个标注样本。按照这个速度,10,000个样本需要5-10周。
现在考虑替代方案。如果20名领域专家每人每天能标注100个样本——这很保守,因为当你理解领域时标注会更快——同样的数据集在5个工作日内完成。
吞吐量差异不是渐进式的。它是数量级的差异。而且它级联影响整个项目时间线。每次模型迭代、每次模式修订、每次数据刷新都要等待同样的3个人。
效应3:时间线崩溃
企业AI项目通常遵循一个周期:标注数据、训练模型、评估、识别差距、标注更多数据、重新训练。每个周期理想情况下需要1-2 周。大多数项目需要3-5个周期才能达到生产质量。
有了标注瓶颈,每个周期延长到4-8周。一个应该花3-4个月的项目花了9-12个月。在这些额外的月份里,需求变化、利益相关者失去信心、预算受到质疑,竞争优先级吸走了ML团队的注意力。
我们在2025年跟踪了15个企业AI项目的时间线。有标注瓶颈的项目——即不到5个人能操作标注工具——从启动到生产部署平均需要11.2个月。领域专家可以直接标注的项目平均需要4.8个月。相同类型的项目、相似的数据量、可比的模型架构。
6个月的差异几乎完全归因于标注吞吐量和迭代速度。
为什么这个瓶颈是不可见的
标注瓶颈很少出现在项目计划或复盘中。原因如下:
它看起来像一个工程问题。 当项目落后于计划时,可见的症状是"模型不够准确「或」我们需要更多训练数据"。根本原因——标注吞吐量受到工具可及性的限制——隐藏在这些症状背后。
没有人跟踪标注速度。 大多数团队跟踪模型准确性、训练时间和推理延迟。几乎没有人测量每天标注的样本数或每个样本的标注时间。没有这些指标,瓶颈是不可见 的。
ML团队吸收了成本。 ML工程师通常不会将"我每周60%的时间都在标注数据"作为项目风险上报。他们认为这是工作的一部分。组织成本——高级工程师在做领域专家可以做得更好更快的工作——未被认识到。
打破瓶颈
解决方案不是雇用更多ML工程师。也不是购买更昂贵的标注平台。而是消除阻止领域专家直接标注的技术障碍。
这需要一组特定的能力:
零基础设施部署。 标注工具必须在不需要IT参与、Docker或云配置的情况下安装和运行。如果它需要向基础设施团队提交工单,采用就会停滞。
本地数据处理。 企业数据是敏感的。医疗记录、法律文件、财务数据、工程规格。工具必须处理用户机器上的文件,数据不离开组织的边界。
可视化模式定义。 领域专家应该通过可视化界面定义标签的样子——类别、层次结构、关系——而不是JSON配置文件。
标准导出格式。 输出必须与现有ML管道集成,无需自定义转换脚本。
Ertas Data Suite旨在消除标注瓶颈。它是一个原生桌面应用,领域专家可以像安装任何其他软件一样安装和运行。没有Docker,没有云上传,没有Python要求。领域专家指向本地数据,可视化配置标注模式,然后开始生产标注数据集。
结果:不再是3名ML工程师标注他们不完全理解的数据,而是30名领域专家标注他们每天接触的数据。瓶颈消失了。花11个月的项目只需5个月。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Your RAG Pipeline Fails Silently — And How to Make It Observable
Most RAG pipelines are invisible glue code. When retrieval quality drops, there is no logging, no node-level metrics, and no way to trace which document caused the bad answer. Here is how to build observable RAG infrastructure.

Best HIPAA-Compliant RAG Pipeline for Healthcare: On-Premise Document Retrieval Without Data Egress
Healthcare organizations need RAG for clinical AI — but cloud-based retrieval pipelines violate HIPAA when they process PHI. Here is how to build a compliant RAG pipeline that runs entirely on your infrastructure.

How to Deploy a RAG Pipeline as an API Endpoint Your AI Agent Can Call
Most RAG tutorials stop at the vector store. Production AI agents need a callable retrieval endpoint with tool-calling specs. Here is how to build and deploy RAG as modular infrastructure, not embedded code.