
你的 ML 工程师不应该做这件事
最适合标注 AI 训练数据的人是领域专家——医生、律师、工程师、分析师。工具使这几乎不可能。结果:ML 工程师在做他们不是最佳人选的工作。
以下是我们经常遇到的情况:一家医疗组织的 ML 工程师每周花两到三天标注临床笔记。不是因为他们喜欢,不是因为他们特别合格,而是因为合格的医生无法弄清如何操作标注工具。
这不是关于困难的医生或急躁的工程师的故事。这是关于为 ML 工程师设计、从未认真为其他人重新考虑的工具的故事。
核心问题
标注质量取决于领域专业知识。具有领域专业知识的人不是能操作标注工具的人。这创造了一个结构性问题:工具到了错误的人手中,因为他们是唯一能操作的人。
后果是双重的。首先,标注质量比领域专家来做要低。其次,ML 工程时间被标注任务消耗。
领域专家实际面对的
Label Studio 需要 Docker 部署。Prodigy 需要 Python。Cleanlab 是 Python 库。对于每个场景——临床笔记、BOQ 标注、合同审查——工具都成为瓶颈。
ML 工程师代为标注时会发生什么
没有领域专业知识的 ML 工程师在领域特定任务上产生系统性更低质量的标注。标签准确率 85% 的数据集产生只学到 85% 底层信号的模型。由领域专家以 95% 准确率标注的相同数据集产生可衡量更好的模型。
领域专家可访问的工具实际意味着什么
标准应该是:领域专家可以在 15 分钟内安装软件、打开它并开始标注,无需终端、Docker、Python 环境或阅读配置指南。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相关阅读
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

Why Domain Experts — Not ML Engineers — Should Own Data Labeling
The biggest quality bottleneck in enterprise AI isn't the tools — it's that the people with actual domain knowledge are locked out of the labeling process. Here's why that needs to change.

Tool Entropy: Why Enterprise AI Data Pipelines Keep Growing More Complex
Enterprise AI teams start with 2-3 tools and end up with 7. This isn't bad planning — it's a predictable pattern. Understanding tool entropy is the first step to breaking it.

RAG Pipeline for Non-ML Engineers: How Domain Experts Build Retrieval Systems
The people closest to the data — doctors, lawyers, engineers, analysts — are locked out of building RAG pipelines because the tooling requires Python expertise. A visual pipeline builder changes who can participate.