Back to blog
    你的 ML 工程师不应该做这件事
    data-labelingdomain-expertsenterprise-aithought-leadershipmlopssegment:enterprise

    你的 ML 工程师不应该做这件事

    最适合标注 AI 训练数据的人是领域专家——医生、律师、工程师、分析师。工具使这几乎不可能。结果:ML 工程师在做他们不是最佳人选的工作。

    EErtas Team·

    以下是我们经常遇到的情况:一家医疗组织的 ML 工程师每周花两到三天标注临床笔记。不是因为他们喜欢,不是因为他们特别合格,而是因为合格的医生无法弄清如何操作标注工具。

    这不是关于困难的医生或急躁的工程师的故事。这是关于为 ML 工程师设计、从未认真为其他人重新考虑的工具的故事。

    核心问题

    标注质量取决于领域专业知识。具有领域专业知识的人不是能操作标注工具的人。这创造了一个结构性问题:工具到了错误的人手中,因为他们是唯一能操作的人。

    后果是双重的。首先,标注质量比领域专家来做要低。其次,ML 工程时间被标注任务消耗。

    领域专家实际面对的

    Label Studio 需要 Docker 部署。Prodigy 需要 Python。Cleanlab 是 Python 库。对于每个场景——临床笔记、BOQ 标注、合同审查——工具都成为瓶颈。

    ML 工程师代为标注时会发生什么

    没有领域专业知识的 ML 工程师在领域特定任务上产生系统性更低质量的标注。标签准确率 85% 的数据集产生只学到 85% 底层信号的模型。由领域专家以 95% 准确率标注的相同数据集产生可衡量更好的模型。

    领域专家可访问的工具实际意味着什么

    标准应该是:领域专家可以在 15 分钟内安装软件、打开它并开始标注,无需终端、Docker、Python 环境或阅读配置指南。


    Your data is the bottleneck — not your models.

    Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

    相关阅读

    Turn unstructured data into AI-ready datasets — without it leaving the building.

    On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.

    Keep reading