面向医疗团队的无代码数据标注

一个临床 NLP 模型需要判断放射学报告是否表明需要随访的发现。ML 工程师读到"已知左下肺叶结节大小间隔缩小，现测量 4mm，之前 6mm「，可能标注为」异常发现——需要随访「。放射科医生读同样的句子则标注为」改善发现——仅需常规监测"。这两个标签之间的差异可能决定患者是否接受不必要的活检转诊。

这不是假设性的。这是医疗 AI 开发的日常现实，其中临床细微差别是有用模型和危险模型之间的区别。

为什么临床数据标注不同

医疗数据不像电商评论或客户支持工单。它有三个特征使其标注特别具有挑战性：

临床术语依赖上下文。 同一个词在不同临床语境中含义不同。"阳性「在妊娠检测中与 HIV 检测中完全不同。」无异常"是一个强有力的陈述——意味着放射科医生已查看并未发现异常。

临床重要性需要培训。 判断实验室值是否具有临床重要性需要理解正常范围、患者病史、药物影响和临床上下文。

错误有患者安全影响。 临床决策支持模型中的错误标注训练示例可能产生伤害患者的建议。

美国医学信息学协会期刊的研究显示，使用临床医生标注数据训练的临床 NLP 模型在临床实体提取任务上比使用非临床标注者标注数据训练的模型 F1 分数高 12-18%。

大多数标注平台是基于云的。对于医疗数据，这造成了从困难到不可能的 HIPAA 合规问题。

受保护健康信息（PHI）不能随意上传。 HIPAA 要求与处理 PHI 的任何实体签订 BAA。不是所有标注平台都提供 BAA。提供的通常收取 $50,000-150,000 的年费。

脱敏不是完整的解决方案。 自动脱敏工具达到 95-98% 的召回率——意味着 2-5% 的 PHI 元素残留。

机构审查增加数月。 即使有 BAA，大多数卫生系统需要安全审查、隐私影响评估，通常还需要 IRB 审查。这些审查需要 2-6 个月。

在现有工作站上运行。 不需要额外的基础设施。

无技术设置。 如果工具需要 pip install 或 Docker，它不会被使用。需要在 8-12 分钟的患者间隔中安装和启动。

界面中使用临床词汇。 标注 schema 应使用临床术语。"发现「而非」实体「。」临床重要性「而非」标签置信度"。

完全数据本地化。 PHI 留在本地机器。无云上传，无外部 API 调用。

ML 团队可用的输出。 导出 JSONL、CSV 或框架特定格式。

实际挑战是将标注融入临床工作流。临床医生不会为标注安排 4 小时的时段。工具需要支持 15-30 分钟短会话的标注。

一个 8 名放射科医生的科室每天标注 20 分钟，可以每周产出 800-1,200 个标注报告。5,000 个示例的训练数据集——足够构建强大的临床 NLP 模型——在 4-6 周内完成，不会干扰临床运营。

原生桌面应用以云平台和自托管工具无法做到的方式解决了医疗标注问题。

HIPAA 合规变得简单。数据永远不会离开临床医生的工作站。合规对话从"如何在外部平台上保护传输中和静止的数据「变为」数据留在原来的地方"。

IT 参与降至零。应用像 Microsoft Word 一样安装。

Ertas Data Suite 采用这种方法。临床医生在工作站上安装，指向本地临床数据，通过可视界面零代码标注。PHI 永远不离开机器。标签以标准 ML 格式导出。

临床 AI 值得临床标签。工具应该使之成为可能，而不是阻止它。