面向法律团队的无代码数据标注

一位 ML 工程师正在为法律 AI 模型标注合同条款。他们遇到一个赔偿条款，其中包含对故意不当行为的双方排除和与 12 个月费用挂钩的上限。这是"标准「、」有利「还是」不利"？

ML 工程师猜测"标准"。商事诉讼律师会认识到这对赔偿方有利——故意不当行为的排除范围很窄，基于费用的上限通常比无上限赔偿更具保护性。这些标签之间的差异决定了模型是学会标记此条款进行谈判还是直接通过。

法律 AI 只和嵌入其训练数据中的法律判断一样好。而这种判断不能来自 ML 工程师。

为什么法律标注需要律师

法律文件不只是文本。它们是具有特定法律效力的工具，取决于管辖权、准据法、当事人、上下文以及法院如何解释类似语言。

合同语言故意模糊。 律师使用建设性模糊起草条款。

分类取决于视角。 同一条款对一方"有利「而对另一方」不利"。

法律重要性与文本长度不成正比。 两个词——"包括但不限于"——具有重大法律效力。

Stanford CodeX 实验室 2025 年的研究发现，使用律师标注数据训练的合同审查模型与高级律师判断的一致率为 89%，而使用非法律标注者标注数据训练的模型一致率为 54%。

律师-客户特权和工作成果原则创造了大多数标注平台无法满足的硬约束。

特权可因披露而放弃。 当特权文件上传到云标注平台时，存在特权放弃的风险。

工作成果原则有类似约束。 在诉讼预期中准备的文件是受保护的工作成果。

职业责任义务加剧问题。 ABA 示范规则 1.6 要求"合理努力"防止未授权披露。

利益冲突检查变得不可能。 大型律所为竞争客户处理事务。如果客户 A 和客户 B 的合同数据上传到同一标注平台，存在交叉污染风险。

律所没有 DevOps 团队。 大多数律所 IT 部门管理桌面、邮件和文档管理系统。他们不运行容器化应用。

安全审查密集。 任何接触客户数据的新应用都需要信息安全团队审查。

成本不成比例。 对于需要标注 5,000-10,000 个示例的律所，自托管标注平台的基础设施成本和 IT 人力可超过 $30,000-50,000。

桌面原生运行。 文件留在本地存储。特权通过架构保护，而非策略。

无技术前提。 律师不应需要安装 Python 或运行终端命令。

法律工作流集成。 律师使用 PDF、DOCX 和文本格式。

可配置的分类体系。 法律分类 schema 因执业领域而异。

审计追踪。 每个标签归属于应用它的律师，附时间戳和日志。

中级助理律师每小时可审查和标注 40-60 个合同条款。按 $400-600/小时的计费费率，每个标注示例的成本为 $7-15。

ML 工程师标注同样的条款每小时管理 15-25 个。但当考虑到在约 40% 使用非律师标注法律数据的项目中需要在更正标签上重训模型的成本时，律师标注方案总体更便宜且第一次就能产生更好的模型。

Ertas Data Suite 直接满足这些约束。律师在工作站上安装原生桌面应用。文件留在本地存储。标注界面是可视化的——无代码、无命令行。标注 schema 通过点击配置。导出产生 ML 团队直接消费的标准格式。

特权通过架构保护——数据永远不离开律师的机器。IT 审查简单，因为没有服务器组件、没有网络监听器、没有数据库需要保护。

法律 AI 需要训练数据中的法律判断。工具应该使这种判断可及，而不是将其锁在技术障碍后面。