律所如何在不共享特权文件的情况下构建AI模型

最好的法律AI是在真实的特权文件上训练的。问题是，在特权文件上训练需要对这些文件进行处理——而通过任何外部系统处理它们可能会破坏使其有价值的特权本身。

这不是理论上的担忧。这是法律AI的核心矛盾，也解释了为什么律所在采用AI方面比类似的专业服务行业更慢。能产生最佳AI的文件恰恰是不能离开大楼的文件。

律师-客户特权和工作成果保护原则的要求

律师-客户特权保护律师与客户之间为获取或提供法律建议而进行的保密通信。工作成果保护原则保护律师为预期诉讼或审判准备的材料。

两种保护都可以被放弃——这是AI的关键问题。特权通常在受保护的通信未经共同法律利益而被披露给第三方时被放弃。将特权文件发送给AI供应商是否构成放弃这一问题在法律上尚未完全确定，但风险是真实的，法律伦理学者的共识是谨慎的。

2023年，ABA正式意见512涉及生成式AI工具的使用，指出律师必须采取称职和合理的措施来保护客户的保密信息，并必须了解AI提供商如何处理提交给他们的数据。多个州律师伦理意见也发布了类似指导。

出于实际目的，律所风险管理团队适用一条简单规则：如果文件具有特权，则不得离开律所系统用于任何目的，包括AI训练数据准备，除非客户明确同意。对于历史文件档案——特别是已结案事项——获得该同意通常是不可行的。

结果是：任何法律文件的AI训练管道都必须在律所自己的基础设施内运行，没有数据外泄到外部系统。

律所真正需要AI做什么

AI对律所的价值主张已被充分理解，但值得具体说明需要在内部数据上训练的用例。

合同审查和条款提取。 在律所自身已协商合同上训练的模型——包括哪些修改被接受、拒绝或修改——学习了律所针对每种条款类型的谈判立场和风险容忍度。这与在公开合同上训练的通用法律AI有质的不同。律所的客户倾向于在特定行业、与特定对手方、在特定适用法律下交易。在律所自身工作上训练的模型反映了这些具体情况。

事项分类。 按事项类型、问题领域和优先级对收到的文件、邮件和文件进行分类——在律所自身的事项历史上训练。在公开法律文本上训练的通用分类器在律所特定事项组合上的表现将不如在律所自身文件上训练的分类器。

跨事项文档搜索。 在律所完整文件档案上进行语义搜索——寻找先例、类似事实模式和与当前事项相关的先前研究。这需要嵌入律所自身的文件，而嵌入需要一个处理这些文件但不导出它们的管道。

尽职调查加速。 从交易文件中提取关键数据点（适用法律、定义术语、终止条款、陈述和保证）以加速尽职调查审查。在律所自身交易文件上使用律所自身提取模式微调的模型优于通用提取模型。

所有这些用例都需要在律所自身文件档案上进行训练或索引。它们都无法由通用法律AI产品服务。所有这些都要求文件处理在律所系统内进行。

法律AI数据准备管道

法律AI数据准备管道必须在每个阶段解决特权问题。

阶段1：特权分类。 在任何文件被用于AI目的之前，必须按特权状态进行分类。大多数大型律所的文件管理系统（iManage、NetDocuments、Autonomy/OpenText）具有大致对应特权级别的访问控制。但访问控制不等于特权分类——文件可能限于事项团队而不具有特权，特权文件也可能已在事项团队之外共享。

对于AI训练目的，保守的方法将以下内容分类为特权：律师-客户通信、工作成果、标记为特权的文件，或具有特权指定的事项文件夹中的文件。商业记录、公开提交的文件和与非特权通信的第三方通信可以单独处理，且可能受到较少限制。

阶段2：文件摄入。 经批准的文件在本地基础设施上被摄入和处理。PDF转换为保留布局的文本；Word文件通过元数据提取处理；邮件链在保持线程结构的情况下被解析。所有处理在本地运行。没有文件传输到外部服务。

阶段3：条款分段。 对于合同审查应用，文件必须分段为条款级别单位。合同不是有用的训练数据单位——条款才是。分段使用结构线索（标题级别、编号模式、章节格式）和语义线索（条款类型模型）的组合来识别不同条款之间的边界。

法律AI的良好条款分段比看起来更难。合同起草惯例因管辖区、交易类型和起草传统而异。杠杆融资文件中一个延续两页的条款在简单服务协议中可能只是一句话。分段模型必须在这些格式之间进行泛化。

阶段4：条款标注。 分段后的条款由律师和律师助理标注条款类型、适用协议类别和风险分类。这是需要领域专家参与的步骤——界面必须在没有技术知识的情况下可操作。

合同审查的标注任务相对明确：为每个条款段标注其类型（责任限制、赔偿、控制权变更、保密等），可选地标注风险级别（标准、需谈判、需升级）。有合同审查经验的律师无需超出标注指南的指导即可完成此操作。

阶段5：JSONL导出。 标注的条款数据以JSONL格式导出用于微调：

{"text": "Neither party shall be liable for indirect, incidental, consequential, or punitive damages arising from this agreement...", "clause_type": "limitation_of_liability", "risk_level": "standard", "governing_law": "Delaware", "agreement_type": "SaaS"}

此格式训练条款分类模型。使用不同标签字段的相同数据结构可训练风险分类模型。

谁来标注法律训练数据

诱惑是让文件审查律师——最初级的律师——来做标注。这种方法出于两个原因是错误的。

首先，训练数据质量取决于标注者的一致性，而不仅仅是准确性。初级律师被训练为对判断性问题进行升级，而不是在没有指导的情况下应用一致的标签。他们会基于不影响条款法律功能的起草变化对类似条款应用不同的条款类型标签。

其次，标注指南是一个法律产品。编写良好的条款分类标注指南需要理解律所的执业小组如何看待条款类型和风险级别——这需要资深人员的输入。由文件审查律师运行、没有合伙人级别对标注模式指导的标注项目将产生不反映律所实际专业知识的训练数据。

正确的模式：资深律师助理或合伙人设计标注模式和指南。律师助理和初级律师应用标签。资深审查在10-15%的标注样本上进行抽查。

竞争壁垒

首先解决这个问题的律所将拥有结构性优势。在律所自身执业中的500份完全标注事项上训练的合同审查模型不是商品化产品。它反映了律所特定的行业重点、客户的风险容忍度、与常见对手方的谈判历史以及司法管辖区偏好。使用通用法律AI产品的竞争对手没有这些。

复制的障碍不是模型——而是标注的训练数据。从历史档案中生成200-500份标注合同、同时保留特权，是一个需要有意义的律师时间的多月项目。一旦完成，它会复合增长：每个新事项都加入训练集，模型持续改进。

正在构建这一能力的律所是悄悄进行的。当这件事的重要性变得明显时，先行者将拥有两年的训练数据领先优势。

Your data is the bottleneck — not your models.

Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.

Book a Discovery Call Learn about Ertas Data Suite →

律所如何在不共享特权文件的情况下构建AI模型

律师-客户特权和工作成果保护原则的要求

律所真正需要AI做什么

法律AI数据准备管道

谁来标注法律训练数据

竞争壁垒

相关阅读

Turn unstructured data into AI-ready datasets — without it leaving the building.

Keep reading

面向法律的本地 AI Agent：无数据外泄的特权文件工作流

受监管行业云数据准备的真实成本（2026）

隐私优先 AI 意味着数据层的隐私——而不仅仅是推理层