
律師事務所如何在不分享特權文件的情況下構建 AI 模型
法律 AI 需要在特權文件上訓練——但律師-客戶特權和工作成果原則禁止在外部分享這些文件。以下是律師事務所如何構建留在建築物內部的 AI。
最好的法律 AI 是在真實特權文件上訓練的。問題在於,在特權文件上訓練需要處理這些文件——而通過任何外部系統處理它們可能會摧毀使它們具有價值的特權本身。
這不是理論上的擔憂。這是法律 AI 的核心張力,也解釋了為什麼律師事務所採用 AI 的速度比類似的專業服務行業更慢。那些能產生最佳 AI 的文件恰恰是那些不能離開建築物的文件。
律師-客戶特權和工作成果原則的要求
律師-客戶特權保護律師與客戶之間為獲取或提供法律建議而進行的保密通信。工作成果原則保護律師為預期訴訟或審判而準備的材料。
兩種保護都可能被放棄——這是 AI 的關鍵問題。特權通常在受保護的通信在沒有共同法律利益的情況下披露給第三方時被放棄。將特權文件發送給 AI 供應商是否構成放棄,法律上尚未完全確定,但風險是真實存在的,法律倫理學者的共識是謹慎的。
2023 年,美國律師協會正式意見 512 解決了生成式 AI 工具的使用問題,指出律師必須採取有能力且合理的措施保護保密客戶信息,並必須了解 AI 供應商如何處理提交給他們的資料。幾個州律師協會的倫理意見也跟進了類似的指導。
從實際角度看,律師事務所風險管理團隊應用一個簡單規則:如果文件具有特權,它不會為任何目的——包括 AI 訓練資料準備——離開律師事務所的系統,除非客戶明確同意。對歷史文件檔案——尤其是已結案事項——獲得這種同意通常是不可行的。
結果是:任何法律文件的 AI 訓練管道都必須在律師事務所自己的基礎設施內運行,沒有資料流向外部系統。
律師事務所實際上需要 AI 做什麼
AI 對律師事務所的價值主張已被充分理解,但值得具體說明需要在內部資料上訓練的使用案例。
合約審查和條款提取。 在律師事務所自己談判的合約上訓練的模型——以及被接受、拒絕或修改的更改——學習了律師事務所對每種條款類型的談判立場和風險容忍度。這與在公開合約上訓練的通用法律 AI 在本質上不同。律師事務所的客戶往往在特定行業、與特定對手方、在特定管轄法律下進行交易。在律師事務所自身工作上訓練的模型反映了這些具體特點。
事項分類。 按事項類型、問題領域和優先級對傳入的文件、電子郵件和申請進行分類——在律師事務所自己的事項歷史上訓練。在公開法律文字上訓練的通用分類器,在律師事務所特定事項組合上的表現將劣於在律師事務所自身文件上訓練的分類器。
跨事項的文件搜索。 對律師事務所完整文件檔案的語義搜索——找到與當前事項相關的先例、類似事實模式和先前研究。這需要嵌入律師事務所自己的文件,而這需要一個在不匯出文件的情況下處理這些文件的管道。
盡職調查加速。 從交易文件中提取關鍵資料點(管轄法律、定義術語、終止條款、陳述和保證)以加速盡職調查審查。在律師事務所自身交易文件上以律師事務所自身提取模式微調的模型,優於通用提取模型。
所有這些使用案例都需要在律師事務所自己的文件檔案上訓練或索引。沒有一個可以由通用法律 AI 產品提供服務。而且所有這些都需要文件處理在律師事務所的系統內部進行。
法律 AI 資料準備管道
法律 AI 資料準備管道在每個階段都必須解決特權問題。
第一階段:特權分類。 在任何文件為 AI 目的被處理之前,必須按特權狀態進行分類。大多數大型律師事務所的文件管理系統(iManage、NetDocuments、Autonomy/OpenText)有大致對應於特權級別的訪問控制。但訪問控制不等於特權分類——文件可能被限制在事項團隊範圍內而不具有特權,而特權文件可能已被分享到事項團隊以外。
對於 AI 訓練目的,保守的方法將以下任何文件分類為特權:律師-客戶通信、工作成果、標記為特權的文件,或在帶有特權標識的事項文件夾中的文件。業務記錄、公開歸檔的文件,以及非特權通信的與第三方的往來信件,則單獨處理,可以較少限制地對待。
第二階段:文件攝入。 批准的文件在本地基礎設施上攝入和處理。PDF 被轉換為帶有佈局保留的文字;Word 文件帶有元數據提取進行處理;電子郵件鏈帶有線程結構維護進行解析。所有處理在本地運行。沒有文件被傳輸到外部服務。
第三階段:條款分段。 對於合約審查應用程式,文件必須分割成條款級單元。合約不是有用的訓練資料單元——條款才是。分段使用結構線索(標題層次、編號模式、章節格式)和語義線索(條款類型模型)的組合來識別不同條款之間的邊界。
法律 AI 的良好條款分段比看起來更難。合約起草慣例因司法管轄區、交易類型和起草傳統而異。在槓桿融資文件中延伸兩頁的條款,在簡單的服務協議中可能是一個句子。分段模型必須在這些格式之間進行泛化。
第四階段:條款標注。 分段的條款由律師和律師助理標注條款類型、適用協議類別和風險分類。這是需要領域專家參與的步驟——介面必須在無需技術知識的情況下可操作。
合約審查的標注任務相對明確:用條款類型(責任限制、賠償、控制權變更、保密等)標記每個條款段,可選地附上風險級別(標準、談判、升級)。具有合約審查經驗的律師無需超出標注指南的指導就能完成這項工作。
第五階段:JSONL 匯出。 已標注的條款資料以 JSONL 格式匯出用於微調:
{"text": "Neither party shall be liable for indirect, incidental, consequential, or punitive damages arising from this agreement...", "clause_type": "limitation_of_liability", "risk_level": "standard", "governing_law": "Delaware", "agreement_type": "SaaS"}
這種格式訓練條款分類模型。相同的資料結構,帶有不同的標籤欄位,訓練風險分類模型。
誰標注法律訓練資料
誘人的做法是讓文件審查律師——最初級的律師——進行標注。這是錯誤的方式,有兩個原因。
第一,訓練資料品質取決於標注者的一致性,而非只是準確性。初級律師被培訓為升級判斷調用,而非在沒有指導的情況下應用一致的標籤。他們會對類似的條款應用不同的條款類型標籤,基於不影響條款法律功能的起草變體。
第二,標注指南是法律產品。為條款分類編寫良好的標注指南需要理解律師事務所的業務組如何看待條款類型和風險級別——這需要高級輸入。由文件審查律師在沒有合夥人級別對標注模式的指導下運行的標注項目,將產生不反映律師事務所實際專業知識的訓練資料。
正確的模型:高級律師或合夥人設計標注模式和指南。律師助理和初級律師應用標籤。對標注的 10-15% 樣本進行抽查高級審查。
競爭護城河
首先解決這個問題的律師事務所將擁有結構性優勢。在律師事務所自身業務的 500 份完整標注事項上訓練的合約審查模型,不是商品化產品。它反映了律師事務所的特定行業重點、其客戶的風險容忍度、其與頻繁對手方的談判歷史,以及其司法管轄區偏好。使用通用法律 AI 產品的競爭對手沒有這些。
複製的障礙不是模型——而是已標注的訓練資料。從歷史檔案生成 200-500 份已標注的合約,同時保留特權,是一個需要大量律師時間的數月項目。一旦完成,它就會複利增長:每個新事項都添加到訓練集,模型持續改進。
現在正在構建這個的律師事務所是悄悄地做的。等到這件事的重要性變得顯而易見時,先行者將在訓練資料集上擁有兩年的先發優勢。
Your data is the bottleneck — not your models.
Ertas Data Suite turns unstructured enterprise files into AI-ready datasets — on-premise, air-gapped, with full audit trail. One platform replaces 3–7 tools.
相關閱讀
- 合約條款提取:法律 AI 的資料準備指南 — 條款級標注的技術管道
- 本地 AI 資料準備與合規 — 為何氣隙資料準備對受監管行業至關重要
- 企業 AI 稽核追蹤缺口 — 為何文件記錄和稽核日誌對法律和監管合規很重要
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

On-Premise AI Agents for Legal: Privileged Document Workflows Without Data Egress
Attorney-client privilege can be waived by sending documents to cloud AI services. This guide covers four on-premise AI agent use cases for law firms and legal departments, the privilege and ethics requirements, architecture, and ROI math.

Best RAG Pipeline for Legal Documents: Privilege-Safe Retrieval With Full Audit Trail
Law firms and legal departments need document retrieval AI — but privileged documents cannot leave the building, and every access must be logged. Here is how to build a RAG pipeline that meets legal compliance requirements.

The Real Cost of Cloud Data Prep in Regulated Industries (2026)
Cloud data prep tools require compliance approvals that cost $50K–$150K and take 6–18 months. On-premise alternatives eliminate these costs entirely. Here's the TCO comparison regulated industries need.