法律本地端 AI 助理：特許文件工作流程無需資料外洩

2023 年 10 月，紐約一家律師事務所發現，一名助理使用 ChatGPT 為動議研究案例法。模型產生了三個不存在的案例引用幻覺。法官制裁了事務所。這個故事登上了全國新聞，成為法律 AI 採用的警示案例。

但幻覺問題，雖然真實，並不是雲端 AI 在法律實踐中最危險的風險。最危險的風險是特許權放棄——而它受到的關注遠遠不够。

律師-客戶特許權是法律職業與客戶信任關係的基礎。它保護律師與客戶之間的通信免於披露。但特許權很脆弱。它可以——永久地——通過自願向第三方披露而被放棄。

當律師將特許的客戶通信粘貼到雲端 AI 服務中時，這就是對第三方的披露。AI 供應商的服務條款、資料處理協議和隱私政策在特許權被放棄後無法恢復它。雲端 AI 使用是否構成放棄的法律問題仍在訴訟中，但風險是真實的，後果是不可逆轉的。

本地端 AI 完全消除了這種風險。資料永不離開事務所的網路。沒有第三方披露。特許權通過架構而非合約受到保護。

法律倫理框架

在討論使用案例之前，先介紹管理這一空間的倫理規則：

ABA 模型規則 1.6（保密性）： 律師不得披露與代理客戶相關的資訊，除非客戶給予知情同意。這延伸到意外或疏忽披露。使用在第三方伺服器上處理客戶資料的雲端 AI 服務，至少是需要知情客戶同意的保密風險。

ABA 模型規則 1.1（能力）： 律師必須提供稱職的代理，包括了解實踐中使用的技術。在不了解客戶資料如何處理的情況下使用 AI 工具的律師，可以說是在未能達到能力標準。

ABA 正式意見 477R（2017）： 律師在使用技術時必須採取合理努力，防止保密資訊的意外或未授權披露。「合理努力」是一個以事實為基礎的調查，但在未獲客戶同意的情況下將特許文件發送到雲端服務，很難辯護為合理。

州律師協會意見： 多個州律師協會（加利福尼亞州、紐約州、佛羅里達州、德克薩斯州）已就法律實踐中的 AI 使用發布了指導。一致的主題：律師必須了解 AI 工具的資料處理實踐，為資料共享獲得客戶同意，並確保保密資訊受到保護。

滿足所有這些要求的最簡單方法：將客戶資料保存在您控制的基礎設施上。沒有第三方伺服器。沒有資料外洩。沒有披露的同意負擔。

四個法律 AI 助理使用案例

一、合約審查

工作流程： 助理攝入合約 → 對照事務所的合約方案分析每個條款 → 識別非標準語言、缺失的保護、不尋常的風險分配 → 生成帶注釋的批注 → 標記需要律師審查的高風險條款。

為何助理優於聊天機器人： 聊天機器人分析您粘貼的任何文字。助理訪問事務所的方案、客戶的先前協議、事務所的條款庫和相關監管要求——然後合成考慮所有這些來源的分析。它不只是識別問題；它從事務所批准的條款庫中推薦具體的替代語言。

數量和經濟效益：

大型事務所，每月審查 500 份合約
人工審查：每份合約 2-4 小時，律師助理時間 $200-$500/小時 = 每月 $200K-$100 萬
助理輔助審查：每份合約 30-60 分鐘（律師審查助理輸出）= 每月 $50K-$250K
節省：每月 $150K-$750K

二、發現中的文件審查

工作流程： 助理接收產品集中的文件 → 將每份分類為特許的、響應的、非響應的或需要律師審查的 → 應用事務所的相關性標準 → 為特許文件生成特許日誌 → 生成審查摘要。

為何本地端是不可或缺的： 發現文件根據定義是訴訟中最敏感的材料。它們頻繁包含特許通信、商業機密、保密商業資訊和個人資料。將這些發送到雲端 AI 服務的想法——或者應該是——對任何稱職的訴訟律師來說都是不可想像的。

數量和經濟效益：

大型案件：100,000 份文件待審查
人工審查（合約審查員）：每份文件 $1-$3 = $100K-$300K
本地端 AI 助理（第一輪分類）：每份文件 $0.05-$0.15 = $5K-$15K
律師對助理標記文件的審查（總量的 20%）：$20K-$60K
助理輔助總成本：$25K-$75K vs. $100K-$300K 人工
每個案件節省：$75K-$225K

三、法律研究

工作流程： 律師提出研究問題 → 助理搜索事務所的內部先例資料庫、案例法收集和監管指導 → 擷取相關權威 → 生成帶引用的研究備忘錄 → 每個引用都鏈接到源文件以供驗證。

為何助理優於搜索： 傳統法律研究工具（Westlaw、LexisNexis）是搜索引擎——它們返回結果，律師閱讀並合成它們。助理搜索、閱讀、合成和起草——在幾分鐘內而不是幾小時內生成第一份研究備忘錄。律師審查和精煉，而不是從頭構建。

為何內部先例需要本地端： 事務所的內部簡報庫、備忘錄和先前工作成果包含客戶保密資訊。搜索這些材料的助理必須在本地運行。案例法組件可以使用本地資料庫或外部服務（案例法是公開的），但內部先例搜索必須是本地端的。

四、盡職調查

工作流程： 助理訪問併購資料室中的文件 → 從合約、財務報表、公司記錄和監管備案中提取關鍵條款 → 識別紅旗（控制權變更條款、不尋常的賠償、未決訴訟、監管不合規）→ 生成按風險類別組織的盡職調查摘要報告。

為何助理在這裡具有變革性： 中等規模交易的盡職調查涉及審查 5,000-50,000 份文件。領導這一審查的高級律師助理在 4-8 週內花費 200-400 小時。處理初始文件提取和紅旗識別的助理將律師的工作減少到審查和驗證助理的發現——將時間線從數週縮短到數天。

為何需要本地端： 併購資料室包含目標公司最保密的資訊——財務、合約、知識產權、訴訟暴露、監管狀態。買方和目標方的法律顧問都有保密義務。對資料室內容的雲端處理為雙方創造了暴露。

法律 AI 助理架構

模型層

法律 AI 需要一個對複雜文字有強大推理能力、理解法律文件結構並具有可靠引用行為的模型。基礎模型選項：

140 億參數模型（Qwen2.5-14B、Llama 3.1）——由於法律推理的複雜性，推薦用於法律工作
70 億模型 — 對於文件分類和實體提取等結構化任務可行，對於複雜的法律分析不太可靠

微調是必要的。通用模型不了解：

您事務所的方案和風險標準
您偏好的條款語言和替代方案
您客戶特定的要求和先前立場
您司法管轄區的特定程序規則

訓練資料： 500-1,000 個對照您的方案的合約審查範例、使用您的相關性標準的文件分類，以及按照您格式的研究備忘錄。這些資料來自您的律師——他們先前的工作成果就是訓練集。

知識層

本地端向量存儲包含：

知識來源	用途	更新頻率
事務所合約方案	合約審查的風險標準	每季度
批准的條款庫	替代語言建議	隨時更新
內部簡報庫	先例研究	持續
客戶案件文件	客戶特定背景	每個案件
監管指導	合規檢查	隨時發布
案例法資料庫	法律研究	每週/每月

每個來源需要不同的準備。合約方案需要按條款類型分塊。簡報庫需要按法律問題分塊。案例法需要按裁定分塊，而非按頁面。

整合層

法律助理連接到：

文件管理系統（DMS） — iManage、NetDocuments 或類似的。助理通過 DMS API 讀寫文件。
業務管理系統 — 案件背景、客戶資訊、計費代碼
電子發現平台 — Relativity、Everlaw 或類似的，用於文件審查工作流程
資料室 — Datasite、Intralinks，用於盡職調查訪問

所有整合都是本地的。助理通過事務所網路上的內部 API 訪問這些系統。

稽核層

每個助理操作都被記錄：

查詢和請求律師
訪問的文件（帶有案件和客戶引用）
執行的分析
生成的引用（帶有源文件引用）
交付的輸出

這個稽核軌跡有雙重目的：（1）遵守監督 AI 輔助工作的倫理義務，以及（2）品質保證——當助理產生不正確的分析時，稽核軌跡識別哪個源文件或哪個推理步驟出了問題。

法律 AI 的資料準備

法律文件呈現出獨特的準備挑戰：

文件結構複雜性

法律文件在打破簡單文字處理的方面結構複雜：

嵌套條款： 第 4.2(b)(iii)(A) 條——六層嵌套。將其扁平化為純文字會破壞層次關係。
交叉引用： 「受第 7.3 條條款和附件 B 中規定的條件約束……」——條款的意義取決於其他條款。
定義術語： 「公司」是指前言中定義的實體。「重大不利影響」是指[500 個定義詞]。使用了定義術語但沒有定義的塊是模糊的。
序言和執行條款： 序言（「鑑於……」）提供背景。執行條款（「因此……」）創造義務。沒有背景的序言塊可能被解釋為義務。

準備方法： 在了解法律文件結構的情況下解析它們。保留章節編號和層次結構。將定義術語作為使用它們的每個塊的元資料包含在內。維護交叉引用連結。在章節級別分塊，而非在任意字符邊界。

特定領域標記

標記法律訓練資料需要法律專業知識。ML 工程師無法確定：

合約條款是否「標準」或「非標準」，沒有了解市場
賠償條款是否「廣泛」或「狹窄」，沒有了解風險分配
案例引用是否「切題」或只是「間接相關」，沒有了解法律問題

在標記過程中預算律師時間。初級律師助理可以標記合約審查範例。高級律師助理或合夥人應審查標籤的準確性。小時費用很高，但替代方案——在不準確的標籤上訓練的模型——長期來看更昂貴。

訓練管道中的保密性

訓練資料本身是保密的客戶資訊。準備管道必須維護與文件本身相同的保密保護：

訓練資料儲存：加密、訪問控制、本地端
標記工作流程：僅由授權律師執行
模型訓練：本地端（無雲端訓練服務）
訓練資料保留：遵守與客戶文件相同的保留政策

微調優勢

以下是讓許多法律技術團隊感到驚訝的說法：在您事務所的 500 個合約審查範例上微調的 7B 模型，在識別您事務所特定風險標準方面優於 GPT-4。

這不是因為微調模型比 GPT-4 「更聰明」。而是因為微調模型了解您的方案。GPT-4 了解一般的合約法——它可以識別任何律師都會標記的常見風險因素。但它不知道您事務所的方案將 24 個月的競業禁止視為標準，而 36 個月的競業禁止視為非標準。它不知道您的客戶接受知識產權侵權的無上限賠償，但將一般賠償上限設定為合約價值的 2 倍。它不知道您的實踐組需要標記任何指定紐約或特拉華州以外司法管轄區的仲裁條款。

這些事務所特定和客戶特定的模式是大多數價值所在的地方。通用知識讓您達到 60%。事務所特定的 40% 是區分稱職合約審查和通用 AI 輸出的地方。

微調將那 40% 直接編碼到模型的權重中。模型每次不需要在系統提示中被告知您的方案——它已將其內化。

開始步驟

從合約審查開始 — 這是最結構化、數量最大、最容易衡量的法律 AI 使用案例
將方案構建到知識庫 — 按條款類型分塊您的合約方案，在本地嵌入，測試擷取品質
標記訓練資料 — 讓律師助理標記 500 個以上合約審查範例，顯示正確的風險標誌和推薦語言
本地端微調 — 140 億參數模型，在您的標記資料上訓練，在本地 GPU 伺服器上運行
帶律師審查的試點 — 每個助理輸出在客戶交付前都由律師審查。測量對照人工審查的準確性。
擴展到文件審查 — 一旦合約審查通過驗證，將相同基礎設施應用於發現文件分類

第一個使用案例的基礎設施——GPU 伺服器、向量存儲、推理運行時、稽核記錄——服務於所有後續使用案例。添加文件審查、研究或盡職調查助理的邊際成本主要是資料準備和微調。