
法律團隊的無代碼資料標記
律師比任何 ML 工程師都更了解合同和特權。以下是為什麼法律 AI 需要律師標記的資料,為什麼特權文件不能上傳到雲端平台,以及桌面工具如何保護特權。
ML 工程師正在為法律 AI 模型標記合同條款。他們遇到了一個帶有故意不當行為相互排除和與 12 個月費用掛鉤的上限的補償條款。這是「標準的」、「有利的」還是「不利的」?
ML 工程師猜測「標準的」。商業訴訟律師會認識到這對補償方是有利的——故意不當行為排除是有限的,基於費用的上限通常比無上限的補償更具保護性。這些標記之間的差異決定了模型是學會標記這個條款進行談判,還是讓它通過。
法律 AI 只有其訓練資料中嵌入的法律判斷那麼好。而這種判斷不能來自 ML 工程師。
為什麼法律標記需要律師
法律文件不只是文字。它們是具有特定法律效果的文書,這些效果取決於管轄權、適用法律、當事方、情境,以及法院如何解釋類似的語言。準確標記法律資料需要與執法相同的技能。
合同語言是故意模糊的。 律師起草具有建設性模糊的條款——雙方都可以有利解讀的語言。出於標記目的確定條款的「含義」需要了解法院如何可能解釋它,這需要法律培訓和經驗。
分類取決於視角。 同樣的條款對一方是「有利的」,對另一方是「不利的」。標注員必須了解模型被訓練採用哪個視角。沒有這個背景的標注 ML 工程師將生產不一致的標記,使模型困惑。
法律顯著性與文字長度不成比例。 兩個詞的短語——「包括但不限於」——具有重大的法律效果。三頁的陳述部分可能幾乎沒有。ML 工程師傾向於按文字量加權標記。律師按法律後果加權。
先例很重要。 特定的條款結構是否已被法院支持或撤銷影響其分類。這種知識存在於律師的經驗中,而不是文字本身。
斯坦福 CodeX 實驗室 2025 年的一項研究發現,在律師標記資料上訓練的合同審閱模型與資深律師判斷達成 89% 的一致,而在律師助理標記資料上訓練的模型達成 71%,在非法律標注員資料上訓練的模型達成 54%。差距不小。它是有用工具和不可靠工具之間的區別。
特權問題
律師-客戶特權和工作成果學說創造了大多數標注平台無法滿足的硬性約束。
特權可以通過披露而被放棄。 律師-客戶特權保護律師和客戶之間的保密通信。當特權文件上傳到雲端標注平台時,存在特權放棄的風險。如果平台的員工可以訪問資料,如果資料通過第三方基礎設施傳輸,或者如果平台的服務條款授予對上傳資料的任何權利,特權可能受到損害。
這不是理論性的。法院已經發現當文件在沒有充分保密保護的情況下與第三方訴訟支持供應商共享時存在特權放棄。可以訪問特權法律文件的雲端標注平台創造了同樣的風險。
工 作成果學說有類似的約束。 為預期訴訟準備的文件——案件分析、策略備忘錄、庭審摘要——是受保護的工作成果。與第三方標注平台分享它們可能會放棄這種保護,如果平台不受共同利益或保密協議的約束。
道德義務使問題更加複雜。 律師有保持客戶保密的職業責任義務。ABA 模型規則 1.6 要求「合理努力」防止未經授權的披露。將客戶文件上傳到雲端平台用於 ML 訓練目的引發了這是否構成「合理」使用的問題,尤其是在沒有明確客戶同意的情況下。
衝突檢查變得不可能。 大型律師事務所處理競爭客戶的事務。如果來自客戶 A 和客戶 B 的合同資料被上傳到同一個標注平台,即使資料在邏輯上是分離的,也存在交叉污染的風險。律師事務所在內部維護的道德防火牆不延伸到第三方平台。
實際效果:大多數律師事務所和法律部門無法為最重要的文件使用基於雲端的標注工具。會產生最佳法律 AI 模型的資料——特權通信、工作成果、保密客戶文件——正是無法離開組織控制的資料。
自托管不是答案
顯而易見的替代方案是在公司自己的基礎設施上自托管標注平台。這使資料保持內部,但引入了不同的問題集。
律師事務所沒有 DevOps 團隊。 大多數律師事務所 IT 部門管理桌面、電子郵件、文件管理系統和網絡基礎設施。他們不運行容器化應用程式。要求他們部署和維護基於 Docker 的標注平台,就是要求他們發展他們沒有且不需要用於任何其他目的的能力。
安全審查很密集。 任何接觸客戶資料的新應用程式都需要公司信息安全團隊(通常還有受外部顧問指導原則管轄的事務的客戶安全團隊)的審查。帶有 Web 界面、資料庫後端和 API 端點的自托管應用程式比桌面應用程式呈現更大的攻擊面,導致更長的審查週期。
費用不成比例。 對於需要為特定法律 AI 項目標記 5,000-10,000 個範例的事務所,自托管標注平台的基礎設施費用和 IT 勞動力可能超過 $30,000-50,000——在任何人標記單個文件之前。
律師需要從標記工具中獲得什麼
根據我們與擁有 50 到 2,000 名律師的事務所的法律團隊的工作,要求是明確的:
桌面原生操作。 工具在律師的筆記本電腦或工作站上運行。文件保留在本地存儲或公司的文件管理系統上。沒有任何東西被外部傳輸。特權通過架構而 不是政策來保護。
沒有技術前提條件。 律師不需要安裝 Python、運行終端命令或了解資料格式。工具應該從標準安裝程序安裝,並像任何桌面應用程式一樣打開。
法律工作流程集成。 律師使用 PDF、DOCX 和文字格式的文件。工具應該原生打開這些格式,以可讀的版面顯示它們,並允許直接在文件上注釋。在標記之前需要格式轉換增加了阻礙採用的摩擦。
可配置的分類法。 法律分類方案因執業領域、事務所和客戶而異。合同審閱使用與訴訟文件審閱不同的類別,而訴訟文件審閱使用與監管合規不同的類別。標記方案應該可以通過視覺界面進行配置,而不需要修改代碼。
稽核追蹤。 法律工作需要問責制。每個標記都應該歸因於應用它的律師,帶有時間戳記和日誌。這支持質量審查、評分者間可靠性測量,以及——如果標記資料曾被質疑——訓練資料集的可辯護性。
效率論點
除了特權和合規之外,還有一個簡單的效率論點支持律師標記。
中級律師助理每小時可以審閱和標記 40-60 個合同條款。他們理解語言,立即認識標準條款,只在真正不寻常的條款上放慢速度。以每小時 $400-600 的計費費率,每個標記範例的費用為 $7-15。
ML 工程師標記同樣的條款每小時管理 15-25 個,因為他們必須查找術語、查閱參考資料,並就模糊條款向律師發送消息。他們的全額費用是每小時 $80-120,使每個標記範例的費用為 $3-8——每個範例更便宜,但質量較低,吞吐量較慢。
當你考慮到重新訓練糾正標記模型的費用時——在使用非律師標記法律資料的大約 40% 的項目中會發生這種情況——律師標記方法整體上更便宜,並在第一次迭代時產生更好的模型。
桌面工具解決法律標記問題
約束是明確的:資料不能離開事務所,律師不會使用技術工具,特權必須通過設計來保護。
Ertas Data Suite 直接滿足這些約束。它是一個原生桌面應用程式,律師安裝在他們的工作站上。文件保留在本地存儲。標記界面是視覺的——沒有代碼,沒有命令行,沒有資料工程。標記方案通過點擊配置。導出生成 ML 團隊直接使用的標準格式。
特權得到保護,因為架構使放棄不可能——資料從不離開律師的機器。IT 審查很簡單,因為沒有服務器元件,沒有網絡監聽器,沒有需要保護的資料庫。
法律 AI 需 要其訓練資料中的法律判斷。工具應該使這種判斷可訪問,而不是將其鎖定在技術障礙後面。
Turn unstructured data into AI-ready datasets — without it leaving the building.
On-premise data preparation with full audit trail. No data egress. No fragmented toolchains. EU AI Act Article 30 compliance built in.
Keep reading

No-Code Data Labeling for Healthcare Teams
Clinicians understand clinical data better than any ML engineer. Here's why clinical NLP models need clinician-labeled data, how HIPAA prevents cloud-based labeling, and how native desktop tools let clinicians label directly.

No-Code Data Labeling for Engineering and Construction Teams
Engineers and QS professionals understand BOQs, drawings, and specs in ways ML engineers cannot. Here's how no-code labeling tools let construction domain experts build better AI training data.

RAG Pipeline for Non-ML Engineers: How Domain Experts Build Retrieval Systems
The people closest to the data — doctors, lawyers, engineers, analysts — are locked out of building RAG pipelines because the tooling requires Python expertise. A visual pipeline builder changes who can participate.