法律文件審查：微調 vs 提示工程

每個構建法律 AI 工具的 AI 代理商都從提示工程開始。它速度快、不需要訓練資料，並且對通用任務的效果出奇地好。但隨著客戶對其特定文件類型要求更高的準確率，提示工程達到了一個上限，無論多聰明的提示都無法突破。

本文對合約審查——最常見的法律 AI 使用案例之一——進行頭對頭比較，並提供一個框架來決定何時跳轉到微調。

提示工程的有效之處

提示工程是正確的起點。對於帶有定義明確輸出的通用法律任務，精心製作的提示加上前沿模型（GPT-4o、Claude Sonnet）提供了不錯的結果：

適合提示工程的使用案例：

總結公開可用的判例法
從模板生成標準法律文件的初稿
回答一般法律問題（非案件特定的）
將文件分類為廣泛類別（合約、動議、簡報、通訊）

對於這些任務，模型的預訓練知識很好地涵蓋了該領域。提示提供結構和約束。結果對於律師審查的初稿來說是可接受的。

提示工程達到上限的地方

法律文件審查——對合約、租約、監管備案和類似文件進行詳細分析以找出具體問題——是提示失敗的地方。

合約審查測試

考慮一個實際測試：為特定客戶審查商業租約協議，檢查 25 個常見風險因素（免責條款、轉讓限制、終止觸發條件、保險要求等）。

使用提示工程（GPT-4o）：

系統：你是一個專門研究商業租約的法律文件分析師。
審查以下租約協議並找出以下風險因素的所有實例：[25 個風險因素及其描述的列表]
對於每個，提供相關條款、你的評估和風險評級。

在 50 份租約的基準集上的結果：

指標	分數
正確識別的風險因素	72%
假陽性（標記的非問題）	18%
遺漏的關鍵條款	15%
一致的風險評級	61%

72% 識別率對通用模型來說令人印象深刻。但對律師事務所而言，這意味著大約每 4 個相關條款中就漏掉 1 個。這不是工具——這是責任。

為何提示無法縮小差距

特定司法管轄區的語言。 法律語言因司法管轄區而異。新南威爾士州的「安靜享有」條款與紐約州的讀起來不同。提示工程無法編碼這些差異，否則提示太長，性能反而下降。

客戶特定的風險承受能力。 一個客戶認為 30 天終止通知是可接受的。另一個需要最少 90 天。這些客戶特定的閾值無法可靠地編碼在提示中。

文件結構變化。 不同對手的租約使用不同的結構、編號系統和交叉引用慣例。通用模型很難在一份格式不一致的 60 頁文件中追蹤引用。

一致性。 用相同的提示兩次審查同一份租約會產生不同的結果。對於法律工作，不一致是不可接受的——事務所需要每次以相同方式標記相同的條款。

微調改變了什麼

微調教會模型提示無法傳達的具體模式、術語和判斷標準。相同的合約審查任務使用微調模型：

訓練資料： 來自事務所歷史工作的 2,000 份帶注釋的租約審查——由有經驗的律師標記風險因素、評估和評級的條款。

微調模型（Llama 3.1 8B + LoRA）：

指標	提示工程（GPT-4o）	微調（8B）
正確識別的風險因素	72%	94%
假陽性	18%	6%
遺漏的關鍵條款	15%	3%
一致的風險評級	61%	92%
平均審查時間	45 秒	12 秒
每次審查成本	$0.15-0.40	約 $0（本地）

微調的 8B 模型在每個指標上都超越了提示的 GPT-4o。它更快，因為它更小且在本地運行。它更便宜，因為沒有 API 費用。它更準確，因為它已經學習了這家事務所關心的具體模式。

為什麼微調對法律任務有效

模式印記。 微調將事務所的分析模式直接嵌入模型權重。模型不需要被告知有問題的免責條款是什麼樣子——它已經看過數百個範例。

通過構建實現一致性。 微調模型產生更一致的輸出，因為訓練資料教它一個具體的分析框架。相同的條款觸發相同的評估。

壓縮帶來速度。 微調的 8B 模型替代了提示的 175B 以上的模型。知識已被壓縮到一個在具體任務上表現出色的更小、更快的架構。

規模化成本。 在微調模型上的本地推理每個文件實際上不花任何費用。對於每年審查數千份合約的事務所，這改變了 AI 輔助審查的經濟學。

決策框架

使用此框架決定微調是否值得為特定法律使用案例投資：

保留提示工程的情況：

任務是通用的（不特定於客戶或司法管轄區）
量低（每月少於 100 份文件）
準確率要求適中（初篩，而非最終審查）
你沒有歷史範例可以訓練
客戶處於探索模式，還沒有準備好承諾特定工作流程

轉向微調的情況：

任務是重複且特定領域的（相同文件類型，相同分析）
量証明投資是合理的（每月 100 份以上文件）
準確率要求高（輸出影響法律決策）
你有 1,000 個以上帶品質注釋的歷史範例
一致性很重要（相同條款必須每次以相同方式標記）
成本在規模上很重要（API 費用正在成為重要支出）
資料隱私需要本地推理

混合方法

許多代理商從提示工程開始驗證使用案例，然後在客戶承諾後過渡到微調：

第 1-2 個月： 部署提示工程解決方案，收集客戶反饋
第 3 個月： 使用累積的互動作為微調的訓練資料
第 4 個月： 部署微調模型，與提示基線進行比較
持續： 隨著事務所審查標準的演變定期重新訓練

這種方法通過在承諾資源之前驗證需求來降低微調投資的風險。

實際實施

對於準備好微調法律 AI 模型的代理商：

資料準備： 匯出事務所的歷史文件審查。標準化注釋格式。清理和去重。
基礎模型選擇： Llama 3.1 8B 用於標準任務，13B 用於複雜的多步驟分析。較小的模型微調更快且運行更便宜。
微調： 使用 Ertas Studio 進行無代碼微調，或者如果你偏好親手操作則使用 LoRA 訓練。
評估： 在模型從未見過的文件的保留集上測試。在相同文件上與提示基線進行比較。
部署： 匯出為 GGUF，通過 Ollama 部署在事務所的硬體上。

從資料準備到部署模型的整個流程對於有經驗的代理商通常需要 1-2 週。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →