
法律文件審查:微調 vs 提示工程
提示工程在法律 AI 任務上何時達到上限?合約審查中提示工程和微調的實際比較,附代理商決策框架。
每個構建法律 AI 工具的 AI 代理商都從提示工程開始。它速度快、不需要訓練資料,並且對通用任務的效果出奇地好。但隨著客戶對其特定文件類型要求更高的準確率,提示工程達到了一個上限,無論多聰明的提示都無法突破。
本文對合約審查——最常見的法律 AI 使用案例之一——進行頭對頭比較,並提供一個框架來決定何時跳轉到微調。
提示工程的有效之處
提示工程是正確的起點。對於帶有定義明確輸出的通用法律任務,精心製作的提示加上前沿模型(GPT-4o、Claude Sonnet)提供了不錯的結果:
適合提示工程的使用案例:
- 總結公開可用的判例法
- 從模板生成標準法律文件的初稿
- 回答一般法律問題(非案件特定的)
- 將文件分類為廣泛類別(合約、動議、簡報、通訊)
對於這些任務,模型的預訓練知識很好地涵蓋了該領域。提示提供結構和約束。結果對於律師審查的初稿來說是可接受的。
提示工程達到上限的地方
法律文件審查——對合約、租約、監管備案和類似文件進行詳細分析以找出具體問題——是提示失敗的地方。
合約審查測試
考慮一個實際測試:為特定客戶審查商業租約協議,檢查 25 個常見風險因素(免責條款、轉讓限制、終止觸發條件、保險要求等)。
使用提示工程(GPT-4o):
系統:你是一個專門研究商業租約的法律文件分析師。
審查以下租約協議並找出以下風險因素的所有實例:[25 個風險因素及其描述的列表]
對於每個,提供相關條款、你的評估和風險評級。
在 50 份租約的基準集上的結果:
| 指標 | 分數 |
|---|---|
| 正確識別的風險因素 | 72% |
| 假陽性(標記的非問題) | 18% |
| 遺漏的關鍵條款 | 15% |
| 一致的風險評級 | 61% |
72% 識別率對通用模型來說令人印象深刻。但對律師事務所而言,這意味著大約每 4 個相關條款中就漏掉 1 個。這不是工具——這是責任。
為何提示無法縮小差距
特定司法管轄區的語言。 法律語言因司法管轄區而異。新南威爾士州的「安靜享有」條款與紐約州的讀起來不同。提示工程無法編碼這些差異,否則提示太長,性能反而下降。
客戶特定的風險承受能力。 一個客戶認為 30 天終止通知是可接受的。另一個需要最少 90 天。這些客戶特定的閾值無法可靠地編碼在提示中。
文件結構變化。 不同對手的租約使用不同的結構、編號系統和交叉引用慣例。通用模型很難在一份格式不一致的 60 頁文件中追蹤引用。
一致性。 用相同的提示兩次審查同一份租約會產生不同的結果。對於法律工作,不一致是不可接受的——事務所需要每次以相同方式標記相同的條款。
微調改變了什麼
微調教會模型提示無法傳達的具體模式、術語和判斷標準。相同的合約審查任務使用微調模型:
訓練資料: 來自事務所歷史工作的 2,000 份帶注釋的租約審查——由有經驗的律師標記風險因素、評估和評級的條款。
微調模型(Llama 3.1 8B + LoRA):
| 指標 | 提示工程(GPT-4o) | 微調(8B) |
|---|---|---|
| 正確識別的風險因素 | 72% | 94% |
| 假陽性 | 18% | 6% |
| 遺漏的關鍵條款 | 15% | 3% |
| 一致的風險評級 | 61% | 92% |
| 平均審查時間 | 45 秒 | 12 秒 |
| 每次審查成本 | $0.15-0.40 | 約 $0(本地) |
微調的 8B 模型在每個指標上都超越了提示的 GPT-4o。它更快,因為它更小且在本地運行。它更便宜,因為沒有 API 費用。它更準確,因為它已經學習了這家事務所關心的具體模式。
為什麼微調對法律任務有效
模式印記。 微調將事務所的分析模式直接嵌入模型權重。模型不需要被告知有問題的免責條款是什麼樣子——它已經看過數百個範例。
通過構建實現一致性。 微調模型產生更一致的輸出,因為訓練資料教它一個具體的分析框架。相同的條款觸發相同的評估。
壓縮帶來速度。 微調的 8B 模型替代了提示的 175B 以上的模型。知識已被壓縮到一個在具體任務上表現出色的更小、更快的架構。
規模化成本。 在微調模型上的本地推理每個文件實際上不花任何費用。對於每年審查數千份合約的事務所,這改變了 AI 輔助審查的經濟學。
決策框架
使用此框架決定微調是否值得為特定法律使用案例投資:
保留提示工程的情況:
- 任務是通用的(不特定於客戶或司法管轄區)
- 量低(每月少於 100 份文件)
- 準確率要求適中(初篩,而非最終審查)
- 你沒有歷史範例可以訓練
- 客戶處於探索模式,還沒有準備好承諾特定工作流程
轉向微 調的情況:
- 任務是重複且特定領域的(相同文件類型,相同分析)
- 量証明投資是合理的(每月 100 份以上文件)
- 準確率要求高(輸出影響法律決策)
- 你有 1,000 個以上帶品質注釋的歷史範例
- 一致性很重要(相同條款必須每次以相同方式標記)
- 成本在規模上很重要(API 費用正在成為重要支出)
- 資料隱私需要本地推理
混合方法
許多代理商從提示工程開始驗證使用案例,然後在客戶承諾後過渡到微調:
- 第 1-2 個月: 部署提示工程解決方案,收集客戶反饋
- 第 3 個月: 使用累積的互動作為微調的訓練資料
- 第 4 個月: 部署微調模型,與提示基線進行比較
- 持續: 隨著事務所審查標準的演變定期重新訓練
這種方法通過在承諾資源之前 驗證需求來降低微調投資的風險。
實際實施
對於準備好微調法律 AI 模型的代理商:
- 資料準備: 匯出事務所的歷史文件審查。標準化注釋格式。清理和去重。
- 基礎模型選擇: Llama 3.1 8B 用於標準任務,13B 用於複雜的多步驟分析。較小的模型微調更快且運行更便宜。
- 微調: 使用 Ertas Studio 進行無代碼微調,或者如果你偏好親手操作則使用 LoRA 訓練。
- 評估: 在模型從未見過的文件的保留集上測試。在相同文件上與提示基線進行比較。
- 部署: 匯出為 GGUF,通過 Ollama 部署在事務所的硬體上。
從資料準備到部署模型的整個流程對於有經驗的代理商通常需要 1-2 週。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- 微調 vs RAG:何時使用哪種方法 — 了解微調和檢索增強生成的互補角色
- 如何微調 LLM — LoRA 微調的逐步技術指南
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

From Prompt Engineering to Fine-Tuning: The Migration Playbook
A practical playbook for teams migrating from prompt engineering to fine-tuning — when to make the switch, how to convert prompts into training data, and the step-by-step migration process.

Prompt Engineering Has a Ceiling. Here's What Comes After.
Prompt engineering can take you far — but every agency and developer hits the wall eventually. Here's what the ceiling looks like, why it exists, and what techniques come after.

Model Distillation Explained: Run Sonnet-Quality Output on a $0 Inference Bill
A complete guide to model distillation — how to transfer capabilities from large frontier models like Claude Sonnet into small local models, achieving comparable quality at zero ongoing inference cost.