Back to blog
    法律文件審查:微調 vs 提示工程
    fine-tuningprompt-engineeringlegaldocument-reviewsegment:agency

    法律文件審查:微調 vs 提示工程

    提示工程在法律 AI 任務上何時達到上限?合約審查中提示工程和微調的實際比較,附代理商決策框架。

    EErtas Team·

    每個構建法律 AI 工具的 AI 代理商都從提示工程開始。它速度快、不需要訓練資料,並且對通用任務的效果出奇地好。但隨著客戶對其特定文件類型要求更高的準確率,提示工程達到了一個上限,無論多聰明的提示都無法突破。

    本文對合約審查——最常見的法律 AI 使用案例之一——進行頭對頭比較,並提供一個框架來決定何時跳轉到微調。

    提示工程的有效之處

    提示工程是正確的起點。對於帶有定義明確輸出的通用法律任務,精心製作的提示加上前沿模型(GPT-4o、Claude Sonnet)提供了不錯的結果:

    適合提示工程的使用案例:

    • 總結公開可用的判例法
    • 從模板生成標準法律文件的初稿
    • 回答一般法律問題(非案件特定的)
    • 將文件分類為廣泛類別(合約、動議、簡報、通訊)

    對於這些任務,模型的預訓練知識很好地涵蓋了該領域。提示提供結構和約束。結果對於律師審查的初稿來說是可接受的。

    提示工程達到上限的地方

    法律文件審查——對合約、租約、監管備案和類似文件進行詳細分析以找出具體問題——是提示失敗的地方。

    合約審查測試

    考慮一個實際測試:為特定客戶審查商業租約協議,檢查 25 個常見風險因素(免責條款、轉讓限制、終止觸發條件、保險要求等)。

    使用提示工程(GPT-4o):

    系統:你是一個專門研究商業租約的法律文件分析師。
    審查以下租約協議並找出以下風險因素的所有實例:[25 個風險因素及其描述的列表]
    對於每個,提供相關條款、你的評估和風險評級。
    

    在 50 份租約的基準集上的結果:

    指標分數
    正確識別的風險因素72%
    假陽性(標記的非問題)18%
    遺漏的關鍵條款15%
    一致的風險評級61%

    72% 識別率對通用模型來說令人印象深刻。但對律師事務所而言,這意味著大約每 4 個相關條款中就漏掉 1 個。這不是工具——這是責任。

    為何提示無法縮小差距

    特定司法管轄區的語言。 法律語言因司法管轄區而異。新南威爾士州的「安靜享有」條款與紐約州的讀起來不同。提示工程無法編碼這些差異,否則提示太長,性能反而下降。

    客戶特定的風險承受能力。 一個客戶認為 30 天終止通知是可接受的。另一個需要最少 90 天。這些客戶特定的閾值無法可靠地編碼在提示中。

    文件結構變化。 不同對手的租約使用不同的結構、編號系統和交叉引用慣例。通用模型很難在一份格式不一致的 60 頁文件中追蹤引用。

    一致性。 用相同的提示兩次審查同一份租約會產生不同的結果。對於法律工作,不一致是不可接受的——事務所需要每次以相同方式標記相同的條款。

    微調改變了什麼

    微調教會模型提示無法傳達的具體模式、術語和判斷標準。相同的合約審查任務使用微調模型:

    訓練資料: 來自事務所歷史工作的 2,000 份帶注釋的租約審查——由有經驗的律師標記風險因素、評估和評級的條款。

    微調模型(Llama 3.1 8B + LoRA):

    指標提示工程(GPT-4o)微調(8B)
    正確識別的風險因素72%94%
    假陽性18%6%
    遺漏的關鍵條款15%3%
    一致的風險評級61%92%
    平均審查時間45 秒12 秒
    每次審查成本$0.15-0.40約 $0(本地)

    微調的 8B 模型在每個指標上都超越了提示的 GPT-4o。它更快,因為它更小且在本地運行。它更便宜,因為沒有 API 費用。它更準確,因為它已經學習了這家事務所關心的具體模式。

    為什麼微調對法律任務有效

    模式印記。 微調將事務所的分析模式直接嵌入模型權重。模型不需要被告知有問題的免責條款是什麼樣子——它已經看過數百個範例。

    通過構建實現一致性。 微調模型產生更一致的輸出,因為訓練資料教它一個具體的分析框架。相同的條款觸發相同的評估。

    壓縮帶來速度。 微調的 8B 模型替代了提示的 175B 以上的模型。知識已被壓縮到一個在具體任務上表現出色的更小、更快的架構。

    規模化成本。 在微調模型上的本地推理每個文件實際上不花任何費用。對於每年審查數千份合約的事務所,這改變了 AI 輔助審查的經濟學。

    決策框架

    使用此框架決定微調是否值得為特定法律使用案例投資:

    保留提示工程的情況:

    • 任務是通用的(不特定於客戶或司法管轄區)
    • 量低(每月少於 100 份文件)
    • 準確率要求適中(初篩,而非最終審查)
    • 你沒有歷史範例可以訓練
    • 客戶處於探索模式,還沒有準備好承諾特定工作流程

    轉向微調的情況:

    • 任務是重複且特定領域的(相同文件類型,相同分析)
    • 量証明投資是合理的(每月 100 份以上文件)
    • 準確率要求高(輸出影響法律決策)
    • 你有 1,000 個以上帶品質注釋的歷史範例
    • 一致性很重要(相同條款必須每次以相同方式標記)
    • 成本在規模上很重要(API 費用正在成為重要支出)
    • 資料隱私需要本地推理

    混合方法

    許多代理商從提示工程開始驗證使用案例,然後在客戶承諾後過渡到微調:

    1. 第 1-2 個月: 部署提示工程解決方案,收集客戶反饋
    2. 第 3 個月: 使用累積的互動作為微調的訓練資料
    3. 第 4 個月: 部署微調模型,與提示基線進行比較
    4. 持續: 隨著事務所審查標準的演變定期重新訓練

    這種方法通過在承諾資源之前驗證需求來降低微調投資的風險。

    實際實施

    對於準備好微調法律 AI 模型的代理商:

    1. 資料準備: 匯出事務所的歷史文件審查。標準化注釋格式。清理和去重。
    2. 基礎模型選擇: Llama 3.1 8B 用於標準任務,13B 用於複雜的多步驟分析。較小的模型微調更快且運行更便宜。
    3. 微調: 使用 Ertas Studio 進行無代碼微調,或者如果你偏好親手操作則使用 LoRA 訓練
    4. 評估: 在模型從未見過的文件的保留集上測試。在相同文件上與提示基線進行比較。
    5. 部署: 匯出為 GGUF,通過 Ollama 部署在事務所的硬體上。

    從資料準備到部署模型的整個流程對於有經驗的代理商通常需要 1-2 週。


    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading