
Fine-Tuning 与 Prompt Engineering 在法律文档审查中的对比
Prompt engineering 在法律 AI 任务中何时会达到瓶颈?合同审查中 prompt engineering 与 fine-tuning 的实用对比,附带适用于代理机构的决策框架。
每家构建法律 AI 工具的 AI 代理机构都从 prompt engineering 开始。它速度快,不需要训练数据,在通用任务上表现出色。但当客户要求在其特定文档类型上实现更高精度时,prompt engineering 就会遇到无论多么巧妙的提示都无法突破的瓶颈。
本文以合同审查——最常见的法律 AI 用例之一——为案例,对两种方法进行正面对比,并提供一个决策框架帮助判断何时该转向 fine-tuning。
Prompt Engineering 适用的场景
Prompt engineering 是正确的起点。对于有明确输出的通用法律任务,精心设计的提示配合前沿模型(GPT-4o、Claude Sonnet)可以提供良好的结果:
适合 prompt engineering 的用例:
- 总结公开的判例法
- 从模板生成标准法律文件初稿
- 回答通用法律问题(非案件特定)
- 将文件分类为大类(合同、动议、摘要、信函)
对于这些任务,模型的预训练知识能很好地覆盖该领域。提示提供结构和约束。结果对于律师审查的初步筛选来说是可以接受的。
Prompt Engineering 达到瓶颈的地方
法律文档审查——对合同、租赁协议、监管文件和类似文档进行详细分析以发现特定问题——是 prompt engineering 失效的领域。
合同审查测试
考虑一个实际测试:为特定客户审查一份商业租赁协议,检查 25 个常见风险因素(赔偿条款、转让限制、终止触发条件、保险要求等)。
使用 prompt engineering(GPT-4o):
System: You are a legal document analyst specialising in commercial leases.
Review the following lease agreement and identify all instances of the
following risk factors: [list of 25 risk factors with descriptions]
For each, provide the relevant clause, your assessment, and a risk rating.
在 50 份租赁协议的基准测试集上的结果:
| 指标 | 得分 |
|---|---|
| 正确识别的风险因素 | 72% |
| 误报(标记了非问题) | 18% |
| 遗漏的关键条款 | 15% |
| 一致的风险评级 | 61% |
72% 的识别率对于通用模型来说令人印象深刻。但对于律师事务所来说,这意味着大约每 4 个相关条款中就会遗漏 1 个。这不是工具——这是风险。
为什么提示无法弥合差距
特定管辖区的语言。 法律语言因管辖区而异。新南威尔士的"安宁享有权"条款与纽约的读起来不同。Prompt engineering 无法在不使提示过长从而降低性能的情况下编码这些差异。
客户特定的风险容忍度。 一个客户认为 30 天的终止通知是可以接受的。另一个客户最少要求 90 天。这些客户特定的阈值无法在提示中可靠编码。
文档结构变化。 来自不同对手方的租赁协议使用不同的结构、编号系统和交叉引用惯例。通用模型在处理格式不一致的 60 页文档时难以跟踪引用。
一致性。 同一份租赁协议使用相同提示审查两次会产生不同的结果。对于法律工作来说,不一致是不可接受的——事务所需要同一条款每次都以相同方式被标记。
Fine-Tuning 带来的变化
Fine-tuning 教会模型提示无法传达的特定模式、术语和判断标准。使用 fine-tuned 模型进行相同的合同审查任务:
训练数据: 来自事务所历史工作的 2,000 份带注释的租赁审查——条款标记了风险因素、评估和评级,由经验丰富的律师完成。
Fine-tuned 模型(Llama 3.1 8B + LoRA):
| 指标 | Prompt Engineering (GPT-4o) | Fine-Tuned (8B) |
|---|---|---|
| 正确识别的风险因素 | 72% | 94% |
| 误报 | 18% | 6% |
| 遗漏的关键条款 | 15% | 3% |
| 一致的风险评级 | 61% | 92% |
| 平均审查时间 | 45 秒 | 12 秒 |
| 每次审查成本 | $0.15-0.40 | 约 $0(本地) |
Fine-tuned 8B 模型在每个指标上都优于 prompted GPT-4o。它更快,因为更小且在本地运行。它更便宜,因为没有 API 费用。它更准确,因为它学习了这家事务所关注的特定模式。
为什么 Fine-Tuning 适用于法律任务
模式印记。 Fine-tuning 将事务所的分析模式直接嵌入模型权重。模型不需要被告知有问题的赔偿条款长什么样——它已经见过数百个例子。
结构性一致性。 Fine-tuned 模型产生更一致的输出,因为训练数据教会了它特定的分析框架。同一条款触发相同的评估。
压缩带来的速度。 Fine-tuned 8B 模型取代了 prompted 175B+ 模型。知识被压缩到一个更小、更快的架构中,该架构在特定任务上表现出色。
规模化成本。 在 fine-tuned 模型上的本地推理每份文档的成本基本为零。对于每年审查数千份合同的事务所来说,这改变了 AI 辅助审查的经济性。
决策框架
使用此框架来决定 fine-tuning 对于特定法律用例是否值得投资:
继续使用 Prompt Engineering 的情况:
- 任务是通用的(不特定于客户或管辖区)
- 量少(每月少于 100 份文档)
- 精度要求中等(初步筛选,非最终审查)
- 没有可用于训练的历史示例
- 客户处于探索模式,尚未准备好承诺特定工作流程
转向 Fine-Tuning 的情况:
- 任务是重复的且特定于领域(相同的文档类型,相同的分析)
- 量级足以证明投资的合理性(每月 100+ 份文档)
- 精度要求高(输出影响法律决策)
- 拥有 1,000+ 个高质量注释的历史示例
- 一致性很重要(同一条款必须始终以相同方式标记)
- 规模化成本很重要(API 费用正成为显著支出)
- 数据隐私要求本地推理
混合方法
许多代理机构从 prompt engineering 开始验证用例,然后在客户承诺后过渡到 fine-tuning:
- 第 1-2 个月: 部署 prompt-engineered 解决方案,收集客户反馈
- 第 3 个月: 将积累的交互 用作 fine-tuning 的训练数据
- 第 4 个月: 部署 fine-tuned 模型,与 prompted 基准进行对比
- 持续: 随着事务所审查标准的演变定期重新训练
此方法通过在投入资源之前验证需求来降低 fine-tuning 投资的风险。
实际实施
对于准备 fine-tune 法律 AI 模型的代理机构:
- 数据准备: 导出事务所的历史文档审查。标准化注释格式。清理和去重。
- 基础模型选择: 标准任务选 Llama 3.1 8B,复杂多步分析选 13B。更小的模型 fine-tune 更快,运行更便宜。
- Fine-tuning: 使用 Ertas Studio 进行无代码 fine-tuning,或使用 LoRA 训练 如果你偏好动手操控。
- 评估: 在模型从未见过的文档保留集上测试。与相同文档上的 prompted 基准进行对比。
- 部署: 导出为 GGUF,通过 Ollama 部署在事务所的硬件上。
从数据准备到部署模型的整个过程,对于有经验的代理机构通常需要 1-2 周。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸阅读
- Fine-Tuning 与 RAG:何时使用哪种方法 — 了解 fine-tuning 和检索增强生成的互补角色
- 如何 Fine-Tune LLM — LoRA fine-tuning 的分步技术指南
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

When NOT to Fine-Tune: 5 Cases Where RAG, Prompting, or APIs Are Better
An honest guide to when fine-tuning is the wrong approach — covering five common scenarios where RAG, prompt engineering, or API calls deliver better results with less effort.

From Prompt Engineering to Fine-Tuning: The Migration Playbook
A practical playbook for teams migrating from prompt engineering to fine-tuning — when to make the switch, how to convert prompts into training data, and the step-by-step migration process.

Prompt Engineering Has a Ceiling. Here's What Comes After.
Prompt engineering can take you far — but every agency and developer hits the wall eventually. Here's what the ceiling looks like, why it exists, and what techniques come after.