Fine-Tuning 与 Prompt Engineering 在法律文档审查中的对比

每家构建法律 AI 工具的 AI 代理机构都从 prompt engineering 开始。它速度快，不需要训练数据，在通用任务上表现出色。但当客户要求在其特定文档类型上实现更高精度时，prompt engineering 就会遇到无论多么巧妙的提示都无法突破的瓶颈。

本文以合同审查——最常见的法律 AI 用例之一——为案例，对两种方法进行正面对比，并提供一个决策框架帮助判断何时该转向 fine-tuning。

Prompt Engineering 适用的场景

Prompt engineering 是正确的起点。对于有明确输出的通用法律任务，精心设计的提示配合前沿模型（GPT-4o、Claude Sonnet）可以提供良好的结果：

适合 prompt engineering 的用例：

总结公开的判例法
从模板生成标准法律文件初稿
回答通用法律问题（非案件特定）
将文件分类为大类（合同、动议、摘要、信函）

对于这些任务，模型的预训练知识能很好地覆盖该领域。提示提供结构和约束。结果对于律师审查的初步筛选来说是可以接受的。

Prompt Engineering 达到瓶颈的地方

法律文档审查——对合同、租赁协议、监管文件和类似文档进行详细分析以发现特定问题——是 prompt engineering 失效的领域。

合同审查测试

考虑一个实际测试：为特定客户审查一份商业租赁协议，检查 25 个常见风险因素（赔偿条款、转让限制、终止触发条件、保险要求等）。

使用 prompt engineering（GPT-4o）：

System: You are a legal document analyst specialising in commercial leases.
Review the following lease agreement and identify all instances of the
following risk factors: [list of 25 risk factors with descriptions]
For each, provide the relevant clause, your assessment, and a risk rating.

在 50 份租赁协议的基准测试集上的结果：

指标	得分
正确识别的风险因素	72%
误报（标记了非问题）	18%
遗漏的关键条款	15%
一致的风险评级	61%

72% 的识别率对于通用模型来说令人印象深刻。但对于律师事务所来说，这意味着大约每 4 个相关条款中就会遗漏 1 个。这不是工具——这是风险。

为什么提示无法弥合差距

特定管辖区的语言。 法律语言因管辖区而异。新南威尔士的"安宁享有权"条款与纽约的读起来不同。Prompt engineering 无法在不使提示过长从而降低性能的情况下编码这些差异。

客户特定的风险容忍度。 一个客户认为 30 天的终止通知是可以接受的。另一个客户最少要求 90 天。这些客户特定的阈值无法在提示中可靠编码。

文档结构变化。 来自不同对手方的租赁协议使用不同的结构、编号系统和交叉引用惯例。通用模型在处理格式不一致的 60 页文档时难以跟踪引用。

一致性。 同一份租赁协议使用相同提示审查两次会产生不同的结果。对于法律工作来说，不一致是不可接受的——事务所需要同一条款每次都以相同方式被标记。

Fine-Tuning 带来的变化

Fine-tuning 教会模型提示无法传达的特定模式、术语和判断标准。使用 fine-tuned 模型进行相同的合同审查任务：

训练数据： 来自事务所历史工作的 2,000 份带注释的租赁审查——条款标记了风险因素、评估和评级，由经验丰富的律师完成。

Fine-tuned 模型（Llama 3.1 8B + LoRA）：

指标	Prompt Engineering (GPT-4o)	Fine-Tuned (8B)
正确识别的风险因素	72%	94%
误报	18%	6%
遗漏的关键条款	15%	3%
一致的风险评级	61%	92%
平均审查时间	45 秒	12 秒
每次审查成本	$0.15-0.40	约 $0（本地）

Fine-tuned 8B 模型在每个指标上都优于 prompted GPT-4o。它更快，因为更小且在本地运行。它更便宜，因为没有 API 费用。它更准确，因为它学习了这家事务所关注的特定模式。

为什么 Fine-Tuning 适用于法律任务

模式印记。 Fine-tuning 将事务所的分析模式直接嵌入模型权重。模型不需要被告知有问题的赔偿条款长什么样——它已经见过数百个例子。

结构性一致性。 Fine-tuned 模型产生更一致的输出，因为训练数据教会了它特定的分析框架。同一条款触发相同的评估。

压缩带来的速度。 Fine-tuned 8B 模型取代了 prompted 175B+ 模型。知识被压缩到一个更小、更快的架构中，该架构在特定任务上表现出色。

规模化成本。 在 fine-tuned 模型上的本地推理每份文档的成本基本为零。对于每年审查数千份合同的事务所来说，这改变了 AI 辅助审查的经济性。

决策框架

使用此框架来决定 fine-tuning 对于特定法律用例是否值得投资：

继续使用 Prompt Engineering 的情况：

任务是通用的（不特定于客户或管辖区）
量少（每月少于 100 份文档）
精度要求中等（初步筛选，非最终审查）
没有可用于训练的历史示例
客户处于探索模式，尚未准备好承诺特定工作流程

转向 Fine-Tuning 的情况：

任务是重复的且特定于领域（相同的文档类型，相同的分析）
量级足以证明投资的合理性（每月 100+ 份文档）
精度要求高（输出影响法律决策）
拥有 1,000+ 个高质量注释的历史示例
一致性很重要（同一条款必须始终以相同方式标记）
规模化成本很重要（API 费用正成为显著支出）
数据隐私要求本地推理

混合方法

许多代理机构从 prompt engineering 开始验证用例，然后在客户承诺后过渡到 fine-tuning：

第 1-2 个月： 部署 prompt-engineered 解决方案，收集客户反馈
第 3 个月： 将积累的交互用作 fine-tuning 的训练数据
第 4 个月： 部署 fine-tuned 模型，与 prompted 基准进行对比
持续： 随着事务所审查标准的演变定期重新训练

此方法通过在投入资源之前验证需求来降低 fine-tuning 投资的风险。

实际实施

对于准备 fine-tune 法律 AI 模型的代理机构：

数据准备： 导出事务所的历史文档审查。标准化注释格式。清理和去重。
基础模型选择： 标准任务选 Llama 3.1 8B，复杂多步分析选 13B。更小的模型 fine-tune 更快，运行更便宜。
Fine-tuning： 使用 Ertas Studio 进行无代码 fine-tuning，或使用 LoRA 训练如果你偏好动手操控。
评估： 在模型从未见过的文档保留集上测试。与相同文档上的 prompted 基准进行对比。
部署： 导出为 GGUF，通过 Ollama 部署在事务所的硬件上。

从数据准备到部署模型的整个过程，对于有经验的代理机构通常需要 1-2 周。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →