
微调3B vs GPT-4:为什么小模型在领域任务上更胜一筹
学术研究表明,微调的3B-7B模型在领域特定任务上持续击败GPT-4。以下是证据、规律,以及如何在你的应用中实践。
"微调的3B模型不可能击败GPT-4。"这是大多数开发者在为应用构建AI功能时的默认假设。但研究结论恰恰相反,而且差距并不微小。
在2023年至2024年间发表的六篇同行评审论文中,参数规模在770M到13B之间的微调模型,在特定的、定义明确的任务上持续超越GPT-4。不是偶然一次,不是在精心挑选的基准上,而是持续地,跨越法律、医疗、代码生成和实体抽取等多个领域。
本文将列出证据,解释这一规律为何成立,并告诉你何时可以信赖小模型用于生产应用,何时确实需要前沿API。
证据概览
在逐篇分析之前,先看总结。这些不是厂商声明,而是来自同行评审学术论文的发现,包含完整的方法论、数据集和可复现的结果。
| 论文 | 年份 | 小模型 | 大模型基线 | 任务 | 结果 |
|---|---|---|---|---|---|
| Distilling Step-by-Step (arXiv:2305.02301) | 2023 | 770M T5 | 540B PaLM | 推理 (CoT) | 770M超越540B,使用不到PaLM训练数据的0.5% |
| Phi-3-mini (arXiv:2404.14219) | 2024 | 3.8B | GPT-3.5-Turbo | MMLU基准 | 3.8B在学术知识上匹配GPT-3.5-Turbo |
| Orca 2 (arXiv:2311.11045) | 2023 | 13B | GPT-4 | 零样本推理 | 13B在某些任务上匹配甚至超越GPT-4 |
| SaulLM-7B (arXiv:2403.03883) | 2024 | 7B | GPT-4 | LegalBench | 7B在法律领域基准上超越GPT-4 |
| DeepSeek-Coder (arXiv:2401.14196) | 2024 | 6.7B | GPT-3.5 / CodeLlama-34B | HumanEval / MBPP | 6.7B匹配GPT-3.5,击败CodeLlama-34B(大5倍) |
| Universal-NER (arXiv:2308.03279) | 2023 | 7B | ChatGPT | 43个NER数据集 | 7B达到最先进水平,在所有数据集上超越ChatGPT |
规律非常明显。当小模型在正确的数据上针对特定领域训练时,模型大小不再是决定性变量。领域对齐才是决定性变量。
逐篇论文:研究的实际发现
Distilling Step-by-Step(ACL 2023, arXiv:2305.02301)
这篇 论文本应改变所有人对模型规模的认知。Google和CMU的研究人员提出了一个直接的问题:能否从大模型中提取推理链,用它们来训练一个更小的模型,使其表现优于大模型?
答案是肯定的,而且效率惊人。一个770M参数的T5模型,使用从540B PaLM中提取的思维链推理进行训练,在多个推理任务上超越了PaLM。训练数据集使用量不到PaLM训练数据的0.5%。
这证明的不是小模型有什么魔力,而是当小模型使用丰富、结构化的推理信号而非原始文本进行训练时,它能吸收通用大模型分散在数十亿参数中的任务特定能力。专家型模型高度集中,通用型模型则分散广泛。
对应用开发者的实际启示:训练数据的质量远比基础模型的规模重要。
Phi-3-mini(Microsoft Research, arXiv:2404.14219)
微软的Phi-3-mini是一个3.8B参数模型,专门在高质量的教科书式数据上训练,而非典型的网页爬取混合数据。让工程师们关注的发现是:Phi-3-mini在MMLU基准上匹配GPT-3.5-Turbo,该基准测试涵盖57个学科的学术知识。
研究人员的解释很直接:数据质量驱动小参数量下的能力。Phi-3团队使用"教科书质量"的过滤策略,从训练语料中仅选择最具教学价值的文本,然后用合成生成的问答对进行增强。
该模型在4-bit量化后仅808MB。这意味着它可以在中端智能手机上运行且内存充裕。对于移动应用来说,其性能-体积比相对于GPT-3.5-Turbo不是递增提升,而是质的飞跃。你无需任何网络调用就能获得有竞争力的能力。
Orca 2(Microsoft Research, arXiv:2311.11045)
Orca 2将这一发现推进了一步。微软使用一种叫做"谨慎推理"的技术训练了一个13B模型,模型被教授多种问题解决策略(直接回答、逐步推理、先回忆再生成),并学会为每种任务类型选择最佳策略。
基准测试结果是与GPT-4在零样本推理任务上的直接比较。Orca 2 13B在多个基准上匹配GPT-4,在其他一些基准上超越了它。这不是在狭窄领域上的微调结果,而是通用推理的比较,一个小50多倍的模型就已具备竞争力。
Orca 2的关键洞察在于模型被教导如何推理,而不仅仅是被教导什么。训练策略与训练数据同等重要。一个经过刻意、结构化推理监督训练的小模型,能超越一个接受较少刻意监督训练的大模型。
SaulLM-7B(arXiv:2403.03883)
SaulLM-7B是这份清单中最清晰的"