What is 迁移学习?

一种机器学习技术，将在一个任务上训练的模型适配到不同但相关的任务上，利用先前学到的表示。

Definition

迁移学习是将在大规模通用数据集上预训练的模型适配到特定下游任务的实践。与从头训练模型——需要巨大的计算资源和数据——不同，迁移学习重用模型在预训练期间获得的通用知识（语言理解、世界知识、推理模式），并将其应用于专业领域。

在 LLM 生态系统中，几乎所有实际的微调都是迁移学习。当你在医学问答数据上微调 Llama 3 时，你正在将预训练中的通用语言理解迁移并专门化到医学领域。预训练模型已经理解语法、上下文、推理和广泛的事实知识；微调教会它目标领域所需的特定模式、术语和响应风格。

迁移学习之所以有效，是因为神经网络学习分层表示。较低层捕获通用特征（词义、句法模式），而较高层编码更多任务特定的模式。在迁移时，通用的底层表示在不同任务间保持有用，只有上层需要显著调整。这种分层结构是迁移学习如此样本高效的原因——模型不需要为每个新任务重新学习语言基础。

Why It Matters

没有迁移学习，每个新的 AI 应用都需要从头训练模型，对于现代 LLM 来说，这意味着花费数百万美元的计算成本并策划数万亿 token 的训练数据。迁移学习将这一成本降低到几百美元和几千个示例，使 AI 定制化对中小型组织变得经济可行。它是使微调在经济上可行的基础技术。

迁移学习还在低数据环境下提高性能。从预训练迁移过来的模型已经学到了稳健的语言表示，因此与从头训练的模型相比，它可以用少得多的任务特定示例实现强大的性能。这对于标注数据稀缺的小众领域尤其有价值——医学专科、稀有语言、专有业务流程。

How It Works

LLM 的迁移学习过程遵循标准模式。首先，根据目标任务需求——大小、架构和预训练数据的领域覆盖——选择基础模型。加载基础模型的权重，根据方法的不同，要么微调所有权重（全量微调），要么通过适配器更新一部分权重（参数高效微调）。

在微调期间，学习率通常设置得比预训练时低得多——通常为 1e-5 到 5e-5，而预训练为 1e-3 到 3e-4。这防止了灾难性遗忘，即激进的更新破坏预训练期间编码的通用知识。模型在任务特定数据集上训练少量轮次（1-5 个 epoch），根据验证性能进行早停以避免过拟合。

Example Use Case

一家律师事务所想要一个将判例法总结为结构化摘要的模型。与其从头训练（需要数百万法律文件和数月的计算），他们取一个预训练的 Mistral 7B 模型——它已经从网络训练数据中理解了英语、法律术语和文档结构——并在 2000 个案例到摘要的示例对上进行微调。在单块 GPU 上训练三小时后，迁移学习后的模型产生的摘要律师评定为 85% 可接受，而基础模型零样本尝试的可接受率仅为 40%。