What is 领域适配?

将在通用数据上训练的模型调整为在特定领域（如医疗、法律或金融）上表现良好的过程。

Definition

领域适配是将通用模型修改为在特定领域——特定行业、学科领域或应用场景——中有效运作的广泛过程。虽然这个术语与微调有重叠，但领域适配更全面：它不仅包括在标注数据上的监督微调，还包括在领域特定的无标注文本上继续预训练、为领域术语进行词表扩展，以及针对领域特定基准进行评估。

对于LLM来说，领域适配通常遵循多阶段过程。首先，继续预训练让模型接触大量无标注的领域文本（医学期刊、法律文书、金融报告），教会它领域词汇、写作惯例和事实知识。其次，在标注的指令-回复对上进行监督微调，教会模型将领域知识应用于特定任务。第三，偏好优化（DPO或RLHF）使模型的输出与领域专家的偏好对齐。每个阶段添加不同类型的领域知识。

领域适配的有效性在很大程度上取决于源领域（通用网络文本）和目标领域之间的距离。具有专业词汇、独特写作惯例和需要专家级推理的领域（医学、法律、化学）从适配中获益最多。在通用网络文本中有良好代表性的领域（常见商业任务、日常对话）可能只需要精心设计的提示工程而不需要适配。

Why It Matters

通用模型虽然能力令人印象深刻，但在专业任务上始终不如领域特定模型。通用模型在医学考试题上可能达到65%的准确率，而领域适配的模型可以达到85%。对于准确率直接影响业务结果的企业应用——临床决策支持、法律文档分析、金融风险评估——这种性能差距证明了领域适配投资的合理性。

领域适配还使模型能正确使用专业术语、遵循领域特定的惯例（引用格式、法规用语、临床记录结构），并避免不适合领域的行为（做出明确的医疗诊断、提供不加限定的具体法律建议）。这些行为适配对于在受监管行业中的生产部署与原始准确率同样重要。

How It Works

全面的领域适配管道包含三个阶段。在继续预训练中，模型使用与原始预训练相同的下一token预测目标处理数百万token的无标注领域文本，但使用更低的学习率。这教会模型领域词汇和事实知识，但没有指令遵循能力。分词器也可能扩展领域特定的token以提高技术术语的编码效率。

在监督微调中，模型在策划的指令-回复对上训练，这些对展示了领域任务的期望行为。这个阶段的数据质量至关重要——样本应覆盖模型在生产中要处理的任务范围，包含领域要求的适当保留和限定语，并呈现终端用户期望的格式和风格。最后的偏好优化阶段使用领域专家的比较来沿着监督标签难以捕捉的主观维度完善输出质量。

Example Use Case

一家法律科技公司将Llama 3 8B适配用于合同审查。第一阶段：在20亿token的法律文本（判例法、合同、监管文件）上继续预训练，在4块GPU上进行3天。第二阶段：在8,000个合同审查样本上进行监督微调（条款识别、风险标记、摘要生成）。第三阶段：在2,000个偏好对上进行DPO训练，由资深律师在模型输出之间做出选择。最终模型在他们的内部合同审查基准测试上比GPT-4高出12%，同时在单块GPU上本地运行。