What is Domain Adaptation（領域適應）?

調整在通用資料上訓練的模型以在特定領域（如醫療、法律或金融）中表現良好的過程。

Definition

領域適應是修改通用模型以在特定領域中有效運作的廣泛過程。它通常遵循多階段過程：首先，繼續預訓練讓模型接觸大量未標記的領域文字，教導領域詞彙和事實知識；其次，在標記的指令-回應對上進行監督式微調；第三，偏好優化（DPO 或 RLHF）將模型輸出與領域專家偏好對齊。每個階段添加不同類型的領域知識。

適應的有效性很大程度上取決於源領域（通用網路文字）和目標領域之間的距離。具有專業術語、獨特寫作慣例和專家級推理要求的領域（醫學、法律、化學）從適應中受益最多。

Why It Matters

通用模型在專業化任務上持續落後於領域特定模型。通用模型在醫學考試題上可能達到 65% 的準確度，而領域適應模型達到 85%。對於準確度直接影響業務成果的企業應用，這種效能差距證明了領域適應投資的合理性。領域適應還使模型能正確使用專業術語、遵循領域特定慣例並避免不當行為。

How It Works

全面的領域適應管線有三個階段。繼續預訓練中，模型使用與原始預訓練相同的下一個 token 預測目標處理數百萬 token 的未標記領域文字，但使用更低的學習率。監督式微調中，模型在策劃的指令-回應對上訓練。最終的偏好優化階段使用領域專家比較來細化輸出品質。

Example Use Case

一家法律科技公司適應 Llama 3 8B 用於合約審查。階段 1：在 20 億 token 法律文字上繼續預訓練 3 天。階段 2：在 8,000 個合約審查範例上微調。階段 3：在 2,000 個偏好對上進行 DPO 訓練。最終模型在內部基準上超越 GPT-4 12%，同時在單一 GPU 上本地運行。