What is Transfer Learning（遷移學習）?

在一個任務上訓練的模型被適應用於不同但相關任務的機器學習技術。

Definition

遷移學習是將在大型通用資料集上預訓練的模型適應到特定下游任務的實踐。遷移學習不是從頭開始訓練模型——這需要巨大的計算資源和資料——而是重複使用模型在預訓練期間獲得的一般知識（語言理解、世界知識、推理模式）並將其應用到專業領域。

在 LLM 生態系統中，幾乎所有實際的微調都是遷移學習。當你在醫療問答資料上微調 Llama 3 時，你正在將預訓練中的一般語言理解轉移並專業化為醫學。預訓練模型已經理解語法、上下文、推理和廣泛的事實知識基礎；微調教導它目標領域所需的特定模式、術語和回應風格。

遷移學習之所以有效，是因為神經網路學習層次化的表示。較低的層捕獲一般特徵（詞義、語法模式），而較高的層編碼更多特定任務的模式。在遷移時，一般的較低層表示在跨任務中保持有用，只有上層需要顯著的適應。這種層次結構是遷移學習如此具有樣本效率的原因——模型不需要為每個新任務重新學習語言基礎。

Why It Matters

沒有遷移學習，每個新的 AI 應用都需要從頭開始訓練模型，這對現代 LLM 來說意味著花費數百萬美元的計算資源並策展數兆 token 的訓練資料。遷移學習將此減少到幾百美元和幾千個範例，使 AI 客製化對中小型組織成為可能。它是使微調在經濟上可行的基礎技術。

遷移學習還在資料稀少的情況下改善效能。從預訓練中遷移的模型已經學習了健壯的語言表示，因此它可以用比從頭開始訓練的模型少得多的特定任務範例實現強大的效能。這對於標注資料稀缺的利基領域特別有價值——醫學專科、稀有語言、專有業務流程。

How It Works

LLM 的遷移學習過程遵循標準模式。首先，根據目標任務需求——大小、架構和預訓練資料的領域覆蓋——選擇基礎模型。載入基礎模型的權重，根據方法，要麼所有權重都被微調（全量微調），要麼透過適配器更新子集（參數高效微調）。

在微調期間，學習率通常設定為比預訓練低得多——通常是 1e-5 到 5e-5，而預訓練為 1e-3 到 3e-4。這防止災難性遺忘，即激進的更新摧毀預訓練期間編碼的一般知識。模型在特定任務資料集上訓練少量輪次（1-5），基於驗證效能的早停以避免過擬合。

Example Use Case

一家律師事務所想要一個將判例法摘要為結構化簡報的模型。他們不是從頭開始訓練（這需要數百萬份法律文件和數月的計算），而是取一個預訓練的 Mistral 7B 模型——它已經從網路訓練中理解英語、法律術語和文件結構——並在 2,000 個案例到簡報的對上微調它。在單一 GPU 上經過三小時的訓練後，遷移學習的模型產生了律師評為 85% 可接受的摘要，而基礎模型的零樣本嘗試僅為 40%。