What is Catastrophic Forgetting（災難性遺忘）?

一種現象，神經網路在新資料上微調時失去先前學習的知識，導致之前表現良好的任務上效能下降。

Definition

災難性遺忘（也稱為災難性干擾）發生在一個在某組資料上訓練的神經網路在另一組資料上訓練後，在原始資料上的表現急劇下降時。在 LLM 的背景下，這表現為在領域特定資料上微調預訓練模型時，模型失去了預訓練期間編碼的通用能力——語法、推理、世界知識、指令遵循。

問題產生的原因是神經網路的權重在各任務間共享。當模型更新權重以學習微調資料中的模式時，這些更新可能覆蓋編碼先前知識的表示。激進的微調（高學習率、大量 epoch、小資料集）使情況更加嚴重，因為較大的權重更新更可能擾亂現有知識。結果是一個在微調領域表現良好但在通用任務上產生不連貫或不正確輸出的模型。

災難性遺忘特別隱蔽，因為它在開發過程中往往不被發現。如果評估僅關注目標任務（微調期間表現改善），通用能力的下降在使用者在生產環境中遇到之前不會被注意到。一個在支援工單分類上表現出色但不再能形成語法正確句子的客戶支援模型就經歷了災難性遺忘——領域特定的收益是以基本語言能力為代價的。

Why It Matters

每個微調專案都必須在專業化和泛化之間取得平衡。團隊希望模型在特定任務上表現出色，同時不失去使 LLM 有價值的廣泛能力。災難性遺忘是使這種平衡變得困難的主要風險。一個忘記如何推理、遵循指令或生成連貫文字的模型是無用的，無論它在目標領域學得多好。

防止災難性遺忘是 LoRA 等參數高效微調方法成為主流的原因。透過僅修改模型參數的一小部分（通過低秩適配器），LoRA 在添加領域特定知識的同時保留了大部分預訓練表示。與完整微調相比，這大幅減少了遺忘，使建立保留通用能力的專業化模型成為可能。

How It Works

災難性遺忘源於神經網路的優化動態。在微調期間，梯度下降將權重移向最小化微調資料損失的方向。如果微調資料的分佈與預訓練資料有實質差異，這些梯度方向可能與維持預訓練表現的方向正交或相反。模型本質上是在忘記預訓練知識以容納新模式。

緩解策略包括：低學習率（較小的權重更新破壞性較小）、參數高效微調（修改較少的參數保留更多預訓練知識）、正則化（懲罰與預訓練權重的大偏差）、資料混合（在微調資料中包含預訓練分佈的樣本）、短訓練時間（限制 epoch 數量減少權重變化的總幅度）以及彈性權重整合（懲罰對先前學習任務重要的權重的變化）。

Example Use Case

一個團隊使用高學習率（5e-4）和 10 個 epoch 在 500 個醫療問答範例上微調 7B 模型。模型在醫療問題上達到 92% 的準確度，但不再能維持連貫的多輪對話，產生語法錯誤，並且在微調前能處理的基本推理任務上失敗。他們重新開始使用 LoRA（秩 16）、學習率 2e-5 和 3 個 epoch——模型達到 88% 的醫療準確度同時保留了所有通用能力，展示了防止災難性遺忘的重要性。