What is Epoch（訓練週期）?

在模型微調過程中完整通過整個訓練資料集一次。

Definition

一個 epoch 代表完整遍歷訓練資料集中所有範例一次。如果資料集包含 5,000 個範例且模型在訓練中處理了全部 5,000 個，這就構成一個 epoch。微調通常運行多個 epoch——通常 1 到 5 個——使模型多次看到每個範例，逐步細化權重以更好地擬合訓練分佈。

epoch 數量是直接影響模型品質的關鍵超參數。太少 epoch 模型可能未充分吸收訓練資料中的模式（欠擬合）。太多 epoch 模型開始記憶特定範例而非學習可泛化模式（過擬合）。對大多數含有數千範例的 LLM 微調任務，2-4 個 epoch 是常見起點。

在每個 epoch 內，資料集通常被打亂並分成批次（由批次大小超參數決定）。模型一次處理一個批次。監控跨 epoch 的訓練損失和驗證損失提供了決定何時停止訓練的主要訊號——理想情況下是驗證損失趨於平穩或開始上升時。

Why It Matters

正確的 epoch 數量對產出有用的微調模型至關重要。在實踐中，大多數微調失敗可追溯到 epoch 太少（模型未學會任務）或太多（模型過擬合訓練資料）。理解 epoch 也幫助從業者估算訓練時間和成本：加倍 epoch 數量大致加倍所需 GPU 小時數。對於預算有限的團隊，這使 epoch 選擇成為平衡品質與計算成本的關鍵槓桿。

How It Works

每個 epoch 開始時，訓練範例被打亂以防止模型學習基於資料順序的虛假模式。打亂的資料集按批次大小分割為小批次。對於每個小批次，模型執行前向傳遞（生成預測）、計算損失（衡量預測與目標的偏差）、執行反向傳遞（計算梯度）並更新適配器或模型權重。所有小批次處理完後，epoch 完成。訓練迴圈然後在驗證集上評估模型以追蹤泛化效能，然後開始下一個 epoch。