What is Epoch(訓練週期)?

    在模型微調過程中完整通過整個訓練資料集一次。

    Definition

    一個 epoch 代表完整遍歷訓練資料集中所有範例一次。如果資料集包含 5,000 個範例且模型在訓練中處理了全部 5,000 個,這就構成一個 epoch。微調通常運行多個 epoch——通常 1 到 5 個——使模型多次看到每個範例,逐步細化權重以更好地擬合訓練分佈。

    epoch 數量是直接影響模型品質的關鍵超參數。太少 epoch 模型可能未充分吸收訓練資料中的模式(欠擬合)。太多 epoch 模型開始記憶特定範例而非學習可泛化模式(過擬合)。對大多數含有數千範例的 LLM 微調任務,2-4 個 epoch 是常見起點。

    在每個 epoch 內,資料集通常被打亂並分成批次(由批次大小超參數決定)。模型一次處理一個批次。監控跨 epoch 的訓練損失和驗證損失提供了決定何時停止訓練的主要訊號——理想情況下是驗證損失趨於平穩或開始上升時。

    Why It Matters

    正確的 epoch 數量對產出有用的微調模型至關重要。在實踐中,大多數微調失敗可追溯到 epoch 太少(模型未學會任務)或太多(模型過擬合訓練資料)。理解 epoch 也幫助從業者估算訓練時間和成本:加倍 epoch 數量大致加倍所需 GPU 小時數。對於預算有限的團隊,這使 epoch 選擇成為平衡品質與計算成本的關鍵槓桿。

    How It Works

    每個 epoch 開始時,訓練範例被打亂以防止模型學習基於資料順序的虛假模式。打亂的資料集按批次大小分割為小批次。對於每個小批次,模型執行前向傳遞(生成預測)、計算損失(衡量預測與目標的偏差)、執行反向傳遞(計算梯度)並更新適配器或模型權重。所有小批次處理完後,epoch 完成。訓練迴圈然後在驗證集上評估模型以追蹤泛化效能,然後開始下一個 epoch。

    Example Use Case

    團隊在 3,000 個客服範例上微調 7B 模型。1 個 epoch 後模型有改善但仍遺漏細微回應。3 個 epoch 後驗證準確度達 87% 峰值。5 個 epoch 後驗證損失開始上升——明確的過擬合信號。他們選擇 3 epoch 檢查點作為生產模型,平衡學習完整性和泛化。

    Key Takeaways

    • 一個 epoch 等於完整通過所有訓練範例一次。
    • 大多數 LLM 微調任務使用 1-5 個 epoch,2-4 是常見範圍。
    • 太少 epoch 導致欠擬合;太多導致過擬合。
    • 監控跨 epoch 的驗證損失是何時停止訓練的主要訊號。
    • Epoch 數量直接擴展訓練時間和計算成本。

    How Ertas Helps

    Ertas Studio 在其視覺化訓練配置面板中將 epoch 數量作為清晰標記的超參數。平台提供每個 epoch 後更新的即時損失圖表,使過擬合轉折點一目瞭然。Ertas 還支援自動早停,在模型停止改善時自動停止訓練——節省 GPU 額度並防止過擬合而無需手動干預。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.