What is Hyperparameter(超參數)?

    在訓練開始前設定的配置值,控制學習過程本身,與訓練期間學習的模型參數不同。

    Definition

    超參數是控制訓練過程但不從資料中學習的任何配置變數。與模型參數(透過反向傳播更新的權重和偏差)不同,超參數由實踐者在訓練開始前設定,並在整個訓練過程中保持固定。它們控制模型如何學習,而非學習什麼。

    LLM 微調中常見的超參數包括學習率(權重更新的激進程度)、批次大小(每次更新前處理的範例數量)、訓練輪數(模型看完整個資料集的次數)、權重衰減(防止過擬合的正則化)、預熱步數(訓練開始時學習率的逐步增加),以及 LoRA 特定的設定如秩、alpha 和目標模組。每個超參數都會影響訓練動態和最終模型品質。

    超參數選擇既是科學也是藝術。雖然存在網格搜尋、隨機搜尋和貝葉斯優化等有原則的方法,但實際的 LLM 微調通常依賴既定的經驗法則。例如,1e-5 到 5e-5 之間的學習率適用於大多數微調任務,8-64 的 LoRA 秩涵蓋大多數使用場景,而訓練 1-3 輪可以防止在典型資料集大小上的過擬合。與窮舉搜尋相比,這些經驗法則節省了大量的計算資源。

    Why It Matters

    超參數的選擇可能決定模型是收斂到出色的效能還是無法學習、過擬合或產生不連貫的輸出。學習率過高會導致訓練不穩定和發散;過低則模型幾乎不會從基礎模型改變。批次大小過小會產生嘈雜的梯度;過大則模型會收斂到泛化能力差的尖銳最小值。

    對於沒有深度 ML 專業知識的團隊,超參數選擇通常是成功微調的最大障礙。超參數之間的交互效應——學習率和批次大小是耦合的、LoRA 秩和 alpha 必須平衡、預熱步數取決於資料集大小——使得沒有經驗或自動化工具的手動調整變得困難。

    How It Works

    超參數在訓練迴圈開始前在訓練配置中指定。在訓練期間,它們在每一步調節優化過程。學習率乘以梯度來確定每次權重更新的幅度。批次大小決定有多少訓練範例對每個梯度估計做出貢獻。權重衰減等正則化超參數向損失函數添加懲罰項。

    超參數調優會評估多種配置以找到最佳組合。網格搜尋評估預定義值集的所有組合——徹底但呈指數級增長的代價。隨機搜尋抽樣隨機組合,通常更有效率。貝葉斯優化使用超參數-效能景觀的機率模型來智慧地選擇下一個要嘗試的配置。基於群體的訓練在訓練過程中演化超參數排程,隨著訓練的進展進行調整。

    Example Use Case

    一個團隊微調一個 7B 模型,最初使用 2e-4 的學習率(過高),導致損失曲線在 100 步後發散。他們將其降低到 5e-5,看到穩定的收斂但最終效能不佳。在測試了 1e-5、2e-5 和 3e-5 的學習率以及 0.03 和 0.1 的預熱比例後,他們發現 2e-5 加 0.03 預熱產生了最佳的驗證指標——這個過程花了 6 次訓練運行,但比初始嘗試提高了 15%。

    Key Takeaways

    • 超參數控制訓練過程,在訓練前設定,與學習到的模型參數不同。
    • 關鍵的 LLM 微調超參數包括學習率、批次大小、訓練輪數和 LoRA 秩。
    • 不正確的超參數可能導致訓練失敗、過擬合或模型品質不佳。
    • 既定的 LLM 微調經驗法則減少了窮舉超參數搜尋的需求。
    • 超參數之間的交互效應使得沒有經驗或自動化工具的調優變得複雜。

    How Ertas Helps

    Ertas Studio 為每個基礎模型和訓練配置提供合理的超參數預設值,同時為有經驗的使用者開放進階控制。視覺化介面使得跨訓練運行調整和比較超參數設定變得容易。

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.