What is Hyperparameter（超參數）?

在訓練開始前設定的配置值，控制學習過程本身，與訓練期間學習的模型參數不同。

Definition

超參數是控制訓練過程但不從資料中學習的任何配置變數。與模型參數（透過反向傳播更新的權重和偏差）不同，超參數由實踐者在訓練開始前設定，並在整個訓練過程中保持固定。它們控制模型如何學習，而非學習什麼。

LLM 微調中常見的超參數包括學習率（權重更新的激進程度）、批次大小（每次更新前處理的範例數量）、訓練輪數（模型看完整個資料集的次數）、權重衰減（防止過擬合的正則化）、預熱步數（訓練開始時學習率的逐步增加），以及 LoRA 特定的設定如秩、alpha 和目標模組。每個超參數都會影響訓練動態和最終模型品質。

超參數選擇既是科學也是藝術。雖然存在網格搜尋、隨機搜尋和貝葉斯優化等有原則的方法，但實際的 LLM 微調通常依賴既定的經驗法則。例如，1e-5 到 5e-5 之間的學習率適用於大多數微調任務，8-64 的 LoRA 秩涵蓋大多數使用場景，而訓練 1-3 輪可以防止在典型資料集大小上的過擬合。與窮舉搜尋相比，這些經驗法則節省了大量的計算資源。

Why It Matters

超參數的選擇可能決定模型是收斂到出色的效能還是無法學習、過擬合或產生不連貫的輸出。學習率過高會導致訓練不穩定和發散；過低則模型幾乎不會從基礎模型改變。批次大小過小會產生嘈雜的梯度；過大則模型會收斂到泛化能力差的尖銳最小值。

對於沒有深度 ML 專業知識的團隊，超參數選擇通常是成功微調的最大障礙。超參數之間的交互效應——學習率和批次大小是耦合的、LoRA 秩和 alpha 必須平衡、預熱步數取決於資料集大小——使得沒有經驗或自動化工具的手動調整變得困難。

How It Works

超參數在訓練迴圈開始前在訓練配置中指定。在訓練期間，它們在每一步調節優化過程。學習率乘以梯度來確定每次權重更新的幅度。批次大小決定有多少訓練範例對每個梯度估計做出貢獻。權重衰減等正則化超參數向損失函數添加懲罰項。

超參數調優會評估多種配置以找到最佳組合。網格搜尋評估預定義值集的所有組合——徹底但呈指數級增長的代價。隨機搜尋抽樣隨機組合，通常更有效率。貝葉斯優化使用超參數-效能景觀的機率模型來智慧地選擇下一個要嘗試的配置。基於群體的訓練在訓練過程中演化超參數排程，隨著訓練的進展進行調整。

Example Use Case

一個團隊微調一個 7B 模型，最初使用 2e-4 的學習率（過高），導致損失曲線在 100 步後發散。他們將其降低到 5e-5，看到穩定的收斂但最終效能不佳。在測試了 1e-5、2e-5 和 3e-5 的學習率以及 0.03 和 0.1 的預熱比例後，他們發現 2e-5 加 0.03 預熱產生了最佳的驗證指標——這個過程花了 6 次訓練運行，但比初始嘗試提高了 15%。