What is Parameter（參數）?

神經網路中的可學習值，模型在訓練期間調整以最小化預測誤差。

Definition

在機器學習中，參數是模型中在訓練期間從資料中學習的任何值。參數包括權重（縮放輸入特徵）和偏差（平移啟用值），它們共同定義了模型的行為。當實踐者提到「7B 參數模型」時，他們意味著模型包含大約 70 億個在大型語料庫上透過訓練調整的可學習值。

語言模型的參數數量是其最常被引用的規格，因為它與模型能力有很強的相關性。研究一致表明，在有足夠訓練資料的情況下，更大的模型（更多參數）學習更細緻的表示、展示更好的推理能力，並在下游任務上表現更好。這種關係被稱為神經擴展定律，預測模型效能隨參數數量呈冪律改善。

然而，參數數量本身並不決定模型品質。訓練資料品質、訓練時長（以看到的 token 數衡量）、架構選擇和訓練後對齊都顯著影響最終模型。一個訓練良好的 7B 參數模型可以優於訓練不佳的 13B 模型。此外，並非所有參數的貢獻是相等的——混合專家架構具有大量的總參數數量但每個輸入只啟用一小部分，而 LoRA 微調添加少量高影響力的參數而非修改所有現有參數。

Why It Matters

參數數量是決定模型硬體需求的主要因素。每個參數在推論期間必須以選定的精度儲存在記憶體中，而在訓練期間，還需要額外的記憶體用於梯度和優化器狀態——通常是權重記憶體的 4-8 倍。一個 7B 參數模型在 FP16 推論時大約需要 14 GB，訓練時需要 56-112 GB。這些需求直接決定了硬體成本和部署可行性。

對於實踐者來說，理解參數、品質和成本之間的關係能夠做出明智的模型選擇。在領域資料上微調的 3B 參數模型可能在特定任務上優於通用的 13B 模型，同時部署成本低 4 倍。這種參數數量和專業化之間的折衷是微調價值主張的核心。

How It Works

參數被組織成張量（多維陣列），對應於特定的模型組件。在 Transformer 中，關鍵的參數組包括嵌入矩陣（詞彙大小乘以隱藏維度）、注意力投射矩陣（每層 4 個，隱藏維度的平方）、前饋網路矩陣（每層 2 個，通常為隱藏維度乘以 4 倍隱藏維度）和層正規化參數（每層 2 個小向量）。

在訓練期間，每個參數透過梯度下降更新。梯度——透過反向傳播計算——指示變化的方向和幅度以減少損失。優化器應用梯度（可能帶有動量和自適應學習率）來產生新的參數值。這個過程在訓練資料上重複數十億次優化步驟，逐漸將參數塑造成產生有用輸出的配置。

Example Use Case

一家新創公司為其客服聊天機器人評估三種模型大小：3B、7B 和 13B 參數。3B 模型在單一消費級 GPU 上運行但產生平庸的回應。13B 模型表現出色但需要昂貴的 A100 GPU。7B 模型在 5,000 個領域特定範例上微調後，在客服任務上匹配了 13B 模型的品質，同時可在價格實惠的 RTX 4090 上運行。他們選擇了微調的 7B，以參數數量換取特定任務的專業化。