What is Parameter(參數)?
神經網路中的可學習值,模型在訓練期間調整以最小化預測誤差。
Definition
在機器學習中,參數是模型中在訓練期間從資料中學習的任何值。參數包括權重(縮放輸入特徵)和偏差(平移啟用值),它們共同定義了模型的行為。當實踐者提到「7B 參數模型」時,他們意味著模型包含大約 70 億個在大型語料庫上透過訓練調整的可學習值。
語言模型的參數數量是其最常被引用的規格,因為它與模型能力有很強的相關性。研究一致表明,在有足夠訓練資料的情況下,更大的模型(更多參數)學習更細緻的表示、展示更好的推理能力,並在下游任務上表現更好。這種關係被稱為神經擴展定律,預測模型效能隨參數數量呈冪律改善。
然而,參數數量本身並不決定模型品質。訓練資料品質、訓練時長(以看到的 token 數衡量)、架構選擇和訓練後對齊都顯著影響最終模型。一個訓練良好的 7B 參數模型可以優於訓練不佳的 13B 模型。此外,並非所有參數的貢獻是相等的——混合專家架構具有大量的總參數數量但每個輸入只啟用一小部分,而 LoRA 微調添加少量高影響力的參數而非修改所有現有參數。
Why It Matters
參數數量是決定模型硬體需求的主要因素。每個參數在推論期間必須以選定的精度儲存在記憶體中,而在訓練期間,還需要額外的記憶體用於梯度和優化器狀態——通常是權重記憶體的 4-8 倍。一個 7B 參數模型在 FP16 推論時大約需要 14 GB,訓練時需要 56-112 GB。這些需求直接決定了硬體成本和部署可行性。
對於實踐者來說,理解參數、品質和成本之間的關係能夠做出明智的模型選擇。在領域資料上微調的 3B 參數模型可能在特定任務上優於通用的 13B 模型,同時部署成本低 4 倍。這種參數數量和專業化之間的折衷是微調價值主張的核心。
How It Works
參數被組織成張量(多維陣列),對應於特定的模型組件。在 Transformer 中,關鍵的參數組包括嵌入矩陣(詞彙大小乘以隱藏維度)、注意力投射矩陣(每層 4 個,隱藏維度的平方)、前饋網路矩陣(每層 2 個,通常為隱藏維度乘以 4 倍隱藏維度)和層正規化參數(每層 2 個小向量)。
在訓練期間,每個參數透過梯度下降更新。梯度——透過反向傳播計算——指示變化的方向和幅度以減少損失。優化器應用梯度(可能帶有動量和自適應學習率)來產生新的參數值。這個過程 在訓練資料上重複數十億次優化步驟,逐漸將參數塑造成產生有用輸出的配置。
Example Use Case
一家新創公司為其客服聊天機器人評估三種模型大小:3B、7B 和 13B 參數。3B 模型在單一消費級 GPU 上運行但產生平庸的回應。13B 模型表現出色但需要昂貴的 A100 GPU。7B 模型在 5,000 個領域特定範例上微調後,在客服任務上匹配了 13B 模型的品質,同時可在價格實惠的 RTX 4090 上運行。他們選擇了微調的 7B,以參數數量換取特定任務的專業化。
Key Takeaways
- 參數是模型中所有可學習的值——權重和偏差——在訓練期間調整。
- 參數數量是 LLM 規模的主要規格,遵循神經擴展定律。
- 更多的參數通常意味著更好的能力,但也意味著更高的記憶體和計算成本。
- 微調可以使較小參數的模型在特定任務上與更大的通用模型競爭。
- 由於梯度和優化器狀態,訓練時每個參數需要的記憶體是推論的 4-8 倍。
How Ertas Helps
Ertas Studio 為每個基礎模型顯示參數數量和記憶體需求,幫助使用者根據其硬體和使用場景選擇合適的模型大小。Studio 中的 LoRA 微調只添加少量新參數,使大型模型的客製化變得可及。
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.