What is Base Model（基礎模型）?

一個在大型通用語料庫上預訓練的基礎模型，作為針對領域特定任務進行微調的起點。

Definition

基礎模型（也稱為基礎大模型或預訓練模型）是一個經過大規模預訓練的大型神經網路——通常使用從網際網路、書籍、程式碼庫和其他文字來源中抓取的數兆 token。在預訓練過程中，模型學習通用的語言理解能力：語法、事實、推理模式，甚至基本的程式設計能力。流行的基礎模型家族包括 Meta 的 Llama、Mistral AI 的 Mistral 和 Mixtral、Microsoft 的 Phi 以及 Google 的 Gemma。

基礎模型是刻意設計為通用的。它們並未針對任何單一任務進行優化，而是作為多功能基底，可以透過微調、指令調優或人類回饋強化學習（RLHF）來適應特定應用。可以將基礎模型想像為一位知識廣博的通才，對所有事物略知一二，但缺乏特定工作所需的專業知識——微調則提供了這種專業化。

基礎模型通常以多種大小發布（例如 1B、3B、7B、13B、70B 參數），為從業者提供了能力與成本之間的權衡光譜。較小的模型更快、更便宜地微調和部署，而較大的模型通常展現更強的推理能力和更廣泛的知識。基礎模型的選擇是任何微調專案中最具決定性的決策之一，因為它決定了最終專業化模型能夠達到的上限。

Why It Matters

從頭開始訓練語言模型需要數百萬美元的計算資源、數月的工程時間和精心策劃的 TB 級資料集。基礎模型將所有這些投資封裝到一個可重用的構件中，任何人都可以下載和使用。透過從強大的基礎模型開始，組織只需要數千個領域特定範例和幾個小時的微調就能達到生產品質的結果——這只是從頭訓練所需成本和時間的一小部分。開源基礎模型生態系統使各種規模的團隊都能使用最先進的 AI。

How It Works

基礎模型透過一個稱為預訓練的過程建立，其中模型被訓練來預測大規模資料集中序列的下一個 token。這種下一個 token 預測目標迫使模型內化語言模式、事實知識和推理啟發式方法。預訓練通常在數百或數千個 GPU 的集群上運行數週或數月。由此產生的檢查點——一組權重張量——就是基礎模型。然後以開源或開放權重許可發布，供社群下載、評估和針對特定應用進行微調。

Example Use Case

一家法律科技公司評估了 Llama 3 8B、Mistral 7B 和 Phi-3 Mini 作為合約分析助手的候選基礎模型。在對每個模型進行一組法律推理任務的基準測試後，他們選擇了 Mistral 7B，因為它在長上下文法律段落上表現優異。然後他們使用 LoRA 在 15,000 個已標註的合約條款上進行微調，產出了一個繼承了基礎模型通用語言能力同時擅長條款提取和風險評分的專業化模型。

Key Takeaways

基礎模型是一個預訓練的基礎，封裝了大規模訓練中的通用語言理解。
微調基礎模型在成本和時間上都遠比從頭訓練更高效。
模型大小（參數數量）是一個關鍵權衡：較大的模型更有能力但運行更昂貴。
基礎模型的選擇設定了下游微調模型的表現上限。
開源基礎模型（Llama、Mistral、Phi、Gemma）使最先進的 AI 民主化。

How Ertas Helps

Ertas Studio 提供精選的基礎模型目錄，使用者可以選擇作為微調專案的起點。平台支援 Llama、Mistral 和 Phi 等流行的開源家族，並為每個模型提供有關大小、能力和硬體需求的清晰資訊。Ertas 自動處理模型下載、格式轉換和 GPU 分配，讓使用者可以專注於為其用例選擇正確的基礎模型，而無需糾結於基礎設施。