Fine-Tune SOLAR with Ertas

Upstage 透過深度上擴展（depth up-scaling）這一新穎技術建立的 107 億參數模型，透過合併和擴展預訓練模型的層來以高效推論成本達到更大模型的品質。

10.7BUpstage

Overview

SOLAR 10.7B 是由韓國 AI 公司 Upstage 開發的大型語言模型。於 2023 年 12 月發布，SOLAR 引入了一種名為深度上擴展（DUS）的創新模型建立技術，透過智慧地複製和合併較小預訓練模型的層來產生更大、更強的模型。從基於 Llama 2 的架構開始，Upstage 使用 DUS 建立了一個 10.7B 參數模型，在關鍵基準測試上超越了許多現有的 13B 模型，並與一些 30B 以上的模型競爭。

深度上擴展的方法是取一個預訓練模型，複製其一部分層，然後對擴展後的模型進行繼續預訓練。這允許新模型繼承原始預訓練權重的知識，同時從額外的層獲得更大的容量。結果是一個訓練速度更快且品質高於從零開始訓練 10.7B 模型的模型。

SOLAR 10.7B 使用具有 48 層、4096 隱藏維度和 32 個注意力頭的密集 Transformer 架構。支援分組查詢注意力以實現高效推論，使用 4K token 的上下文視窗，可透過 RoPE 縮放擴展。模型使用具有 32K 詞彙量的 Llama 分詞器。

指令微調變體（SOLAR 10.7B Instruct）使用監督微調和直接偏好最佳化（DPO）的組合進行訓練，展現了強大的指令跟隨、對話能力和推理技能。SOLAR 以 Apache 2.0 授權發布，可完全商業使用。

Key Features

深度上擴展（DUS）是 SOLAR 對模型開發社群的開創性貢獻。該技術證明了可以透過複製層並繼續訓練從現有預訓練模型高效建立更大的新模型，而非從零開始訓練。這種方法顯著降低了在目標規格上產生強大模型所需的運算成本和時間，該技術此後影響了其他模型縮放策略。

SOLAR 10.7B 在模型規格領域佔據了一個有趣的位置——它介於流行的 7B 和 13B 之間。這個 10.7B 規格相比 7B 模型提供了有意義的品質提升，同時在記憶體和推論速度方面比 13B 模型更高效。對於 7B 品質不足但 13B 資源有壓力的應用，SOLAR 提供了一個有吸引力的中間地帶。

經 DPO 訓練的指令變體除了英語外，在韓語語言任務上也展現了特別強的效能，反映了 Upstage 對韓國市場的關注。這使 SOLAR 成為韓英雙語應用的值得注意的選項，儘管它從根本上是一個具有廣泛語言支援的通用模型。

Fine-Tuning with Ertas

SOLAR 10.7B 由於其適中的規格，在 Ertas Studio 中微調非常方便。QLoRA 微調需要約 8-12GB VRAM，完全在 RTX 4070 Ti 12GB、RTX 4080 16GB 或 RTX 4090 24GB 等消費級 GPU 的能力範圍內。模型的深度上擴展架構意味著它比典型的 10B 模型有更多層（48 對通常的 32），提供了更多潛在的 LoRA 插入點以實現細粒度的適應。

在 Ertas Studio 中，選擇 SOLAR 10.7B 作為基礎模型，以 JSONL 或 CSV 格式上傳資料集，並配置 LoRA 參數。模型對 16-64 的 LoRA rank 和約 1e-4 到 3e-4 的學習率反應良好。10,000 個範例的訓練通常在單張 GPU 上 1-3 小時內完成，使迭代開發變得實際。

微調後，Ertas Studio 匯出為 GGUF 格式。10.7B 模型在 Q4_K_M 下產生約 6.5GB 的檔案——非常適合本地部署。透過 Ollama、llama.cpp 或 LM Studio 部署即可立即使用。略高於 7B 的規格意味著 SOLAR 微調模型提供了比 7B 替代品明顯更好的品質，同時保持高度可攜帶性。

Use Cases

SOLAR 10.7B 非常適合 7B 模型略顯不足但 13B 以上模型資源過於密集的應用。對話式 AI、內容生成、客戶支援自動化和文件摘要都受益於 SOLAR 額外參數帶來的品質提升。模型對韓語應用特別有效，使其成為在韓國營運的企業的強力選擇。

模型強大的指令跟隨能力使其適合結構化輸出生成：JSON 提取、表單填寫、資料分類和基於範本的內容建立。微調後的 SOLAR 模型可以作為自動化工作流程中可靠的資料處理引擎。

SOLAR 對探索模型縮放的教育和研究情境也很有價值。深度上擴展技術為建立針對特定部署限制最佳化的自訂模型規格開闢了可能性。研究人員可以研究層複製和繼續訓練對模型行為、知識保留和能力縮放的影響。

Hardware Requirements

SOLAR 10.7B 在 Q4_K_M 量化下需要約 6.5GB RAM，可在大多數配備 8-16GB RAM 的系統和配備 8GB 以上 VRAM 的 GPU 上舒適執行。在 Q8_0 下約 11.5GB，適合 16GB GPU 和 16GB 以上 RAM 的系統。完整 FP16 推論需要約 21.5GB VRAM，可在 RTX 4090 24GB 或 A5000 24GB 上實現。

消費級硬體上的推論速度出色。在 RTX 4090 上使用 Q4_K_M 量化，預計每秒 45-60 個 token。在搭載 16GB 統一記憶體的 Apple M2 Pro 上，預計每秒 12-18 個 token。現代硬體上使用 Q4_K_M 的 CPU 推論通常每秒 5-10 個 token。

在 Ertas Studio 中使用 QLoRA 進行微調，建議 8-12GB VRAM。完整 LoRA（不量化）需要約 16-18GB VRAM。模型的適中規格允許即使在消費級 GPU 上也能使用合理的批次大小，實現高效訓練。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →