Fine-Tune SmolLM with Ertas

    HuggingFace 的超緊湊語言模型家族,提供 135M、360M 和 1.7B 三種規格,使用高品質 Cosmopedia 合成資料集訓練,專為資源需求最低的裝置端 AI 應用而設計。

    135M360M1.7BHuggingFace

    Overview

    SmolLM 是由 HuggingFace 開發的緊湊型語言模型家族,專為在邊緣裝置、行動電話和資源受限環境中部署而設計。家族包含三種規格:135M、360M 和 1.7B 參數。儘管體積微小,SmolLM 模型展現了出人意料的能力表現,在每參數效率指標上超越了許多更大的模型。

    模型使用以 Cosmopedia 為核心的精心策劃資料混合進行訓練,Cosmopedia 是一個由更大模型生成的教科書風格內容的大型合成資料集。這種教育性內容結合過濾的網路資料和程式碼,產生了相對於其規格具有強大基礎知識的模型。SmolLM 2(當前一代)的 1.7B 模型使用約 11 兆個 token 進行訓練——這是一個異常高的資料與參數比,最大化了模型有限參數中的資訊密度。

    在架構方面,SmolLM 使用縮小到目標規格的標準密集 Transformer 解碼器。135M 模型有 12 層,隱藏維度 576;360M 有 32 層,隱藏維度 640;1.7B 有 24 層,隱藏維度 2048。所有模型使用分組查詢注意力和 RoPE 位置嵌入,支援最多 8K token 的上下文視窗。

    SmolLM 模型以 Apache 2.0 授權發布。HuggingFace 以多種格式提供模型,包括 ONNX(跨平台部署)、CoreML(Apple 裝置)和標準 safetensors,使 SmolLM 成為部署最靈活的模型家族之一。

    Key Features

    Cosmopedia 訓練資料集是 SmolLM 的關鍵差異化特色。這個合成資料集包含數十億 token 的教科書品質教育內容,涵蓋科學、數學、歷史、技術和通用知識。透過在策劃的教育內容而非原始網路文本上訓練,SmolLM 模型比在未過濾資料上訓練的同規格模型發展出更有結構的知識表示,帶來更好的推理和事實準確性。

    多格式模型可用性使 SmolLM 在跨平台部署方面異常容易。HuggingFace 提供 ONNX 匯出(跨平台部署)、CoreML 套件(iOS 和 macOS 整合)、TensorFlow Lite(Android)和 WebAssembly 構建(瀏覽器部署)。這意味著單一 SmolLM 模型可以使用每個平台的原生執行時最佳化部署在 iOS 應用、Android 應用、桌面應用、網頁和伺服器後端上。

    135M 模型特別值得注意——在 FP16 下不到 300MB,它是可用的最小連貫語言模型之一。它可以在僅有 512MB 可用 RAM 的裝置上執行,開啟了在超低資源裝置、功能手機和具有外部 RAM 的深度嵌入式系統上的部署場景。雖然其能力與十億參數模型相比有限,但它能有效處理分類、簡單提取和基於範本的生成等專注任務。

    Fine-Tuning with Ertas

    SmolLM 模型是 Ertas Studio 中最快速且最節省資源的微調模型。135M 模型僅需 1-2GB VRAM 即可進行完整微調(不僅是 LoRA)——這幾乎可在任何 GPU 上執行,包括較舊的筆記型電腦 GPU。360M 模型需要 2-3GB 進行完整微調,1.7B 模型需要 3-5GB 用於 QLoRA 或 6-8GB 進行完整微調。

    小巧的模型規格使獨特的微調工作流程成為可能:您可以負擔嘗試許多配置。在一個下午執行 10-20 個實驗,變化資料集組成、學習率、訓練時間和 LoRA rank。這種快速迭代比使用每次訓練都需要數小時的較大模型更快地產生最佳化良好的模型。

    微調後,Ertas Studio 匯出為 GGUF 格式。SmolLM GGUF 檔案非常小:135M 在 Q4_K_M 下約 100MB,360M 約 230MB,1.7B 約 1GB。這些可以直接捆綁到應用程式中、透過應用商店分發或包含在容器映像中,對大小影響可忽略不計。透過 Ollama 部署進行本地 API 存取或透過 llama.cpp 的函式庫介面直接整合。

    Use Cases

    SmolLM 模型專為模型必須作為應用程式一部分提供的裝置端 AI 而設計。需要離線文本處理的行動應用、內建 AI 功能的瀏覽器擴充功能、帶有整合助手的桌面應用程式和具有本地智慧的物聯網裝置都受益於 SmolLM 的最小佔用。模型檔案小到可以透過行動網路下載並儲存在行動裝置上而不會造成顯著的儲存影響。

    專注的 NLP 任務是 SmolLM 的最佳領域:文本分類、情感分析、實體提取、語言偵測、簡單摘要和基於範本的生成。在任務特定資料上微調後,SmolLM 模型在窄任務上可以匹配更大模型的準確性,同時執行速度快了數個數量級且成本更低。許多生產系統使用 SmolLM 進行高吞吐量的分類和路由任務。

    SmolLM 對隱私敏感的應用也很有價值,其中資料不能離開裝置。健康應用、金融應用和訊息應用的裝置端文本分析可以使用 SmolLM 在不需要任何網路通訊的情況下在本地處理敏感資訊。模型的小巧規格意味著它可以作為背景服務執行而不影響使用者體驗。

    Hardware Requirements

    SmolLM 135M 在 Q4_K_M 下需要約 100MB RAM——幾乎可在過去十年製造的任何運算裝置上執行。360M 模型需要約 230MB,1.7B 需要約 1GB。即使在 FP16 下,需求也很小:270MB(135M)、720MB(360M)和 3.4GB(1.7B)。這些是任何能夠連貫生成的語言模型中最低的需求之一。

    推論速度由於微小的模型規格而異常快速。135M 模型在現代 CPU 上每秒生成 100 個以上 token。1.7B 模型在 RTX 4090 上使用 Q4_K_M 每秒生成 100 個以上 token,CPU 上每秒 30-50 個 token。在行動裝置上,135M 和 360M 模型提供即時推論,每個 token 的延遲低於 50ms。

    在 Ertas Studio 中進行微調,135M 需要 1-2GB VRAM(完整微調),360M 需要 2-3GB,1.7B 需要 3-5GB(QLoRA)或 6-8GB(完整微調)。較小模型的完整訓練在幾分鐘內完成,使極快速的迭代成為可能。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.