Fine-Tune Gemma 4 with Ertas

    Google 於 2026 年 4 月發布的開源權重模型家族——首個以 Apache 2.0 授權發布的 Gemma 世代,涵蓋密集 31B 旗艦、26B-A3.8B 專家混合變體,以及為邊緣最佳化的 4B 與 2B 模型,全部具備原生多模態能力。

    2B (e2b)4B (e4b)26B-A3.8B31BGoogle

    Overview

    Gemma 4 於 2026 年 4 月 2 日發布,是 Google 迄今最重要的開源權重發布,也是授權立場上的重大轉變。先前的 Gemma 世代以自訂的 Gemma 授權發布(包含使用限制並禁止某些應用),而 Gemma 4 則以 Apache 2.0 授權發布——最寬鬆的標準開源授權。這使 Gemma 在授權上與 Qwen、Mistral 和 OLMo 取得對等地位,並消除了商業整合的一大摩擦點。

    家族涵蓋四個規格:鎖定工作站與小型伺服器部署的密集 31B 旗艦模型;為消費級 GPU 推論而設計、提供大型模型品質的 26B-A3.8B 專家混合變體;4B 等效參數(e4b)邊緣模型;以及 2B 等效參數(e2b)模型,鎖定手機與筆記型電腦的裝置端部署。所有四個變體共享一個共同的多模態架構——整個家族都支援文字、影像與短時長音訊輸入。

    Gemma 4 建立於 Gemma 3 的多語言訓練(140+ 種語言)與 128K 上下文視窗之上,同時在推理、程式編寫與指令遵循上有大幅改進。MoE 變體特別被定位為 Google 對 Qwen 3 / DeepSeek V3 高效 MoE 模型線的回應——結合稀疏活化效率與 Gemma 系列獨有的工程與安全工作。

    權重可在 Hugging Face 上以 `google/gemma-4-31b`、`google/gemma-4-26b-moe`、`google/gemma-4-e4b` 與 `google/gemma-4-e2b` 取得。量化的 GGUF 版本、MLX 版本(用於 Apple Silicon)與 ONNX 匯出都廣泛可用,反映出 Google 對跨平台部署的投資。

    Key Features

    Apache 2.0 授權是頭條變化。對商業使用者而言,這消除了限制 Gemma 3 在受監管產業以及先前授權所限制的使用情境採用的使用政策不確定性。Gemma 4 的權重、衍生作品與微調變體可商業使用,無需先前 Gemma 授權與標準開源權重發布有別的限制條款。

    26B-A3.8B MoE 變體是專為消費級硬體部署而設計。每個 token 僅有 3.8B 活躍參數,推論速度由活躍量主導——與 4B 密集模型相當——而模型的有效品質在大多數基準上接近 31B 密集變體。這使單張 24GB 消費級 GPU 上的高品質本地推論變得實用,這也是自架開發者工具與本地部署應用的部署甜蜜點。

    所有四個規格都有原生多模態支援是不尋常的。大多數模型家族將多模態能力限制在旗艦變體,較小的模型則僅支援文字。Gemma 4 的 e2b 變體——僅有 2B 等效參數——可接受影像輸入,使其成為最小的可信開源權重多模態模型,並解鎖如 OCR、螢幕閱讀助理與基於相機的擴增實境應用等裝置端模式,這些以往都需要伺服器端推論。

    128K 上下文視窗在整個家族中保持一致,Gemma 4 也包含 Google 的標準安全堆疊:更新版的 ShieldGemma 分類器、內容安全後訓練,以及用於高保真工具使用的 PaliGemma 風格結構化輸出支援。這些增加使 Gemma 4 對於將安全審查作為整合週期一環的生產部署特別具吸引力。

    Fine-Tuning with Ertas

    Gemma 4 的家族規格涵蓋了 Ertas Studio 中幾乎所有的微調情境。e2b 與 e4b 邊緣模型可在配備 6-12GB VRAM 的消費級 GPU 上以 QLoRA 微調,非常適合快速迭代與小規模專業化。26B-A3.8B MoE 變體因為低活躍參數量特別適合微調——QLoRA 可舒適地裝在 24GB GPU 上以完整序列長度進行訓練,速度大幅快過同等規格的密集模型。

    31B 密集旗艦在微調時需要更多記憶體。在典型序列長度(4K token)下,QLoRA 約需 28-40GB VRAM,可裝在單張 48GB GPU 或兩張具備模型平行的 24GB GPU 上。在單 GPU 配置上進行全參數微調不切實際,但 Ertas Studio 的多 GPU 配置中支援。

    至於多模態微調,Ertas Studio 支援 Gemma 4 原生的交錯文字與影像訓練資料格式。這對視覺推理任務的領域適配特別有價值——在標註的醫學影像、技術圖表、零售產品目錄或產業特定文件版面上進行微調。訓練後,模型匯出為 GGUF(保留多模態投影器)或為 Apple Silicon 部署的 MLX,並具備一鍵 Ollama、llama.cpp 與 LM Studio 相容性。

    Use Cases

    31B 密集變體被定位於企業應用的高品質本地部署:受監管產業聊天助理、內部知識檢索、文件分析,以及工程團隊的程式碼協助。Apache 2.0 授權結合強勁的多語言能力,使其自然契合先前主要因授權考量而選擇 Llama 或 Mistral 的公司。

    26B-A3.8B MoE 變體在成本敏感的生產服務情境表現優異。客戶支援自動化、內容審核管線與文件處理工作流程都受益於 4B 級的推論速度,搭配可與 31B 密集模型競爭的品質。對於執行自架推論並關注 token 成本經濟學的團隊,MoE 變體通常是正確的預設選擇。

    e4b 與 e2b 邊緣模型鎖定裝置端部署模式:具備設計即隱私(資料不離開裝置)的行動聊天助理、瀏覽器內 AI 工具、智慧家庭裝置整合,以及連線不穩定的現場部署情境。這些小型規格上的原生多模態支援,使其對基於相機與螢幕閱讀的應用特別有價值。

    Hardware Requirements

    Gemma 4 e2b 模型在 Q4_K_M 量化下約需 1.5GB 記憶體,可在手機、筆記型電腦與任何配備 4GB+ VRAM 的 GPU 上運行。e4b 在 Q4_K_M 下約需 2.5GB,適合任何現代消費級裝置。

    26B-A3.8B MoE 變體需要載入所有專家權重——Q4_K_M 下約 16GB、Q8_0 下約 28GB。24GB 消費級 GPU(RTX 4090、RTX 5090)是部署甜蜜點。推論速度由 3.8B 活躍參數量主導,因此 token 生成以約 4B 級的速度執行,使這個變體在其記憶體佔用下異常地快。

    密集 31B 模型在 Q4_K_M 下約需 18-20GB VRAM,可裝在單張 24GB GPU 上並保留上下文的餘裕。在 Q8_0 下,預期約 33GB。在 Ertas Studio 中進行微調:e2b/e4b 需 6-12GB VRAM,26B-A3.8B MoE 需 20-24GB,密集 31B 在典型訓練序列長度下需 28-40GB。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.