Fine-Tune Gemma 4 with Ertas

Google 2026 年 4 月开源权重模型家族——首个以 Apache 2.0 发布的 Gemma 代际，包含一个稠密 31B 旗舰、一个 26B-A3.8B 专家混合 (MoE) 变体，以及面向边缘优化的 4B 和 2B 模型，全部具备原生多模态能力。

2B (e2b)4B (e4b)26B-A3.8B31BGoogle

Overview

Gemma 4 于 2026 年 4 月 2 日发布，是 Google 迄今最重要的开源权重发布，也是许可立场的重大转变。以前的 Gemma 代际以自定义的 Gemma License 发布（包含使用限制并禁止某些应用），而 Gemma 4 以 Apache 2.0 发布——最宽松的标准开源许可证。这使 Gemma 在许可上与 Qwen、Mistral 和 OLMo 处于同等地位，并消除了商业集成的一个主要摩擦点。

该家族跨越四个尺寸：一个稠密 31B 旗舰模型，针对工作站和小型服务器部署；一个 26B-A3.8B 专家混合变体，专为消费级 GPU 推理设计，提供大模型质量；一个 4B 等效参数 (e4b) 边缘模型；以及一个 2B 等效参数 (e2b) 模型，针对手机和笔记本电脑上的设备端部署。所有四种变体共享通用的多模态架构——整个家族都支持文本、图像和短格式音频输入。

Gemma 4 在 Gemma 3 的多语言训练（140+ 种语言）和 128K 上下文窗口的基础上构建，同时在推理、编码和指令跟随方面大幅改进。MoE 变体特别被定位为 Google 对 Qwen 3 / DeepSeek V3 系列高效 MoE 模型的回应——结合稀疏激活效率与区分 Gemma 系列的工程和安全工作。

权重在 Hugging Face 上以 `google/gemma-4-31b`、`google/gemma-4-26b-moe`、`google/gemma-4-e4b` 和 `google/gemma-4-e2b` 提供。量化的 GGUF 构建、MLX 构建（用于 Apple Silicon）和 ONNX 导出广泛可用，反映了 Google 对跨平台部署的投入。

Key Features

Apache 2.0 许可是核心变化。对于商业用户，这消除了之前限制 Gemma 3 在受监管行业以及前许可证限制的用例中采用的使用政策不确定性。Gemma 4 权重、衍生品和微调变体可以商业使用，无需将 Gemma License 与标准开源权重发布区分开来的限制条款。

26B-A3.8B MoE 变体专门针对消费级硬件部署进行了工程设计。每个 token 仅激活 3.8B 参数，推理速度由活跃数量决定——可与 4B 稠密模型相媲美——而模型的有效质量在大多数基准上接近 31B 稠密变体。这使得在单块 24GB 消费级 GPU 上进行高质量本地推理成为可能，这是自托管开发者工具和本地应用的部署最佳点。

所有四种尺寸的原生多模态支持是不寻常的。大多数模型家族将多模态能力限制在旗舰变体，使较小的模型只能处理文本。Gemma 4 的 e2b 变体——仅 2B 等效参数——接受图像输入，使其成为最小的可信多模态开源权重模型，并解锁了之前需要服务器端推理的设备端模式，如 OCR、屏幕阅读助手和基于摄像头的增强现实应用。

128K 上下文窗口在整个家族中保持一致，Gemma 4 包括 Google 的标准安全栈：更新的 ShieldGemma 分类器、内容安全后训练，以及用于高保真工具使用的 PaliGemma 风格结构化输出支持。这些补充使 Gemma 4 对集成周期中包含安全审查的生产部署特别有吸引力。

Fine-Tuning with Ertas

Gemma 4 的家族尺寸涵盖了 Ertas Studio 中几乎所有的微调场景。e2b 和 e4b 边缘模型可以在具有 6-12GB VRAM 的消费级 GPU 上使用 QLoRA 微调，非常适合快速迭代和小规模专业化。26B-A3.8B MoE 变体由于其低活跃参数数量特别适合微调——QLoRA 在 24GB GPU 上轻松装入完整序列长度，训练速度大大快于同等大小的稠密模型。

31B 稠密旗舰需要更多内存进行微调。在典型序列长度（4K tokens）下，QLoRA 约需 28-40GB VRAM，可装入单块 48GB GPU 或两块 24GB GPU 配合模型并行。全参数微调在单 GPU 设置上不切实际，但在 Ertas Studio 的多 GPU 配置中受支持。

对于多模态微调，Ertas Studio 支持 Gemma 4 原生的交错文本和图像训练数据格式。这对视觉推理任务的领域适配特别有价值——在标注的医疗图像、技术图表、零售产品目录或行业特定的文档布局上进行微调。训练完成后，模型导出为 GGUF（保留多模态投影器）或用于 Apple Silicon 部署的 MLX，并具备与 Ollama、llama.cpp 和 LM Studio 的一键兼容性。

Use Cases

31B 稠密变体定位于企业应用中的高质量本地部署：受监管行业的聊天助手、内部知识检索、文档分析和工程团队的代码辅助。Apache 2.0 许可证结合强大的多语言能力使其自然适合之前主要因许可原因选择 Llama 或 Mistral 的公司。

26B-A3.8B MoE 变体在成本敏感的生产服务中表现出色。客户支持自动化、内容审核管道和文档处理工作流都受益于 4B 级别的推理速度，结合可与 31B 稠密模型竞争的质量。对于运行自托管推理并关注 token 成本经济性的团队，MoE 变体通常是正确的默认选择。

e4b 和 e2b 边缘模型针对设备端部署模式：具有隐私优先设计（无数据离开设备）的移动聊天助手、基于浏览器的 AI 工具、智能家居设备集成，以及连接不可靠的现场部署场景。这些小尺寸的原生多模态支持使其在基于摄像头和屏幕阅读应用中特别有价值。

Hardware Requirements

Gemma 4 e2b 模型在 Q4_K_M 量化下约需 1.5GB 内存，可在手机、笔记本电脑和任何具有 4GB+ VRAM 的 GPU 上运行。e4b 在 Q4_K_M 下约需 2.5GB，适用于任何现代消费设备。

26B-A3.8B MoE 变体需要加载所有专家权重——在 Q4_K_M 下约 16GB，在 Q8_0 下约 28GB。24GB 消费级 GPU（RTX 4090、RTX 5090）是部署最佳点。推理速度由 3.8B 活跃参数数量决定，因此 token 生成以约 4B 级别的速度运行，使该变体在其内存占用上异常快速。

稠密 31B 模型在 Q4_K_M 下约需 18-20GB VRAM，可装入单块 24GB GPU，并为上下文留有余量。在 Q8_0 下，预计约 33GB。在 Ertas Studio 中微调时：e2b/e4b 需要 6-12GB VRAM，26B-A3.8B MoE 需要 20-24GB，31B 稠密在典型训练序列长度下需要 28-40GB。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

MLX

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →