Fine-Tune Gemma 3 with Ertas

Google 基于 Gemini 技术构建的最新开放权重模型家族，提供 1B、4B、12B 和 27B 四种规模，具有原生多模态视觉-语言能力和 128K token 上下文窗口。

1B4B12B27BGoogle

Overview

Gemma 3 是 Google 的第三代开放权重模型家族，于 2025 年 3 月发布。基于驱动 Google Gemini 模型的相同研究和技术，Gemma 3 在其各种规模上提供了最先进的性能。该家族包括四种规模——1B、4B、12B 和 27B 参数——其中 4B 及以上模型支持原生多模态输入（文本和图像）。

27B 旗舰模型尤为值得关注，在许多基准测试上达到或超越 Llama 3 70B，而参数量不到其一半。这种效率来自架构创新、训练数据质量以及 Google 在 Transformer 优化方面的丰富经验。所有规模的模型均支持 128K token 的上下文窗口。

Gemma 3 使用稠密 Transformer 架构，包含若干 Google 特有的创新，包括用于提高训练稳定性的 logit 软封顶、用于高效长上下文处理的交错局部和全局注意力层，以及配备 262K 词表的 SentencePiece 分词器。大词表在跨语言方面提供了卓越的分词效率。

所有模型在 Gemma 许可下发布，允许商业使用并附有轻量级的负责任使用限制。Google 为包括 JAX、PyTorch 和 Keras 在内的多个框架提供了优化版本，模型也得到了包括 Ollama、llama.cpp 和 LM Studio 在内的更广泛生态系统的良好支持。

Key Features

原生多模态能力是 Gemma 3 的突出特性（4B、12B 和 27B 规模可用）。模型可以处理交错的文本和图像输入，支持视觉问答、基于图像的推理、图表和文档理解以及多模态内容生成。这由直接集成到模型架构中的 SigLIP 视觉编码器驱动，而非事后附加。

交错局部-全局注意力机制是一项架构创新，交替使用局部滑动窗口注意力（高效处理附近上下文）和全局完整注意力（捕获长距离依赖关系）。这种混合方法在显著降低处理长序列的计算和内存成本的同时，实现了接近完整注意力的质量。

Gemma 3 在指令遵循、安全对齐和事实准确性方面表现特别出色。Google 的训练过程包括广泛的基于人类反馈的强化学习和精心设计的安全评估，产生了校准良好、抵御常见越狱技术同时保持有用性的模型。

Fine-Tuning with Ertas

Gemma 3 模型是 Ertas Studio 中微调的优秀候选。1B 模型仅需 4-6GB VRAM 即可使用完整 LoRA 微调，4B 模型使用 QLoRA 需要 8-10GB，12B 需要 12-16GB，27B 使用 4 位 QLoRA 需要 16-24GB。27B 模型能够达到 70B 级别的质量，使其成为微调中性价比极高的选择——以非常可控的训练成本获得接近前沿的性能。

对于多模态微调，Ertas Studio 支持 Gemma 3 的图像-文本数据集。上传配对的图像-文本示例，平台会处理视觉编码器集成和数据预处理。这使得创建自定义视觉 AI 模型成为可能——例如，微调后的 Gemma 3 12B 可以识别图像中的特定产品缺陷、读取专业医学影像或处理行业特定的文档格式。

训练完成后，Ertas Studio 导出为具有优化量化的 GGUF 格式。Gemma 3 27B 在 Q4_K_M 下生成约 16GB 的模型，在消费级硬件上运行良好，提供的质量通常需要其他家族 40GB 以上的模型文件才能达到。通过 Ollama 或 llama.cpp 部署进行即时本地推理。

Use Cases

Gemma 3 非常适合需要高质量与适度资源使用平衡的应用。27B 模型特别适合希望获得接近前沿质量但不愿承担运行 70B 以上模型成本的组织。它擅长复杂指令遵循、分析性写作、代码生成和多步骤推理任务。

多模态能力开辟了丰富的应用可能性：能够阅读和推理表单、发票和合同的文档处理管道；用于无障碍的视觉问答系统；从图像中丰富产品目录；以及制造业中的自动化质量检测。微调后的 Gemma 3 4B 或 12B 模型为特定领域视觉任务提供了出色的成本质量权衡。

1B 模型作为简单任务的快速高效选项：文本分类、实体提取、情感分析和基础问答。它可以在几乎任何硬件上运行，能够以低成本处理高吞吐量工作负载。

Hardware Requirements

Gemma 3 1B 在 Q4_K_M 下约需 800MB 内存，适合边缘设备和移动部署。4B 模型约需 2.5GB，12B 约需 7.5GB，27B 在 Q4_K_M 下约需 16GB。在 Q8_0 下，27B 模型约需 29GB，可在单块 A6000 48GB 或配备 32GB 以上内存的系统上运行。

27B 模型的全精度 FP16 推理约需 54GB VRAM，适合 A100 80GB 或双 A6000 配置。在 Q4_K_M 下，消费级 GPU 部署在 RTX 4090 24GB 上很舒适，甚至在配备 32GB 统一内存的 M 系列 MacBook 上也能以约 15-25 个 token 每秒的速度良好运行。

在 Ertas Studio 中微调时，27B 模型使用 QLoRA 需要 16-24GB VRAM（单块 RTX 4090 或 A5000），12B 需要 12-16GB，4B 需要 8-10GB。较小的模型允许在消费级硬件上快速迭代，然后再扩展到 27B 以获得生产质量。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →