Fine-Tune Gemma 3 with Ertas

Google 基於 Gemini 技術打造的最新開放權重模型家族，提供 1B、4B、12B 和 27B 四種規格，具備原生多模態視覺語言能力和 128K token 上下文視窗。

1B4B12B27BGoogle

Overview

Gemma 3 是 Google 的第三代開放權重模型家族，於 2025 年 3 月發布。基於驅動 Google Gemini 模型的相同研究和技術，Gemma 3 在其規格範圍內提供了頂尖效能。家族包含四種規格——1B、4B、12B 和 27B 參數——其中 4B 及更大的模型支援原生多模態輸入（文字和圖像）。

27B 旗艦模型特別值得注意，儘管參數量不到一半，卻在許多基準測試中匹敵或超越 Llama 3 70B。這種效率來自架構創新、訓練資料品質和 Google 在 Transformer 最佳化方面的豐富經驗。所有規格的模型都支援 128K token 的上下文視窗。

Gemma 3 使用密集 Transformer 架構，具有多項 Google 特有創新，包括用於提高訓練穩定性的 logit soft-capping、用於高效長上下文處理的交錯局部和全域注意力層，以及具有 262K 詞彙量的 SentencePiece 分詞器。龐大的詞彙量在不同語言間提供了卓越的分詞效率。

所有模型以 Gemma 授權發布，允許商業使用並附帶輕量級的負責任使用限制。Google 為包括 JAX、PyTorch 和 Keras 在內的多個框架提供最佳化版本，模型也得到包括 Ollama、llama.cpp 和 LM Studio 在內的更廣泛生態系統的良好支援。

Key Features

原生多模態能力是 Gemma 3 的突出特色（適用於 4B、12B 和 27B 規格）。模型可以處理交錯的文字和圖像輸入，實現視覺問答、基於圖像的推理、圖表和文件理解以及多模態內容生成。這由直接整合到模型架構中的 SigLIP 視覺編碼器驅動，而非後期附加。

交錯的局部-全域注意力機制是一項架構創新，在局部滑動視窗注意力（用於高效處理鄰近上下文）和全域完整注意力（用於捕捉長距離依賴）之間交替使用。這種混合方法在顯著降低處理長序列的運算和記憶體成本的同時，達到接近完整注意力的品質。

Gemma 3 在指令跟隨、安全對齊和事實準確性方面表現特別出色。Google 的訓練過程包括廣泛的人類回饋強化學習和精心設計的安全評估，產生了校準良好、能抵抗常見越獄技術同時保持有用性的模型。

Fine-Tuning with Ertas

Gemma 3 模型是 Ertas Studio 中微調的出色候選。1B 模型只需 4-6GB VRAM 即可使用完整 LoRA 進行微調，4B 模型使用 QLoRA 需要 8-10GB，12B 需要 12-16GB，27B 使用 4 位 QLoRA 需要 16-24GB。27B 模型能匹敵 70B 級品質，使其成為微調的卓越價值選擇——您以非常合理的訓練成本獲得接近前沿的效能。

對於多模態微調，Ertas Studio 支援搭配 Gemma 3 的圖文資料集。上傳配對的圖文範例，平台會處理視覺編碼器整合和資料預處理。這使您能夠建立自訂視覺 AI 模型——例如，一個經微調的 Gemma 3 12B 可以從圖像中識別特定產品缺陷、閱讀專業醫學影像或處理特定行業的文件格式。

訓練後，Ertas Studio 以最佳化量化匯出為 GGUF 格式。Gemma 3 27B 在 Q4_K_M 下產生約 16GB 的模型，在消費級硬體上執行良好，提供的品質通常需要其他家族 40GB 以上的模型檔案。透過 Ollama 或 llama.cpp 部署即可實現即時本地推論。

Use Cases

Gemma 3 非常適合需要高品質和適度資源使用之間平衡的應用。27B 模型特別適合想要接近前沿品質而不需要執行 70B 以上模型成本的組織。它在複雜指令跟隨、分析性寫作、程式碼生成和多步驟推理任務方面表現出色。

多模態能力開啟了豐富的應用可能性：能夠閱讀和推理表單、發票和合約的文件處理管線；用於無障礙的視覺問答系統；從圖像豐富產品目錄；以及製造業中的自動化品質檢測。微調後的 Gemma 3 4B 或 12B 模型為特定領域視覺任務提供了出色的成本與品質權衡。

1B 模型作為簡單任務的快速高效選擇：文字分類、實體提取、情感分析和基本問答。它幾乎可以在任何硬體上執行，能以經濟高效的方式處理高吞吐量工作負載。

Hardware Requirements

Gemma 3 1B 在 Q4_K_M 下需要約 800MB RAM，適合邊緣裝置和行動部署。4B 模型需要約 2.5GB，12B 約 7.5GB，27B 在 Q4_K_M 下約 16GB。在 Q8_0 下，27B 模型需要約 29GB，適合單張 A6000 48GB 或配備 32GB 以上 RAM 的系統。

27B 模型的完整 FP16 推論需要約 54GB VRAM，適合 A100 80GB 或雙 A6000 配置。在 Q4_K_M 下的消費級 GPU 部署在 RTX 4090 24GB 上非常舒適，在配備 32GB 統一記憶體的 M 系列 MacBook 上也能良好執行，約每秒 15-25 個 token。

在 Ertas Studio 中進行微調，27B 模型使用 QLoRA 需要 16-24GB VRAM（單張 RTX 4090 或 A5000），12B 需要 12-16GB，4B 需要 8-10GB。較小的模型允許在消費級硬體上快速迭代，然後再擴展到 27B 以獲得生產品質。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →