Fine-Tune Gemma 3 with Ertas
Google 基於 Gemini 技術打造的最新開放權重模型家族,提供 1B、4B、12B 和 27B 四種規格,具備原生多模態視覺語言能力和 128K token 上下文視窗。
Overview
Gemma 3 是 Google 的第三代開放權重模型家族,於 2025 年 3 月發布。基於驅動 Google Gemini 模型的相同研究和技術,Gemma 3 在其規格範圍內提供了頂尖效能。家族包含四種規格——1B、4B、12B 和 27B 參數——其中 4B 及更大的模型支援原生多模態輸入(文字和圖像)。
27B 旗艦模型特別值得注意,儘管參數量不到一半,卻在許多基準測試中匹敵或超越 Llama 3 70B。這種效率來自架構創新、訓練資料品質和 Google 在 Transformer 最佳化方面的豐富經驗。所有規格的模型都支援 128K token 的上下文視窗。
Gemma 3 使用密集 Transformer 架構,具有多項 Google 特有創新,包括用於提高訓練穩定性的 logit soft-capping、用於高效長上下文處理的交錯局部和全域注意力層,以及具有 262K 詞彙量的 SentencePiece 分詞器。龐大的詞彙量在不同語言間提供了卓越的分詞效率。
所有模型以 Gemma 授權發布,允許商業使用並附帶輕量級的負責任使用限制。Google 為包括 JAX、PyTorch 和 Keras 在內的多個框架提供最佳化版本,模型也得到包括 Ollama、llama.cpp 和 LM Studio 在內的更廣泛生態系統的良好支援。
Key Features
原生多模態能力是 Gemma 3 的突出特色(適用於 4B、12B 和 27B 規格) 。模型可以處理交錯的文字和圖像輸入,實現視覺問答、基於圖像的推理、圖表和文件理解以及多模態內容生成。這由直接整合到模型架構中的 SigLIP 視覺編碼器驅動,而非後期附加。
交錯的局部-全域注意力機制是一項架構創新,在局部滑動視窗注意力(用於高效處理鄰近上下文)和全域完整注意力(用於捕捉長距離依賴)之間交替使用。這種混合方法在顯著降低處理長序列的運算和記憶體成本的同時,達到接近完整注意力的品質。
Gemma 3 在指令跟隨、安全對齊和事實準確性方面表現特別出色。Google 的訓練過程包括廣泛的人類回饋強化學習和精心設計的安全評估,產生了校準良好、能抵抗常見越獄技術同時保持有用性的模型。
Fine-Tuning with Ertas
Gemma 3 模型是 Ertas Studio 中微調的出色候選。1B 模型只需 4-6GB VRAM 即可使用完整 LoRA 進行微調,4B 模型使用 QLoRA 需要 8-10GB,12B 需要 12-16GB,27B 使用 4 位 QLoRA 需要 16-24GB。27B 模型能匹敵 70B 級品質,使其成為微調的卓越價值選擇——您以非常合理的訓練成本獲得接近前沿的效能。
對於多模態微調,Ertas Studio 支援搭配 Gemma 3 的圖文資料集。上傳配對的圖文範例,平台會處理視覺編碼器整合和資料預處理。這使您能夠建立自訂視覺 AI 模型——例如,一個經微調的 Gemma 3 12B 可以從圖像中識別特定產品缺陷、閱讀專業醫學影像或處理特定行業的文件格式。
訓練後,Ertas Studio 以最佳化量化匯出為 GGUF 格式。Gemma 3 27B 在 Q4_K_M 下產生約 16GB 的模型,在消費級硬體上執行良好,提供的品質通常需要其他家族 40GB 以上的模型檔案。透過 Ollama 或 llama.cpp 部署即可實現即時本地推論。
Use Cases
Gemma 3 非常適合需要高品質和適度資源使用之間平衡的應用。27B 模型特別適合想要接近前沿品質而不需要執行 70B 以上模型成本的組織。它在複雜指令跟隨、分析性寫作、程式碼生成和多步驟推理任務方面表現出色。
多模態能力開啟了豐富的應用可能性:能夠閱讀和推理表單、發票和合約的文件處理管線;用於無障礙的視覺問答系統;從圖像豐富產品目錄;以及製造業中的自動化品質檢測。微調後的 Gemma 3 4B 或 12B 模型為特定領域視覺任務提供了出色的成本與品質權衡。
1B 模型作為簡單任務的快速高效選擇:文字分類、實體提取、情感分析和基本問答。它幾乎可以在任何硬體上執行,能以經濟高效的方式處理高吞吐量工作負載。
Hardware Requirements
Gemma 3 1B 在 Q4_K_M 下需要約 800MB RAM,適合邊緣裝置和行動部署。4B 模型需要約 2.5GB,12B 約 7.5GB,27B 在 Q4_K_M 下約 16GB。在 Q8_0 下,27B 模型需要約 29GB,適合單張 A6000 48GB 或配備 32GB 以上 RAM 的系統。
27B 模型的完整 FP16 推論需要約 54GB VRAM,適合 A100 80GB 或雙 A6000 配置。在 Q4_K_M 下的消費級 GPU 部署在 RTX 4090 24GB 上非常舒適,在配備 32GB 統一記憶體的 M 系列 MacBook 上也能 良好執行,約每秒 15-25 個 token。
在 Ertas Studio 中進行微調,27B 模型使用 QLoRA 需要 16-24GB VRAM(單張 RTX 4090 或 A5000),12B 需要 12-16GB,4B 需要 8-10GB。較小的模型允許在消費級硬體上快速迭代,然後再擴展到 27B 以獲得生產品質。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.