
微調 Gemma 3:Google 專為裝置端部署設計的輕量模型
Gemma 3 專為裝置端推論而優化——手機、平板、邊緣硬體。以下是如何針對行動 AI 功能與 IoT 應用進行微調,讓它在無需伺服器的環境下運行。
在手機、Raspberry Pi 或 IoT 閘道器上執行 AI——完全不依賴伺服器——徹底改變了什麼是可能的。沒有網路往返的延遲。沒有隨用戶數增長的 API 費用。不依賴網路連線。資料完全私密,因為什麼都不會離開裝置。
Gemma 3 是 Google 專為此目的 打造的開放模型系列。Llama 和 Qwen 是為伺服器端推論設計、再壓縮至較小硬體的,而 Gemma 3 從一開始就是為資源受限環境所設計的。其結果是一個運行更快、記憶體占用更少、在同等參數量下比競爭對手更優雅地處理裝置端限制的模型。
4B 模型是大多數裝置端部署的目標。在 Q4_K_M 量化下,它可以運行在不到 3 GB 的 RAM 中——完全在現代智慧型手機、Raspberry Pi 5 或瀏覽器分頁的能力範圍內。當你針對特定任務進行微調後,它可以達到比它大 5 倍的模型的同等水準。
Gemma 3 模型規格
| 模型 | 參數量 | 大小 (Q4_K_M) | 所需 RAM | 目標部署 |
|---|---|---|---|---|
| Gemma 3 1B | 1B | 0.7 GB | 1.2 GB | 微控制器、穿戴裝置、超受限環境 |
| Gemma 3 4B | 4B | 2.5 GB | 3.5 GB | 手機、平板、Raspberry Pi、瀏覽器 |
| Gemma 3 12B | 12B | 7.5 GB | 9 GB | 筆記型電腦、桌面應用、邊緣伺服器 |
| Gemma 3 27B | 27B | 16 GB | 19 GB | 工作站、GPU 伺服器 |
4B 模型是裝置端部署的最佳選擇。它夠大,足以處理有意義的任務(分類、擷取、簡單生成、意圖偵測),又夠小,能在人們已擁有的硬體上運行。
1B 模型適用於極端受限的場景——穿戴裝置、嵌入式系統,或需要絕對最小體積的情境。它能處理簡單的分類和短形式任務,但在需要超過基礎模式匹配的任何事情上都會遇到困難。
為何選擇 Gemma 用於裝置端
架構優化
Google 在設計 Gemma 3 時就考慮到裝置端推論:
- 交替層的滑動視窗注意力機制在同等上下文長度下,比完整注意力機制減少 30-40% 的記憶體使用。對於裝置端,這意味著你可以處理更長的輸入而不耗盡 RAM。
- 分組查詢注意力 (GQA) 採用 1:4 比例壓縮 KV 快取,減少推論期間的記憶體分配。在只有 6 GB RAM 的手機上,這是能否順利運行的關鍵差異。
- RMSNorm 搭配可學習縮放而非 LayerNorm——每層稍微更快,在 CPU/NPU 硬體上數十億次運算累積下來效果顯著。
- Logit 軟截止穩定輸出概率,降低量化模型產生退化輸出的機率。當你在手機 NPU 上以 Q4_0 運行時,這種穩定性至關重要。
推論速度比較
Gemma 3 4B 與同類模型在不同硬體上 的比較,全部使用 Q4_K_M:
| 硬體 | Gemma 3 4B | Qwen 2.5 3B | Phi-3.5 Mini 3.8B | Llama 3.2 3B |
|---|---|---|---|---|
| iPhone 15 Pro (ANE) | 28 t/s | 22 t/s | 19 t/s | 24 t/s |
| Pixel 8 Pro (GPU) | 22 t/s | 17 t/s | 15 t/s | 19 t/s |
| Raspberry Pi 5 (8GB, CPU) | 6.4 t/s | 5.1 t/s | 4.2 t/s | 5.5 t/s |
| M2 MacBook Air (GPU) | 48 t/s | 38 t/s | 33 t/s | 41 t/s |
| 瀏覽器 (WebLLM, Chrome) | 12 t/s | 9 t/s | 8 t/s | 10 t/s |
Gemma 3 在所有裝置端目標上比同等大小的模型快 15-30%。在 iPhone 的 Apple Neural Engine 上,優勢尤為明顯——Google 針對 Apple 的 ML 硬體優化了權重佈局。
記憶體占用
| 模型 | Q4_K_M 大小 | 峰值 RAM (2K 上下文) | 峰值 RAM (4K 上下文) |
|---|---|---|---|
| Gemma 3 4B | 2.5 GB | 3.2 GB | 3.8 GB |
| Qwen 2.5 3B | 2.0 GB | 2.8 GB | 3.5 GB |
| Phi-3.5 Mini 3.8B | 2.3 GB | 3.4 GB | 4.3 GB |
| Llama 3.2 3B | 2.0 GB | 2.9 GB | 3.6 GB |
Gemma 3 4B 的基礎大小略高於 3B 模型(因為參數更多),但其 KV 快取效率意味著在較長上下文長度下差距縮小。在 4K 上下文時,Gemma 使用的 RAM 比 Phi-3.5 Mini 少,儘管其參數多了 2 億個。
微調 4B 模型
VRAM 需求
| 配置 | VRAM |
|---|---|
| QLoRA (rank 16, 4-bit 基礎) | 6 GB |
| QLoRA (rank 32, 4-bit 基礎) | 8 GB |
| LoRA (rank 16, FP16 基礎) | 12 GB |
| 完整微調 (FP16) | 18 GB |
你可以在 RTX 3060 12GB、RTX 4060 8GB,或擁有 16 GB 統一記憶體的 M1 MacBook Pro 上以 QLoRA 微調 Gemma 3 4B。訓練速度很快——500 個範例在 rank 16 下通常在 12-18 分鐘內完成。
裝置端任務的資料集策略
裝置端任務有特定限制,應該塑造你的訓練資料:
簡短輸入,簡潔輸出。 在裝置端,每個 token 都有延遲和記憶體成本。訓練模型產生最小化的結構化輸出:
{"instruction": "Classify intent", "input": "Where's my order?", "output": "order_status"}
{"instruction": "Classify intent", "input": "I want to cancel", "output": "cancellation"}
{"instruction": "Classify intent", "input": "How do I change my payment method?", "output": "account_settings"}
而非:
{"instruction": "Classify the customer's intent from the following message", "input": "Where's my order?", "output": "The customer's intent is to check their order status. Category: order_status"}
冗長版本在輸入(較長的指令)和輸出(沒人要求的解釋)兩方面都浪費了 token。在以 28 t/s 生成的手機上,每個不必要的 token 都增加 36ms 的延遲。
針對延遲敏感模式進行優化。 如果模型需要在 200ms 內回應,你的訓練輸出應該少於 15 個 token。相應地設計你的任務格式。單標籤分類(1 個 token 輸出)是裝置端的理想選擇。簡短的 JSON 物件(5-10 個 token)是可接受的。段落長度的生成不適合延遲敏感的裝置端使用。
包含真實裝置使用中的邊緣案例。 行動用戶的輸入方式與桌面用戶不同——更多錯字、更多縮寫、更多非正式語言。在訓練資料中加入混亂的真實輸入:
{"instruction": "Classify intent", "input": "cant login pls help", "output": "authentication"}
{"instruction": "Classify intent", "input": "where tf is my package", "output": "order_status"}
{"instruction": "Classify intent", "input": "refudn pls", "output": "refund"}
訓練配置
Gemma 3 4B 裝置端微調的建議設定:
| 參數 | 值 | 備註 |
|---|---|---|
| LoRA rank | 16 | 足 夠用於分類/擷取 |
| 學習率 | 2e-4 | 標準值 |
| Epochs | 5-6 | 小模型需要更多訓練輪次 |
| Batch size | 8 | 較小的模型允許較大的批次 |
| 最大序列長度 | 512 | 裝置端任務保持簡短 |
| Warmup ratio | 0.1 | 稍高以提高穩定性 |
將最大序列長度設為 512 而非預設的 2048,可以顯著加快訓練速度,並產生針對裝置端使用典型的短輸入優化的模型。如果你的裝置端任務涉及較長的文件,可根據需要增加到 1024 或 2048。
GGUF 匯出與行動裝置量化
微調後,匯出為 GGUF 格式。你選擇的量化等級取決於你的部署目標:
| 量化 | 模型大小 | 品質損失 | 最適合 |
|---|---|---|---|
| Q4_0 | 2.1 GB | 3-4% | 最小體積,記憶體受限裝置 |
| Q4_K_M | 2.5 GB | 1.5-2% | 良好平衡,大多數行動部署 |
| Q5_K_M | 2.9 GB | 0.5-1% | 較高品質,有 4 GB 以上可用 RAM 的裝置 |
| Q8_0 | 4.2 GB | 低於 0.5% | 接近無損,筆記型電腦和桌面電腦 |
對於近 2-3 年的手機(6 GB 以上 RAM)上的行動應用,Q4_K_M 是預設推薦。它夠小,足以與作業系統和其他應用程式共存,夠快以提供即時回應,且品質損失對分類和擷取任務來說微不足道。
對於 Raspberry Pi 或其他記憶體受限的邊緣裝置,Q4_0 節省 400 MB RAM,這可能是能否運行的關鍵差異。對簡單分類任務來說,品質下降是可以接受的。
對於透過 WebLLM 的瀏覽器部署,使用 Q4_0 或 Q4_K_M——模型需要下載到瀏覽器並放入 GPU 記憶體(與瀏覽器其他部分共享)。越小越好。
整合模式
React Native 搭配本地模型
使用 llama.rn 進行 React Native 整合。該函式庫封裝了 llama.cpp 並提供 JavaScript API:
- 將 GGUF 檔案打包進你的應 用程式(或在首次啟動時下載)
- 在應用程式啟動時初始化模型(在 iPhone 15 上需要 2-4 秒)
- 透過 JS bridge 執行推論
- 模型在記憶體中保持載入,直到應用程式進入背景
典型分類延遲:包含 bridge 開銷在內 80-150ms。相比之下,API 呼叫最少需要 600-1,200ms。
原生 iOS 搭配 Core ML
使用 Google 的轉換工具將你的 GGUF 轉換為 Core ML 格式。Core ML 模型在 Apple Neural Engine 上執行,比 GPU 推論更快且更省電:
- iPhone 15 Pro:ANE 上 32-35 t/s,GPU 上 22-25 t/s
- 電池影響:ANE 在相同工作負載下比 GPU 少用約 40% 電力
- 記憶體:Core ML 比 llama.cpp 更有效率地管理模型記憶體
權衡之處:Core ML 轉換是額外步驟,且你失去一些彈性(無動態量化,固定批次大小)。對生產 iOS 應用值得;對原型開發則不值得。
原生 Android 搭配 NNAPI
在 Android 上,使用 llama.cpp 的 NNAPI 後端在 Qualcomm、MediaTek 和 Samsung NPU 上進行硬體加速推論:
- Pixel 8 Pro (Tensor G3):NPU 上 22-25 t/s
- Samsung S24 (Snapdragon 8 Gen 3):NPU 上 26-30 t/s
- 電池:NPU 推論比 CPU 少用 50-60% 電力
NNAPI 支援因裝置而異。務必包含 CPU 備用路徑。
透過 WebLLM 的瀏覽器端
WebLLM 使用 WebGPU 在瀏覽器中執行 GGUF 模型:
- M2 MacBook 上的 Chrome:15-18 t/s
- 遊戲筆記型電腦 (RTX 4060) 上的 Chrome:20-25 t/s
- iPhone 15 Pro 上的 Chrome:8-10 t/s
模型下載一次後快取在瀏覽器儲存空間中(IndexedDB)。後續載入幾乎即時。適合需要離線功能或資料隱私的網頁應用程式。
透過 llama.cpp 的 Raspberry Pi
對於 IoT 和邊緣部署,在 Pi 上直接執行 llama.cpp:
- Raspberry Pi 5 (8 GB):Gemma 3 4B 在 Q4_K_M 下,6-7 t/s
- Raspberry Pi 5 (4 GB):Gemma 3 4B 在 Q4_0 下,5-6 t/s(很緊但可用)
- Raspberry Pi 4 (8 GB):Gemma 3 4B 在 Q4_0 下,2-3 t/s(可用於批次處理)
對於 Pi 4,考慮使用 Gemma 3 1B 模型——它在 Q4_K_M 下以 8-10 t/s 運行,並能可靠地處理簡單分類。
真實裝置效能基準測試
微調過的 Gemma 3 4B (Q4_K_M) 在 12 類意圖分類任務上的表現(500 個訓練範例):
| 裝置 | 準確率 | 延遲(平均) | 延遲(P99) | Tokens/sec |
|---|---|---|---|---|
| iPhone 15 Pro | 94% | 65ms | 120ms | 28 t/s |
| Pixel 8 Pro | 94% | 85ms | 160ms | 22 t/s |
| Samsung S24 | 94% | 72ms | 135ms | 26 t/s |
| M2 MacBook Air | 94% | 32ms | 55ms | 48 t/s |
| Raspberry Pi 5 | 94% | 280ms | 420ms | 6.4 t/s |
| 瀏覽器 (Chrome, M2) | 94% | 110ms | 180ms | 12 t/s |
請注意,所有裝置的準確率相同——量化對所有平台的影響是相同的。差異純粹在於延遲/速度。每台裝置對分類任務都能提供低於一秒的回應,對即時面向用戶的功能來說已足夠快。
作為參考,GPT-4o API 呼叫進行同樣的分類任務平均需要 850ms,P99 為 3,200ms。裝置端模型在一台 200 美元的手機上,延遲上比世界最佳 API 快 10 倍。
真實使用案例
離線表單驗證
一家現場服務應用使用 Gemma 3 4B 驗證和修正技術人員在無訊號地區的平板上輸入的備忘錄。模型檢查拼字、標記缺失的必填欄位,並對工作類型進行分類——全部離線完成。在 300 個技術人員備忘錄範例上進行微調,部署在 Android 平板上使用 Q4_K_M。準確率:92%。延遲:120ms。
裝置端意圖分類
一家銀行應用使用 Gemma 3 4B 在路由到相應服務之前對客戶訊息進行意圖分類。在裝置端運行意味著訊息文字永遠不會離開手機——這是多個司法管轄區的合規要求。在 400 個範例上進行微調,透過 Core ML 部署在 iOS 上。準確率:95%。延遲:55ms。
IoT 感測器分析
一家工業監控系統在 Raspberry Pi 5 閘道器上執行 Gemma 3 4B,將感測器讀數分類為正常、警告或危急。每個閘道器處理來自 12 個感測器的資料。在 500 個感測器資料模式範例上進行微調,以 Q4_0 部署。準確率:97%(三類分類)。處理速度:每個閘道器每秒 4 次讀數。
注重隱私的文字處理
一家醫療記錄應用使用 Gemma 3 4B 在醫療提供者的 iPad 上結構化和分類臨床備忘錄。沒有患者資料離開裝置。在 350 個去識別化範例上進行微調。HIPAA 合規變得更簡單,因為 AI 處理完全在裝置端進行——無需雲端、無 API、推論步驟無需 BAA。
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
延伸閱讀
- Edge AI and Local Inference in 2026 — 裝置端 AI 部署的全貌,包括硬體、框架和真實效能資料。
- AI Agents Offline: Edge Fine-Tuned — 如何使用微調的邊緣模型構建無需網路連線即可工作的 AI 代理。
- LoRA Adapter Edge Deployment Optimization — 針對邊緣裝置最小化體積優化 LoRA 適配器。
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning Phi-4: Microsoft's Best Small Model for Enterprise Tasks
Phi-4 14B outperforms GPT-4 on math benchmarks while running 15x faster on local hardware. Here's how to fine-tune it for classification, extraction, and structured output tasks.

Fine-Tuning Qwen 2.5 for Multilingual Applications
Qwen 2.5 covers 29 languages with 18 trillion training tokens. Here's how to fine-tune it for multilingual classification, support, and content generation without separate models per language.

SmolLM2 and Sub-3B Models: Fine-Tuning for Edge and Mobile
Sub-3B parameter models run on phones, Raspberry Pis, and browser tabs. Here's how to fine-tune SmolLM2, Phi-3.5 Mini, and Qwen 2.5 0.5B for edge deployment where every megabyte counts.