gemmagoogleon-deviceedge-aifine-tuningslmsegment:developer

微调 Gemma 3：Google 为端侧部署优化的轻量模型

Gemma 3 为端侧推理优化——手机、平板、边缘硬件。以下是如何为无需服务器运行的移动 AI 功能和 IoT 应用微调它。

EErtas Team·March 15, 2026

在手机、Raspberry Pi 或 IoT 网关上运行 AI——完全不经过服务器——改变了可能性。无网络往返延迟。无随用户增长的 API 费用。无互联网依赖。数据完全不离开设备。

4B 模型是大多数端侧部署的目标。Q4_K_M 量化下不到 3 GB RAM——完全在现代智能手机、Raspberry Pi 5 或浏览器标签页能力范围内。

推理速度对比（Q4_K_M）

硬件	Gemma 3 4B	Llama 3.2 3B
iPhone 15 Pro (ANE)	28 t/s	24 t/s
Pixel 8 Pro (GPU)	22 t/s	19 t/s
Raspberry Pi 5 (CPU)	6.4 t/s	5.5 t/s
M2 MacBook Air (GPU)	48 t/s	41 t/s
浏览器 (WebLLM)	12 t/s	10 t/s

Gemma 3 在所有端侧目标上快 15-30%。

端侧任务的数据集策略

**短输入，简洁输出。**端侧上每个 token 都有延迟和内存成本：

{"instruction": "Classify intent", "input": "Where's my order?", "output": "order_status"}

包含真实设备使用的边缘情况——更多打字错误、缩写、非正式语言。

集成模式

React Native + llama.rn：分类延迟 80-150ms
iOS Core ML：ANE 上 32-35 t/s
Android NNAPI：NPU 推理功耗低 50-60%
浏览器 WebLLM：模型下载一次并缓存
Raspberry Pi llama.cpp：IoT 和边缘部署

真实设备基准

微调 Gemma 3 4B（Q4_K_M）12 类意图分类任务：

设备	准确率	延迟（平均）
iPhone 15 Pro	94%	65ms
Pixel 8 Pro	94%	85ms
Raspberry Pi 5	94%	280ms
浏览器 (Chrome, M2)	94%	110ms

200 美元手机上的端侧模型延迟击败世界最佳 API 10 倍。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

延伸阅读

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

微调 Phi-4：微软最佳企业任务小型模型

微调 Phi-4：微软最佳企业任务小型模型

Phi-4 14B 在数学基准上超越 GPT-4，同时在本地硬件上运行速度快 15 倍。以下是如何为分类、提取和结构化输出任务微调它。

微调 Qwen 2.5 用于多语言应用

微调 Qwen 2.5 用于多语言应用

Qwen 2.5 覆盖 29 种语言，18 万亿训练 token。以下是如何为多语言分类、支持和内容生成微调它——无需每种语言单独模型。

SmolLM2 和低于 3B 的模型：边缘和移动端微调

SmolLM2 和低于 3B 的模型：边缘和移动端微调

低于 3B 参数的模型可在手机、树莓派和浏览器标签页中运行。以下是如何为边缘部署微调 SmolLM2、Phi-3.5 Mini 和 Qwen 2.5 0.5B，在每一兆字节都至关重要的场景下。