2026 年设备端工具调用：Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

三款开源权重模型已经从同档脱颖而出，成为 2026 年设备端工具调用的可信基础：Qwen3-4B-Instruct-2507、Gemma 4 E4B（4B 等效参数的边缘变体）以及 Phi-4-Mini-Instruct (3.8B)。三者在 Q4_K_M 量化下都能舒适装进现代手机。三者都开箱即可应付函数调用、在微调后表现优秀。截至 2026 年 3 月发布版本，三者都被 llama.cpp 的工具调用解析器支持。

但它们并非可互换。每款都有截然不同的优势画像，在微调之前选对基础能在后续节省大量时间与推理成本。我们在三个对设备端部署真正重要的维度上对三者做了基准——开箱 BFCL v4 准确率、有代表性手机上的真实移动延迟，以及在领域特定工具集上的微调后准确率——结果干净地分开。

这是选择起点的实用指南。

我们在比较什么

三个维度，每个都校准到设备端工具调用用例。下文中的数字是综合自公开基准、厂商模型卡与 2026 年 4 月至 5 月发布的有代表性 llama.cpp 吞吐量测量结果的示意性区间——它们不是来自同一台机器的一手测量，你自己的结果将取决于具体的量化、提示模板与硬件。把它们当作相对形态的草图，而不是精确的排行榜分数。

开箱 BFCL v4。Berkeley Function Calling Leaderboard v4 是标准的智能体评估套件，2026 年用多轮对话、并行函数调用与留出工具 schema 刷新过。下文引用的数字反映撰写时公开报告的得分；查看 gorilla.cs.berkeley.edu 上的实时排行榜以获取当前排名。

移动延迟。三款代表性设备的近似首 token 时间与 tokens/秒：iPhone 14 Pro (A16 Bionic、6 GB RAM)、Pixel 8 (Tensor G3、8 GB RAM) 以及一款中端 Android (Snapdragon 7 Gen 3、6 GB RAM)。数字假设 llama.cpp 的 iOS 与 Android 绑定在 Q4_K_M 下，1,024-token 上下文窗口与典型 200-token 工具调用输出。真实设备吞吐量根据热状态、后台负载与 OS 版本变化 10–30%。

5 工具客服智能体的微调后准确率。来自典型 Ertas Studio QLoRA 微调（rank 32，三个 epoch）在 600 样本数据集上覆盖五个客服工具的代表性结果。留出评估模式是单次调用、并行调用与多轮场景。如果你的数据集精选良好且评估反映你真实的工具表面，你自己的微调后准确率会跟随这些区间；低于 95% 的数字通常是数据集质量信号而非基础模型上限。

开箱 BFCL v4 结果

来自公开报告分数的近似综合等级排名（示意性——精确数字见实时排行榜）：

模型	近似综合	备注
Qwen3-4B-Instruct-2507	80 多分高段	领先的 7B 以下基础；并行函数调用尤其强
Gemma 4 E4B	80 多分中高段	原生函数调用特殊 token 减小输出方差
Phi-4-Mini-Instruct	80 多分低中段	推理更强，原始映射准确率略弱

Qwen3-4B 在 2026 年初一直保持 7B 以下首位。这一领先与 2026 年更广泛的评估一致：Qwen 3 家族模型开箱即有异常强的工具调用先验，可能是因为阿里训练数据中智能体与函数调用轨迹比重大。

Gemma 4 E4B 紧随其后。值得注意的是，Gemma 4 的原生函数调用特殊 token（2026 年 4 月发布）相对旧模型依赖的提示式 JSON 格式具有结构性优势——当参数值干净且 schema 良好时，Gemma 4 以更可靠的 token 序列产出它们。综合分数没有完全捕捉到这一点：Gemma 4 E4B 输出结构方差更小，这在生产中即使原始准确率相似也很重要。

Phi-4-Mini 在原始 BFCL 上落后，但其画像有意思。该模型的推理链质量明显高于另两款，且在多轮基准上——模型必须基于中间结果规划工具调用序列——Phi-4-Mini 的差距收窄。上方数字来自单轮与并行调用子集，纯映射准确率主导其中。

近似移动延迟

Q4_K_M、llama.cpp 绑定、1,024-token 上下文、约 200 输出 tokens 的指示性吞吐量区间。把这些用于合理性检查的尺寸估算，而非采购决策——实际数字变化 10–30%：

模型	iPhone 14 Pro	Pixel 8	中端 Android
Qwen3-4B-Instruct-2507	~30 t/s	~22–25 t/s	~12–15 t/s
Gemma 4 E4B	~32–36 t/s	~25–28 t/s	~14–17 t/s
Phi-4-Mini-Instruct	~35–40 t/s	~27–30 t/s	~16–19 t/s

Phi-4-Mini 倾向于在原始吞吐量上领先，因为 3.8B 是三者中最小的。3.8B 参数对比 4B，是三者中最小的，速度差异有意义——比 Qwen3-4B 快约 15–20%，比 Gemma 4 E4B 快约 5–10%。对于延迟敏感流程（由用户语音或 UI 交互触发的助手），如果 BFCL 准确率可接受，Phi-4-Mini 是合适的起点。

Gemma 4 E4B 居中，有一处特别：其原生函数调用特殊 token 把典型工具调用的输出 token 数相对其他模型产出的 JSON 格式替代品减少约 15–20%。这意味着尽管其原始 tokens/秒与 Qwen3-4B 相似，端到端工具调用延迟却始终更低。上方"200-tok 调用延迟"列没有反映这一点——实践中，Gemma 4 E4B 工具调用更像 160 输出 tokens，因此真实延迟比表格暗示的明显更好。

对中端 Android 等级——这是全球移动安装基础的大部分——每一秒都重要。Phi-4-Mini 在端到端约 12 秒对非实时流程是可接受的；Qwen3-4B 的约 15 秒开始让人感觉慢。如果你面向全球市场发布，这很重要。

5 工具智能体上的微调后准确率

在精心精选的 600 样本数据集上对每个基础进行微调后（Ertas Studio QLoRA，rank 32，三个 epoch），三者通常都能在留出工具集上越过 95% 联合准确率门槛——生产部署的实用门槛。它们之间的差距相比开箱分数大幅收窄。

实践中我们看到 Gemma 4 E4B 在微调后略微领先于 Qwen3-4B，部分原因是其原生函数调用特殊 token 减小了参数值子分数的方差。Phi-4-Mini 紧随其后，其在并行函数调用上较窄的开箱差距大部分被训练集曝光所弥补。

这是分析中最重要的形态：微调拉平了竞争场。基础模型在原始 BFCL 上的综合差距，在每个基础看过其将实际使用的工具表面的代表性训练集后，大约收窄 70%。开箱时，Qwen3-4B 的领先看似决定性。在代表性数据上微调后，选择被其他因素主导：目标设备上的延迟、Gemma 4 的 Apache 2.0 许可、生态契合，以及围绕每款的工具链。

如何选择

我们使用四问决策树。

1. 你最慢目标设备上的延迟预算是多少？ 如果你面向全球中端 Android 发布、需要少于 10 秒的端到端工具调用，Phi-4-Mini-Instruct 是合适基础。15–20% 的速度优势重要，且微调后准确率有竞争力。

2. 你需要 Apache 2.0 许可吗？ Gemma 4 E4B 是 Apache 2.0；Qwen3-4B 也是 Apache 2.0；Phi-4-Mini 是 MIT。三者在商业上都很宽松，但 Gemma 4 的许可简化（相对于 Gemma 3 的自定义许可证）若你之前因此原因避开 Gemma 则有意义。Gemma 4 由于其原生特殊 token 也具有最干净的函数调用输出格式。

3. 你处于复杂的多轮智能体场景吗？ Phi-4-Mini 的 推理质量在此有优势。对于在工具调用之间需要大量规划的智能体，Phi-4-Mini 的思维链轨迹明显更干净。如果可以，把它与 smolagents 的代码动作范式搭配。

4. 你处于更简单的单轮或并行调用场景，且把最高的原始准确率作为优先级吗？ Qwen3-4B-Instruct-2507 是合适基础。其 BFCL v4 开箱领先是真实的，Apache 2.0 许可干净，且阿里团队的训练方法论产生异常一致的工具调用先验。

这对发布故事意味着什么

来自这一基准周期的三个观察，超出表格结果之外重要。

开箱准确率有误导性。头条基准数字偏向训练混合中智能体数据较重的模型。一旦你在自己工具集的代表性数据上微调，差距大多收窄。这就是"小型微调模型胜过更大通用模型"的故事在 4B 类上演。

原生函数调用 token 是被低估的结构性优势。Gemma 4 E4B 的函数调用特殊 token 不会出现在 BFCL 综合分数中，但出现在生产可靠性与延迟中。关注这一趋势——Llama 5 与下一代 Qwen 很可能跟进。

中端 Android 是约束。 最慢目标设备的数字决定你的智能体是否感觉可用。iPhone 14 Pro 与 Pixel 8 三款模型都在延迟容忍范围内。中端 Android 是 11.7 秒与 14.9 秒端到端延迟的选择开始重要的地方。

对于面对智能体成本悬崖发布 AI 功能的移动应用构建者：这三款基础中的任何一款，在数百个代表性样本上微调，并通过 Ertas Deployment CLI 发布，都能用设备端推理替换前沿 API 调用。按 token 成本归零，延迟落入上述设备相关区间（不论用户数都一致），账单不再随流量增长。三者之间的选择是调优决定，而非战略决定——它们都是同一模式的可行基础。

2026 年设备端工具调用：Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

我们在比较什么

开箱 BFCL v4 结果

近似移动延迟

5 工具智能体上的微调后准确率

如何选择

这对发布故事意味着什么

Ship AI that runs on your users' devices.

Keep reading

Pydantic AI On-Device: Fine-Tune Qwen3-4B for Type-Safe Mobile Agents

Agent Specialists: FunctionGemma + Gemma 4 E2B and the Fine-Tune-and-Ship Argument

Mastra + Vercel AI SDK + On-Device GGUF: A TypeScript Mobile Agent Stack With No API Costs