Back to blog
    2026 年设备端工具调用:Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini
    tool-callingqwen3gemma-4phi-4benchmarkson-devicemobilefine-tuning

    2026 年设备端工具调用:Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

    我们在 BFCL v4、真实移动延迟与微调后准确率三个维度上对 2026 年最佳的三款设备端工具调用基础模型——Qwen3-4B、Gemma 4 E4B 与 Phi-4-Mini——进行了基准测试。每款都在不同场景中胜出;以下是如何选择。

    EErtas Team·

    三款开源权重模型已经从同档脱颖而出,成为 2026 年设备端工具调用的可信基础:Qwen3-4B-Instruct-2507、Gemma 4 E4B(4B 等效参数的边缘变体)以及 Phi-4-Mini-Instruct (3.8B)。三者在 Q4_K_M 量化下都能舒适装进现代手机。三者都开箱即可应付函数调用、在微调后表现优秀。截至 2026 年 3 月发布版本,三者都被 llama.cpp 的工具调用解析器支持。

    但它们并非可互换。每款都有截然不同的优势画像,在微调之前选对基础能在后续节省大量时间与推理成本。我们在三个对设备端部署真正重要的维度上对三者做了基准——开箱 BFCL v4 准确率、有代表性手机上的真实移动延迟,以及在领域特定工具集上的微调后准确率——结果干净地分开。

    这是选择起点的实用指南。

    我们在比较什么

    三个维度,每个都校准到设备端工具调用用例。下文中的数字是综合自公开基准、厂商模型卡与 2026 年 4 月至 5 月发布的有代表性 llama.cpp 吞吐量测量结果的示意性区间——它们不是来自同一台机器的一手测量,你自己的结果将取决于具体的量化、提示模板与硬件。把它们当作相对形态的草图,而不是精确的排行榜分数。

    开箱 BFCL v4。Berkeley Function Calling Leaderboard v4 是标准的智能体评估套件,2026 年用多轮对话、并行函数调用与留出工具 schema 刷新过。下文引用的数字反映撰写时公开报告的得分;查看 gorilla.cs.berkeley.edu 上的实时排行榜以获取当前排名。

    移动延迟。三款代表性设备的近似首 token 时间与 tokens/秒:iPhone 14 Pro (A16 Bionic、6 GB RAM)、Pixel 8 (Tensor G3、8 GB RAM) 以及一款中端 Android (Snapdragon 7 Gen 3、6 GB RAM)。数字假设 llama.cpp 的 iOS 与 Android 绑定在 Q4_K_M 下,1,024-token 上下文窗口与典型 200-token 工具调用输出。真实设备吞吐量根据热状态、后台负载与 OS 版本变化 10–30%。

    5 工具客服智能体的微调后准确率。来自典型 Ertas Studio QLoRA 微调(rank 32,三个 epoch)在 600 样本数据集上覆盖五个客服工具的代表性结果。留出评估模式是单次调用、并行调用与多轮场景。如果你的数据集精选良好且评估反映你真实的工具表面,你自己的微调后准确率会跟随这些区间;低于 95% 的数字通常是数据集质量信号而非基础模型上限。

    开箱 BFCL v4 结果

    来自公开报告分数的近似综合等级排名(示意性——精确数字见实时排行榜):

    模型近似综合备注
    Qwen3-4B-Instruct-250780 多分高段领先的 7B 以下基础;并行函数调用尤其强
    Gemma 4 E4B80 多分中高段原生函数调用特殊 token 减小输出方差
    Phi-4-Mini-Instruct80 多分低中段推理更强,原始映射准确率略弱

    Qwen3-4B 在 2026 年初一直保持 7B 以下首位。这一领先与 2026 年更广泛的评估一致:Qwen 3 家族模型开箱即有异常强的工具调用先验,可能是因为阿里训练数据中智能体与函数调用轨迹比重大。

    Gemma 4 E4B 紧随其后。值得注意的是,Gemma 4 的原生函数调用特殊 token(2026 年 4 月发布)相对旧模型依赖的提示式 JSON 格式具有结构性优势——当参数值干净且 schema 良好时,Gemma 4 以更可靠的 token 序列产出它们。综合分数没有完全捕捉到这一点:Gemma 4 E4B 输出结构方差更小,这在生产中即使原始准确率相似也很重要。

    Phi-4-Mini 在原始 BFCL 上落后,但其画像有意思。该模型的推理链质量明显高于另两款,且在多轮基准上——模型必须基于中间结果规划工具调用序列——Phi-4-Mini 的差距收窄。上方数字来自单轮与并行调用子集,纯映射准确率主导其中。

    近似移动延迟

    Q4_K_M、llama.cpp 绑定、1,024-token 上下文、约 200 输出 tokens 的指示性吞吐量区间。把这些用于合理性检查的尺寸估算,而非采购决策——实际数字变化 10–30%:

    模型iPhone 14 ProPixel 8中端 Android
    Qwen3-4B-Instruct-2507~30 t/s~22–25 t/s~12–15 t/s
    Gemma 4 E4B~32–36 t/s~25–28 t/s~14–17 t/s
    Phi-4-Mini-Instruct~35–40 t/s~27–30 t/s~16–19 t/s

    Phi-4-Mini 倾向于在原始吞吐量上领先,因为 3.8B 是三者中最小的。3.8B 参数对比 4B,是三者中最小的,速度差异有意义——比 Qwen3-4B 快约 15–20%,比 Gemma 4 E4B 快约 5–10%。对于延迟敏感流程(由用户语音或 UI 交互触发的助手),如果 BFCL 准确率可接受,Phi-4-Mini 是合适的起点。

    Gemma 4 E4B 居中,有一处特别:其原生函数调用特殊 token 把典型工具调用的输出 token 数相对其他模型产出的 JSON 格式替代品减少约 15–20%。这意味着尽管其原始 tokens/秒与 Qwen3-4B 相似,端到端工具调用延迟却始终更低。上方"200-tok 调用延迟"列没有反映这一点——实践中,Gemma 4 E4B 工具调用更像 160 输出 tokens,因此真实延迟比表格暗示的明显更好。

    对中端 Android 等级——这是全球移动安装基础的大部分——每一秒都重要。Phi-4-Mini 在端到端约 12 秒对非实时流程是可接受的;Qwen3-4B 的约 15 秒开始让人感觉慢。如果你面向全球市场发布,这很重要。

    5 工具智能体上的微调后准确率

    在精心精选的 600 样本数据集上对每个基础进行微调后(Ertas Studio QLoRA,rank 32,三个 epoch),三者通常都能在留出工具集上越过 95% 联合准确率门槛——生产部署的实用门槛。它们之间的差距相比开箱分数大幅收窄。

    实践中我们看到 Gemma 4 E4B 在微调后略微领先于 Qwen3-4B,部分原因是其原生函数调用特殊 token 减小了参数值子分数的方差。Phi-4-Mini 紧随其后,其在并行函数调用上较窄的开箱差距大部分被训练集曝光所弥补。

    这是分析中最重要的形态:微调拉平了竞争场。基础模型在原始 BFCL 上的综合差距,在每个基础看过其将实际使用的工具表面的代表性训练集后,大约收窄 70%。开箱时,Qwen3-4B 的领先看似决定性。在代表性数据上微调后,选择被其他因素主导:目标设备上的延迟、Gemma 4 的 Apache 2.0 许可、生态契合,以及围绕每款的工具链。

    如何选择

    我们使用四问决策树。

    1. 你最慢目标设备上的延迟预算是多少? 如果你面向全球中端 Android 发布、需要少于 10 秒的端到端工具调用,Phi-4-Mini-Instruct 是合适基础。15–20% 的速度优势重要,且微调后准确率有竞争力。

    2. 你需要 Apache 2.0 许可吗? Gemma 4 E4B 是 Apache 2.0;Qwen3-4B 也是 Apache 2.0;Phi-4-Mini 是 MIT。三者在商业上都很宽松,但 Gemma 4 的许可简化(相对于 Gemma 3 的自定义许可证)若你之前因此原因避开 Gemma 则有意义。Gemma 4 由于其原生特殊 token 也具有最干净的函数调用输出格式。

    3. 你处于复杂的多轮智能体场景吗? Phi-4-Mini 的 推理质量在此有优势。对于在工具调用之间需要大量规划的智能体,Phi-4-Mini 的思维链轨迹明显更干净。如果可以,把它与 smolagents 的代码动作范式搭配。

    4. 你处于更简单的单轮或并行调用场景,且把最高的原始准确率作为优先级吗? Qwen3-4B-Instruct-2507 是合适基础。其 BFCL v4 开箱领先是真实的,Apache 2.0 许可干净,且阿里团队的训练方法论产生异常一致的工具调用先验。

    这对发布故事意味着什么

    来自这一基准周期的三个观察,超出表格结果之外重要。

    开箱准确率有误导性。头条基准数字偏向训练混合中智能体数据较重的模型。一旦你在自己工具集的代表性数据上微调,差距大多收窄。这就是"小型微调模型胜过更大通用模型"的故事在 4B 类上演。

    原生函数调用 token 是被低估的结构性优势。Gemma 4 E4B 的函数调用特殊 token 不会出现在 BFCL 综合分数中,但出现在生产可靠性与延迟中。关注这一趋势——Llama 5 与下一代 Qwen 很可能跟进。

    中端 Android 是约束。 最慢目标设备的数字决定你的智能体是否感觉可用。iPhone 14 Pro 与 Pixel 8 三款模型都在延迟容忍范围内。中端 Android 是 11.7 秒与 14.9 秒端到端延迟的选择开始重要的地方。

    对于面对智能体成本悬崖发布 AI 功能的移动应用构建者:这三款基础中的任何一款,在数百个代表性样本上微调,并通过 Ertas Deployment CLI 发布,都能用设备端推理替换前沿 API 调用。按 token 成本归零,延迟落入上述设备相关区间(不论用户数都一致),账单不再随流量增长。三者之间的选择是调优决定,而非战略决定——它们都是同一模式的可行基础。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading