2026 年裝置端工具呼叫：Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

三個開源權重模型已從群眾中脫穎而出,成為 2026 年裝置端工具呼叫的具公信力基底：Qwen3-4B-Instruct-2507、Gemma 4 E4B（4B 等效參數的邊緣變體）以及 Phi-4-Mini-Instruct（3.8B）。三者全部在 Q4_K_M 量化下舒適地裝在現代手機上。三者全部開箱即可妥善處理函式呼叫,經微調後表現優異。三者全部自 2026 年 3 月版起獲得 llama.cpp 工具呼叫解析器支援。

但它們並非可互換。每個模型有獨特的優勢輪廓,而在微調前選對基底,可在後續節省顯著的時間與推論成本。我們在三個對裝置端部署實際重要的維度上對三者進行基準測試——開箱即用的 BFCL v4 準確率、代表性手機上的真實行動延遲,以及在領域特定工具集上的微調後準確率——結果乾淨地分裂。

這是挑選你起點的實用指南。

我們在比較什麼

三個維度,每個都校準到裝置端工具呼叫使用情境。下方數字是從 2026 年 4–5 月期間發布的公開基準、廠商 model card 與代表性 llama.cpp 吞吐量量測綜合得出的示範範圍——它們不是來自單一機台的第一方量測,你自己的結果將取決於你特定的量化、提示範本與硬體。將它們視為相對形狀的草圖,而非精確的排行榜分數。

開箱即用的 BFCL v4。Berkeley Function Calling Leaderboard v4 是標準的代理評估套件,2026 年以多輪對話、並行函式呼叫與保留工具 schema 重新整理。下方引用的數字反映撰寫時公開報告的分數;查看 gorilla.cs.berkeley.edu 上的即時排行榜以取得目前排名。

行動延遲。三個代表性裝置的近似首 token 時間與每秒 token 數：iPhone 14 Pro（A16 Bionic、6 GB RAM）、Pixel 8（Tensor G3、8 GB RAM）以及中階 Android（Snapdragon 7 Gen 3、6 GB RAM）。數字假設 llama.cpp 的 iOS 與 Android 綁定在 Q4_K_M、1,024-token 上下文視窗與典型 200-token 工具呼叫輸出下。實際裝置吞吐量依熱狀態、背景負載與作業系統版本變化 10–30%。

5 工具客戶支援代理上的微調後準確率。來自典型 Ertas Studio QLoRA 微調（rank 32、3 個 epoch）在 600 範例資料集上涵蓋五個客戶支援工具的代表性結果。保留評估模式為單呼叫、並行呼叫與多輪情境。如果你的資料集精心整理且評估鏡像你真實的工具表面,你自己的微調後準確率會追蹤這些範圍;低於 95% 的數字通常是資料集品質訊號,而非基底模型上限。

開箱即用的 BFCL v4 結果

來自公開報告分數的近似綜合階層排名（示範性——查看即時排行榜以取得確切數字）：

模型	近似綜合	備註
Qwen3-4B-Instruct-2507	高 80s	領先的 sub-7B 基底;在並行函式呼叫上特別強
Gemma 4 E4B	中至高 80s	原生函式呼叫特殊 token 降低輸出變異
Phi-4-Mini-Instruct	低至中 80s	較強推理,稍弱原始映射準確率

Qwen3-4B 自 2026 年初起占據 sub-7B 榜首。這個領先與 2026 年期間的更廣泛評估一致：Qwen 3 家族模型有異常強的開箱即用工具呼叫先驗,可信地是因為阿里巴巴的訓練資料偏重代理與函式呼叫軌跡。

Gemma 4 E4B 緊跟在後。值得注意的是,Gemma 4 的原生函式呼叫特殊 token（2026 年 4 月發布）給予它相對於舊模型仰賴的提示式 JSON 格式化的結構性優勢——當參數值乾淨且 schema 良好時,Gemma 4 以更可靠的 token 序列產出它們。綜合分數未完全反映此點：Gemma 4 E4B 的輸出結構變異較低,即使原始準確率相似,這在生產中也很重要。

Phi-4-Mini 在原始 BFCL 上落後,但其輪廓很有趣。模型的推理鏈品質明顯高於另外兩者,且在多輪基準上,模型必須根據中間結果規劃工具呼叫序列時,Phi-4-Mini 的差距縮小。上方的數字是純映射準確率主導的單輪與並行呼叫子集。

近似行動延遲

Q4_K_M、llama.cpp 綁定、1,024-token 上下文、約 200 輸出 token 下的指示性吞吐量範圍。將這些用於合理性檢查的規格估算,而非採購決策——實際數字變化 10–30%：

模型	iPhone 14 Pro	Pixel 8	中階 Android
Qwen3-4B-Instruct-2507	~30 t/s	~22–25 t/s	~12–15 t/s
Gemma 4 E4B	~32–36 t/s	~25–28 t/s	~14–17 t/s
Phi-4-Mini-Instruct	~35–40 t/s	~27–30 t/s	~16–19 t/s

Phi-4-Mini 傾向在原始吞吐量上領先,因為它在 3.8B 是三者中最小的。在 3.8B 參數對 4B 之下,它是三者中最小的,而速度差異是有意義的——比 Qwen3-4B 快約 15–20%、比 Gemma 4 E4B 快 5–10%。對於延遲敏感的流程（由使用者語音或 UI 互動觸發的助理）,如果 BFCL 準確率可接受,Phi-4-Mini 是正確的起點。

Gemma 4 E4B 在中間,有一個怪癖：其原生函式呼叫特殊 token 將典型工具呼叫的輸出 token 數降低約 15–20%,相對於其他模型產出的 JSON 格式化替代方案。這代表即使其原始 tokens/秒與 Qwen3-4B 相似,端到端工具呼叫延遲始終更低。上方的「200-tok 呼叫延遲」欄位未反映此點——實際上,Gemma 4 E4B 工具呼叫更像 160 輸出 token,因此真實延遲明顯比表格暗示的更佳。

對於中階 Android 階層——這是大多數全球行動裝機量——每秒都重要。Phi-4-Mini 在約 12 秒端到端對非即時流程是可接受的;Qwen3-4B 的約 15 秒開始感覺慢。如果你出貨到全球市場,這很重要。

5 工具代理上的微調後準確率

在每個基底上對精心整理的 600 範例資料集進行微調（Ertas Studio QLoRA、rank 32、3 個 epoch）後,三者通常都在保留工具集上跨過 95% 聯合準確率門檻——這是正式上線部署的實用標準。它們之間的差距與開箱即用分數相比大幅縮小。

實務上,我們看到 Gemma 4 E4B 在微調後略微超前 Qwen3-4B,部分是因為其原生函式呼叫特殊 token 降低參數值子分數的變異。Phi-4-Mini 緊跟在後,其在並行函式呼叫上較窄的開箱即用差距,大部分被訓練集曝露所閉合。

這是分析中最重要的形狀：微調讓比賽公平。基底之間在原始 BFCL 上的綜合差距,一旦每個基底見過代表性的、針對它將實際使用之工具表面的訓練集,大約縮小 70%。開箱即用,Qwen3-4B 的領先看似決定性。在代表性資料上微調後,選擇被其他因素主導：在你目標裝置上的延遲、Gemma 4 的 Apache 2.0 授權、生態系契合與每個模型周圍的工具。

如何挑選

我們使用四題決策樹。

1. 你在最慢目標裝置上的延遲預算是多少？ 如果你出貨到全球中階 Android 並需要 sub-10 秒端到端工具呼叫,Phi-4-Mini-Instruct 是正確基底。15–20% 的速度優勢有意義,且微調後準確率具競爭力。

2. 你需要 Apache 2.0 授權嗎？ Gemma 4 E4B 為 Apache 2.0;Qwen3-4B 也為 Apache 2.0;Phi-4-Mini 為 MIT。三者都商業允許,但 Gemma 4 的授權簡化（相對於 Gemma 3 的自訂授權）很顯著,如果你之前因此原因避免 Gemma。Gemma 4 也因其原生特殊 token 擁有最乾淨的函式呼叫輸出格式。

3. 你在複雜多輪代理情境中嗎？ Phi-4-Mini 的推理品質在此有優勢。對於在工具呼叫之間做大量規劃的代理,Phi-4-Mini 的思考鏈軌跡明顯更乾淨。如果可以,將此與 smolagents 的 code-action 範式搭配。

4. 你在較簡單的單輪或並行呼叫情境中,以最高可能原始準確率為優先嗎？ Qwen3-4B-Instruct-2507 是正確基底。其開箱即用的 BFCL v4 領先是真實的、Apache 2.0 授權乾淨,且阿里巴巴團隊的訓練方法產出異常一致的工具呼叫先驗。

這對發布故事意味著什麼

這個基準週期的三個觀察,意義超越表格結果。

開箱即用準確率具誤導性。頭條基準數字偏好其訓練混合中代理資料佔比重的模型。一旦你在自己工具集的代表性資料上微調,差距大部分閉合。這是「小型微調模型擊敗較大通用模型」故事在 4B 級別上演。

原生函式呼叫 token 是被低估的結構性優勢。Gemma 4 E4B 的函式呼叫特殊 token 不出現在 BFCL 綜合分數中,但確實出現在生產可靠性與延遲中。觀察這個趨勢——Llama 5 與下一代 Qwen 可能會跟進。

中階 Android 是約束。 最慢目標裝置數字決定你的代理是否感覺可用。iPhone 14 Pro 與 Pixel 8 對於三個模型都在延遲容忍範圍內。中階 Android 是 11.7 秒與 14.9 秒端到端延遲之間的選擇開始重要的地方。

對於對抗代理成本懸崖出貨 AI 功能的行動 app 建構者：這三個基底中的任何一個,在幾百個代表性範例上微調並透過 Ertas Deployment CLI 出貨,可用裝置端推論替代前沿 API 呼叫。按 token 成本歸零、延遲移到上方依裝置範圍（不論使用者數量都一致）,且帳單停止隨流量擴展。三者之間的選擇是調整決策,而非策略決策——它們全部都是相同模式的可行基底。

2026 年裝置端工具呼叫：Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

我們在比較什麼

開箱即用的 BFCL v4 結果

近似行動延遲

5 工具代理上的微調後準確率

如何挑選

這對發布故事意味著什麼

Ship AI that runs on your users' devices.

Keep reading

Pydantic AI On-Device: Fine-Tune Qwen3-4B for Type-Safe Mobile Agents

Agent Specialists: FunctionGemma + Gemma 4 E2B and the Fine-Tune-and-Ship Argument

Mastra + Vercel AI SDK + On-Device GGUF: A TypeScript Mobile Agent Stack With No API Costs