Back to blog
    2026 年裝置端工具呼叫:Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini
    tool-callingqwen3gemma-4phi-4benchmarkson-devicemobilefine-tuning

    2026 年裝置端工具呼叫:Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini

    我們在 BFCL v4、真實行動延遲與微調後準確率三個維度上,對 2026 年最佳的三個裝置端工具呼叫基底——Qwen3-4B、Gemma 4 E4B 與 Phi-4-Mini——進行了基準測試。每個模型在不同情境中勝出;以下是如何挑選。

    EErtas Team·

    三個開源權重模型已從群眾中脫穎而出,成為 2026 年裝置端工具呼叫的具公信力基底:Qwen3-4B-Instruct-2507、Gemma 4 E4B(4B 等效參數的邊緣變體)以及 Phi-4-Mini-Instruct(3.8B)。三者全部在 Q4_K_M 量化下舒適地裝在現代手機上。三者全部開箱即可妥善處理函式呼叫,經微調後表現優異。三者全部自 2026 年 3 月版起獲得 llama.cpp 工具呼叫解析器支援。

    但它們並非可互換。每個模型有獨特的優勢輪廓,而在微調前選對基底,可在後續節省顯著的時間與推論成本。我們在三個對裝置端部署實際重要的維度上對三者進行基準測試——開箱即用的 BFCL v4 準確率、代表性手機上的真實行動延遲,以及在領域特定工具集上的微調後準確率——結果乾淨地分裂。

    這是挑選你起點的實用指南。

    我們在比較什麼

    三個維度,每個都校準到裝置端工具呼叫使用情境。下方數字是從 2026 年 4–5 月期間發布的公開基準、廠商 model card 與代表性 llama.cpp 吞吐量量測綜合得出的示範範圍——它們不是來自單一機台的第一方量測,你自己的結果將取決於你特定的量化、提示範本與硬體。將它們視為相對形狀的草圖,而非精確的排行榜分數。

    開箱即用的 BFCL v4。Berkeley Function Calling Leaderboard v4 是標準的代理評估套件,2026 年以多輪對話、並行函式呼叫與保留工具 schema 重新整理。下方引用的數字反映撰寫時公開報告的分數;查看 gorilla.cs.berkeley.edu 上的即時排行榜以取得目前排名。

    行動延遲。三個代表性裝置的近似首 token 時間與每秒 token 數:iPhone 14 Pro(A16 Bionic、6 GB RAM)、Pixel 8(Tensor G3、8 GB RAM)以及中階 Android(Snapdragon 7 Gen 3、6 GB RAM)。數字假設 llama.cpp 的 iOS 與 Android 綁定在 Q4_K_M、1,024-token 上下文視窗與典型 200-token 工具呼叫輸出下。實際裝置吞吐量依熱狀態、背景負載與作業系統版本變化 10–30%。

    5 工具客戶支援代理上的微調後準確率。來自典型 Ertas Studio QLoRA 微調(rank 32、3 個 epoch)在 600 範例資料集上涵蓋五個客戶支援工具的代表性結果。保留評估模式為單呼叫、並行呼叫與多輪情境。如果你的資料集精心整理且評估鏡像你真實的工具表面,你自己的微調後準確率會追蹤這些範圍;低於 95% 的數字通常是資料集品質訊號,而非基底模型上限。

    開箱即用的 BFCL v4 結果

    來自公開報告分數的近似綜合階層排名(示範性——查看即時排行榜以取得確切數字):

    模型近似綜合備註
    Qwen3-4B-Instruct-2507高 80s領先的 sub-7B 基底;在並行函式呼叫上特別強
    Gemma 4 E4B中至高 80s原生函式呼叫特殊 token 降低輸出變異
    Phi-4-Mini-Instruct低至中 80s較強推理,稍弱原始映射準確率

    Qwen3-4B 自 2026 年初起占據 sub-7B 榜首。這個領先與 2026 年期間的更廣泛評估一致:Qwen 3 家族模型有異常強的開箱即用工具呼叫先驗,可信地是因為阿里巴巴的訓練資料偏重代理與函式呼叫軌跡。

    Gemma 4 E4B 緊跟在後。值得注意的是,Gemma 4 的原生函式呼叫特殊 token(2026 年 4 月發布)給予它相對於舊模型仰賴的提示式 JSON 格式化的結構性優勢——當參數值乾淨且 schema 良好時,Gemma 4 以更可靠的 token 序列產出它們。綜合分數未完全反映此點:Gemma 4 E4B 的輸出結構變異較低,即使原始準確率相似,這在生產中也很重要。

    Phi-4-Mini 在原始 BFCL 上落後,但其輪廓很有趣。模型的推理鏈品質明顯高於另外兩者,且在多輪基準上,模型必須根據中間結果規劃工具呼叫序列時,Phi-4-Mini 的差距縮小。上方的數字是純映射準確率主導的單輪與並行呼叫子集。

    近似行動延遲

    Q4_K_M、llama.cpp 綁定、1,024-token 上下文、約 200 輸出 token 下的指示性吞吐量範圍。將這些用於合理性檢查的規格估算,而非採購決策——實際數字變化 10–30%:

    模型iPhone 14 ProPixel 8中階 Android
    Qwen3-4B-Instruct-2507~30 t/s~22–25 t/s~12–15 t/s
    Gemma 4 E4B~32–36 t/s~25–28 t/s~14–17 t/s
    Phi-4-Mini-Instruct~35–40 t/s~27–30 t/s~16–19 t/s

    Phi-4-Mini 傾向在原始吞吐量上領先,因為它在 3.8B 是三者中最小的。在 3.8B 參數對 4B 之下,它是三者中最小的,而速度差異是有意義的——比 Qwen3-4B 快約 15–20%、比 Gemma 4 E4B 快 5–10%。對於延遲敏感的流程(由使用者語音或 UI 互動觸發的助理),如果 BFCL 準確率可接受,Phi-4-Mini 是正確的起點。

    Gemma 4 E4B 在中間,有一個怪癖:其原生函式呼叫特殊 token 將典型工具呼叫的輸出 token 數降低約 15–20%,相對於其他模型產出的 JSON 格式化替代方案。這代表即使其原始 tokens/秒與 Qwen3-4B 相似,端到端工具呼叫延遲始終更低。上方的「200-tok 呼叫延遲」欄位未反映此點——實際上,Gemma 4 E4B 工具呼叫更像 160 輸出 token,因此真實延遲明顯比表格暗示的更佳。

    對於中階 Android 階層——這是大多數全球行動裝機量——每秒都重要。Phi-4-Mini 在約 12 秒端到端對非即時流程是可接受的;Qwen3-4B 的約 15 秒開始感覺慢。如果你出貨到全球市場,這很重要。

    5 工具代理上的微調後準確率

    在每個基底上對精心整理的 600 範例資料集進行微調(Ertas Studio QLoRA、rank 32、3 個 epoch)後,三者通常都在保留工具集上跨過 95% 聯合準確率門檻——這是正式上線部署的實用標準。它們之間的差距與開箱即用分數相比大幅縮小。

    實務上,我們看到 Gemma 4 E4B 在微調後略微超前 Qwen3-4B,部分是因為其原生函式呼叫特殊 token 降低參數值子分數的變異。Phi-4-Mini 緊跟在後,其在並行函式呼叫上較窄的開箱即用差距,大部分被訓練集曝露所閉合。

    這是分析中最重要的形狀:微調讓比賽公平。基底之間在原始 BFCL 上的綜合差距,一旦每個基底見過代表性的、針對它將實際使用之工具表面的訓練集,大約縮小 70%。開箱即用,Qwen3-4B 的領先看似決定性。在代表性資料上微調後,選擇被其他因素主導:在你目標裝置上的延遲、Gemma 4 的 Apache 2.0 授權、生態系契合與每個模型周圍的工具。

    如何挑選

    我們使用四題決策樹。

    1. 你在最慢目標裝置上的延遲預算是多少? 如果你出貨到全球中階 Android 並需要 sub-10 秒端到端工具呼叫,Phi-4-Mini-Instruct 是正確基底。15–20% 的速度優勢有意義,且微調後準確率具競爭力。

    2. 你需要 Apache 2.0 授權嗎? Gemma 4 E4B 為 Apache 2.0;Qwen3-4B 也為 Apache 2.0;Phi-4-Mini 為 MIT。三者都商業允許,但 Gemma 4 的授權簡化(相對於 Gemma 3 的自訂授權)很顯著,如果你之前因此原因避免 Gemma。Gemma 4 也因其原生特殊 token 擁有最乾淨的函式呼叫輸出格式。

    3. 你在複雜多輪代理情境中嗎? Phi-4-Mini 的推理品質在此有優勢。對於在工具呼叫之間做大量規劃的代理,Phi-4-Mini 的思考鏈軌跡明顯更乾淨。如果可以,將此與 smolagents 的 code-action 範式搭配。

    4. 你在較簡單的單輪或並行呼叫情境中,以最高可能原始準確率為優先嗎? Qwen3-4B-Instruct-2507 是正確基底。其開箱即用的 BFCL v4 領先是真實的、Apache 2.0 授權乾淨,且阿里巴巴團隊的訓練方法產出異常一致的工具呼叫先驗。

    這對發布故事意味著什麼

    這個基準週期的三個觀察,意義超越表格結果。

    開箱即用準確率具誤導性。頭條基準數字偏好其訓練混合中代理資料佔比重的模型。一旦你在自己工具集的代表性資料上微調,差距大部分閉合。這是「小型微調模型擊敗較大通用模型」故事在 4B 級別上演。

    原生函式呼叫 token 是被低估的結構性優勢。Gemma 4 E4B 的函式呼叫特殊 token 不出現在 BFCL 綜合分數中,但確實出現在生產可靠性與延遲中。觀察這個趨勢——Llama 5 與下一代 Qwen 可能會跟進。

    中階 Android 是約束。 最慢目標裝置數字決定你的代理是否感覺可用。iPhone 14 Pro 與 Pixel 8 對於三個模型都在延遲容忍範圍內。中階 Android 是 11.7 秒與 14.9 秒端到端延遲之間的選擇開始重要的地方。

    對於對抗代理成本懸崖出貨 AI 功能的行動 app 建構者:這三個基底中的任何一個,在幾百個代表性範例上微調並透過 Ertas Deployment CLI 出貨,可用裝置端推論替代前沿 API 呼叫。按 token 成本歸零、延遲移到上方依裝置範圍(不論使用者數量都一致),且帳單停止隨流量擴展。三者之間的選擇是調整決策,而非策略決策——它們全部都是相同模式的可行基底。

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading