Blog

智能体专家：FunctionGemma + Gemma 4 E2B 与微调即发货论

Google 的 FunctionGemma (270M) 与 Gemma 4 E2B (2B) 是 2026 年最小的可信函数调用模型。它们不是通用模型——它们被明确设计为可微调。这就是全部要点。

Meta 的 Llama Stack 是基于 Llama 的智能体的标准参考架构。把它与微调的 Llama 4 衍生模型以及 Swift/Kotlin 客户端 SDK 结合，你就得到了完全运行在用户手机上的完整智能体技术栈。

Deploy custom AI models, no ML expertise required.

Free plan, no card. Paid plans from $25/mo USD.

TypeScript 优先的移动开发者不必使用 Python 智能体框架。Mastra 与 Vercel AI SDK 加上一个通过 llama.cpp 在设备端运行的微调 4B 模型,产出零按 token 成本的完整智能体栈。

我们在 BFCL v4、真实移动延迟与微调后准确率三个维度上对 2026 年最佳的三款设备端工具调用基础模型——Qwen3-4B、Gemma 4 E4B 与 Phi-4-Mini——进行了基准测试。每款都在不同场景中胜出；以下是如何选择。

Deploy custom AI models, no ML expertise required.

Free plan, no card. Paid plans from $25/mo USD.