
FunctionGemma 与专用工具调用模型的兴起
Google 发布了 FunctionGemma——一个专门为函数调用 fine-tuned 的 270M 参数模型。它小巧、快速,标志着一个重大转变:任务专用模型时代已到来。
Google 悄悄发布了一个比大多数人意识到的更重要的东西:FunctionGemma。它是一个拥有 2.7 亿参数——注意,不是十亿,是百万——的 Gemma 3 模型,专门且排他性地为函数调用进行了 fine-tuning。
270M 参数。比 BERT 还小。以 FP16 占 540MB RAM,量化后不到 200MB。可以在树莓派上运行。它的任务只有一个:接收用户消息和一组工具模式,输出正确的函数调用及正确的参数。
这不是一个同时也能做工具调用的通用模型。这是一个专门构建的工具调用引擎。
FunctionGemma 实际做什么
输入:一组函数定义和用户消息。输出:结构化的函数调用——函数名和参数的 JSON。
示例
输入:
Functions available:
- get_weather(location: string, unit: "celsius" | "fahrenheit") → Weather data for a location
- search_restaurants(city: string, cuisine: string, price_range: 1-4) → Restaurant listings
User: "What's the weather like in Berlin?"
输出:
{"function": "get_weather", "arguments": {"location": "Berlin", "unit": "celsius"}}
没有前言。没有解释。只有函数调用。
为什么 270M 参数是一件大事
| 模型 | 参数 | RAM (Q4) | Token/秒 (CPU) | 工具调用准确率* |
|---|---|---|---|---|
| FunctionGemma | 270M | 约 200MB | 180-250 | 82-88% |
| Qwen 2.5 3B | 3B | 约 1.8GB | 25-40 | 78-84% |
| Llama 3.3 8B | 8B | 约 4.5GB | 10-18 | 85-90% |
| GPT-4 (API) | 约 1.8T | N/A | N/A | 92-96% |
FunctionGemma 以比 Llama 3.3 8B 少 30 倍的参数,在标准函数调用基准测试上达到 82-88% 的准确率。使用的 RAM 少 22 倍。在 CPU 上生成 token 的速度快 10-15 倍。
信号:告别"一个模型搞定一切"
过去三年的主导模式是:选择你能负担得起的最聪明的模型,用于一切。FunctionGemma 代表相反的哲学:构建(或使用)做一件事的模型,并使其尽可能小和快。
何时使用 FunctionGemma vs Fine-Tune 自己的模型
直接使用 FunctionGemma 的场景:
- 你的工具是标准 API
- 82-88% 的准确率可以接受
- 你需要最小的部署占用
Fine-Tune 自己模型的场景:
- 你的工具是自定义或领域特定的
- 你需要 95%+ 的准确率
- 你有复杂的参数逻辑
Fine-Tune FunctionGemma 的场景:
早期结果表明,fine-tuned FunctionGemma 在自定义工具模式上达到 90-94% 的准确率——与 fine-tuned 3B 模型相当,但体积小 10 倍。
更大的图景:任务专用模型是未来
未来的架构不是一个大模型,而是一个小型专家组成的图:
用户请求 → 路由器 (100M) → 选定的专家
├── 工具调用器 (270M - FunctionGemma)
├── 摘 要器 (1B)
├── 分类器 (500M)
└── 生成器 (7B - 仅在需要完整语言生成时)
总系统 RAM:大约 6-8GB。延迟:大多数路径低于 100ms。成本:每查询零。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
延伸阅读
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

智能体专家:FunctionGemma + Gemma 4 E2B 与微调即发货论
Google 的 FunctionGemma (270M) 与 Gemma 4 E2B (2B) 是 2026 年最小的可信函数调用模型。它们不是通用模型——它们被明确设计为可微调。这就是全部要点。

2026 年设备端工具调用:Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini
我们在 BFCL v4、真实移动延迟与微调后准确率三个维度上对 2026 年最佳的三款设备端工具调用基础模型——Qwen3-4B、Gemma 4 E4B 与 Phi-4-Mini——进行了基准测试。每款都在不同场景中胜出;以下是如何选择。

用你的微调本地模型替换 OpenAI Agents SDK 中的 OpenAI
OpenAI Agents SDK 刻意保持模型无关。把 OpenAI 客户端换成在 Ollama 上运行的 Ertas 训练模型,你保留开发体验同时干掉按 token 成本。一份直接替换教程。