Back to blog
    智能体专家:FunctionGemma + Gemma 4 E2B 与微调即发货论
    functiongemmagemma-4fine-tuningagent-specialiststool-callingon-devicesmall-models

    智能体专家:FunctionGemma + Gemma 4 E2B 与微调即发货论

    Google 的 FunctionGemma (270M) 与 Gemma 4 E2B (2B) 是 2026 年最小的可信函数调用模型。它们不是通用模型——它们被明确设计为可微调。这就是全部要点。

    EErtas Team·

    2026 年最有趣的开源权重趋势不是下一个更大的专家混合模型。它是 Google 与少数其他实验室现在称之为"智能体专家"的兴起——明确设计为针对窄智能体任务进行微调、而非作为通用助手与之对话的小型模型。

    270M 参数的 FunctionGemma 与新发布的、约 2B 等效参数的 Gemma 4 E2B 是标志性范例。两者都自带原生函数调用特殊 token。两者都装得进手机——分别在 Q4_K_M 下少于 200MB 与约 1.5GB。两者都作为基础模型发布,模型卡几乎逐字写着"旨在为你的具体函数调用任务进行微调"。这种措辞不是套话,而是产品定位。Google 明确告诉你这些不是聊天模型、不是通用助手、也不是成品。它们是专门化的起点。

    这与过去三年的心智模型不同。旧假设是你拿一个通用模型——Llama 3、Mistral 7B、Qwen 2.5——要么提示得更努力,要么对其检索得更努力,或者如果有预算,对其微调并希望基础能力在与你的领域接触后存活下来。新假设——由 FunctionGemma 与 Gemma 4 E2B 体现——是基础模型本身就应该已经为任务优化。微调不是对不太合适的模型的变通方法。它就是预期的工作流。

    如果你正在构建一个生活在移动应用中的智能体、桌面工具,或任何其他每兆字节与每毫秒都重要的地方,智能体专家是决定你产品经济模型是否成立的趋势的前沿。

    专家标签的实际含义

    通用 7B Instruct 模型被训练来勉强做许多事:总结、聊天、推理、写代码、跟随指令、偶尔调用工具。能力预算分散在数十种胜任力上。工具调用是该预算的一片——而非焦点。

    智能体专家颠倒了优先级。它在窄分布的任务上训练:输入是用户消息加工具 schema,输出是结构化函数调用。其他能力以更低保真度存在或被完全移除。架构、分词器与预训练混合都围绕该单一输出形态调优。

    这种取舍——以放弃通才广度换取专家密度——使乍看难以置信的参数数量变得合理。一个在标准工具调用基准上达到 82-88% 的 270M 模型并未违反任何物理定律。它只是把参数花在一件事上而非五十件。

    一段话讲完 FunctionGemma(因为它有自己的文章)

    我们今年早些时候详细介绍了 FunctionGemma。简短版本:270M 参数、单一目的的意图到调用映射、Q4 下 200MB、消费级 GPU 上 800 多 tokens/秒、纯 CPU 上 180-250 tokens/秒。开箱处理标准工具 schema——天气、搜索、日历、CRUD——准确率为 82-88%。在你的具体 schema 上微调后,落入 90-94% 区间。它无法多步推理、无法对话、无法总结。它做一件事,非常快,占用极小。

    新的——也是本文的核心——是 Google 现在发布了大一号的模型。

    Gemma 4 E2B:专家有了多模态兄弟

    Gemma 4 E2B(2026 年 4 月)是 Google 对真实空白的回应。如果你的智能体只需要文本进、函数调用出,FunctionGemma 很棒。当智能体需要先看一张收据照片再调用 create_expense_report,或先读一张截图再调用 navigate_to_setting,它就不够。移动智能体尤其经常遇到多模态输入,270M 的纯文本模型让它们陷入困境。

    Gemma 4 E2B 是一个约 2B 等效参数、原生多模态的模型,与 FunctionGemma 共享相同的函数调用特殊 token 词表。架构是 Gemma 家族的下一次迭代——E2B 中的 'E' 代表'effective'(等效)参数,搭配 Per-Layer Embeddings (PLE) 缓存,让 2B 类模型使用比原始参数数所暗示的小得多的活跃内存占用。在 Q4_K_M 量化下,它在磁盘上约 1.5GB,工作内存约 2GB,这把它置于任何现代手机的范围。

    关于 Gemma 4 E2B 的定位,三件事重要:

    1. 它是 Apache 2.0 授权。商业使用干净、可再分发、可微调、且可在应用内发布而无需协商单独许可证。这与 Gemma 家族其余部分的姿态相同,但值得重申,因为这是它与不少在使用受限许可证下发布的开源权重模型的差异点。

    2. 它有原生函数调用 token。模型发出结构化工具调用,无需对输出后处理解析或正则。这听起来不大但并不——它是能在微调下可靠调用工具的模型与产出大体可解析、大体能用的 JSON 的模型之间的差异。

    3. 模型卡明确把它框定为用于智能体应用的微调基础,而非通用助手。开箱时它在工具调用上称职但在聊天上无亮点。预期工作流——与 FunctionGemma 一样——是为你的领域微调它。

    对于移动与边缘智能体构建者,Gemma 4 E2B 是首个开放授权的、多模态的、原生函数调用的、小到能在设备上运行的模型。这种组合六个月前还不存在。

    微调即发货论

    这是驱动整段对话的计算。

    一个带好提示与对工具 schema 检索的通用 7B Instruct 模型在中等定制工具集上达到约 60-70% 准确率。检索失败占一些遗漏,提示模板方差占更多,其余是模型幻觉合理参数值的一般倾向。生产中这看起来像一个大体工作的系统、失败到令人尴尬地频繁以至于你构建重试逻辑、并且在 Q4 下消耗 4.5GB 内存加上检索器使用的内存。

    在同一工具集上微调的 FunctionGemma 270M 在已训练工具上达到 95% 以上准确率,无需检索,因为 schema 被烘焙进权重。在 Q4 下占用 200MB。这是已训练工具上更高准确率前提下 22 倍的内存缩减,加上由于无检索往返而显著降低的延迟。

    陷阱是"在已训练工具上"这一短语。微调专家在其训练分布外脆弱。给智能体加一个新工具就需要快速再训练才能可靠工作。对大多数智能体产品这没问题——你的工具表面变化不频繁,且你反正有部署流程——但这是提供的取舍。你以一般性换取准确率与占用。

    微调即发货论是:对绝大多数智能体产品,尤其是生活在应用内的智能体,这种取舍是正确的。原因:

    • 你的工具集是有限且已知的。 真正的产品有固定的动作目录。能在运行时处理任意未知工具的通才情形主要是研究情形。
    • 你的准确率门槛高。 工具调用驱动真实动作。70% 准确率不可接受。95% 是生产的下限。
    • 你的单位经济模型要求低边际成本。 一旦跨过几千个运行多步骤智能体流程的活跃用户,前沿 API 成本就吃掉你的利润。设备端专家把每次推理成本变得实质为零。
    • 你的应用不能发布 4.5GB 的二进制文件。 200MB 到 1.5GB 模型是用户会接受的下载与会放弃的下载之间的差异。

    专家加微调命中所有这四个约束。通才加提示一个都没击中。

    何时选择哪个专家

    FunctionGemma、Gemma 4 E2B 与更大的微调模型之间的选择主要关乎输入模态与推理深度。

    FunctionGemma 270M 在以下情况是正确答案:

    • 输入仅文本。
    • 智能体的工作是纯意图到调用映射,无中间推理。
    • 占用约束紧——模型总预算少于 500MB。
    • 你的工具计数是个位数到低双位数。

    这是最轻的部署。微调在单 GPU 上需 5-10 分钟,结果模型从少于 300MB RAM 服务,且推理在任何设备上实质即时。

    Gemma 4 E2B 在以下情况是正确答案:

    • 输入包括图像、截图、照片或其他视觉内容。
    • 智能体受益于发出工具调用前更长上下文的多轮对话。
    • 占用约束允许约 2GB 工作内存。
    • 工具计数适中——多达数十个具有非平凡 schema 的工具。

    微调工作流类似于 FunctionGemma 但训练运行更长(典型情况下单 GPU 30-60 分钟)且数据集更大(500-1500 样本是最佳点,包括多模态样本——如果你使用视觉输入)。

    更大的微调模型——Qwen3-4B、Phi-4-Mini 或类似 在以下情况是正确答案:

    • 智能体需要工具调用之间的推理步骤。规划-执行模式、多跳工具链、错误恢复、对先前工具输出的条件逻辑。
    • 输出结构复杂——不仅是一个函数调用而是结构化计划或多步决策树。
    • 你能负担 2.5-3.5GB 工作内存。

    之前关于 Pydantic AI 设备端的文章正是为 Qwen3-4B 走过这一情形。当智能体既需要工具调用可靠又能在它们之间做轻量推理时,它是合适的尺寸。

    任一情况下的 Ertas 流水线

    无论你以哪个专家基础起步,工作流都相同。

    1. 在 Data Craft 中精选数据集。 把你的工具 schema 粘贴进去。使用批量生成提示模板通过 Claude 或 ChatGPT 播种数百个样本,然后让 Studio 在添加到训练集前根据 schema 验证每个样本。具体到 Gemma 4 E2B,混入多模态样本——图像加文本输入配上预期工具调用输出。

    2. 在 Studio 中微调。 选择 FunctionGemma、Gemma 4 E2B 或你决定的任何更大模型。Studio 工具调用微调的默认是 rank 16-32 的 QLoRA,三个 epoch。验证损失曲线通常在 epoch 2-2.5 左右趋平;自动评估在出现过拟合时标记。

    3. 针对留出数据评估。 要关注的三个指标是工具名称准确率、参数名称准确率与参数值准确率。生产就绪的专家微调三项都应在 95% 以上。如果有任何低于 95%,原因几乎总是数据集缺口——找到失败样本,添加代表性训练数据,从现有检查点运行增量训练。

    4. 导出为 GGUF。 Studio 的导出流程在你选择的量化级别下产出 GGUF 二进制。Q4_K_M 是移动端默认。

    5. 用 Ertas Deployment CLI 发布。 针对你的 iOS、Android、Flutter 或 React Native 项目运行 CLI,模型在几分钟内被接入工作的推理调用。CLI 安装 llama.cpp 移动 FFI 绑定、放入 GGUF 模型、并在你的代码库中暴露带类型的推理函数。

    从空白项目到设备端运行的微调专家的端到端时间线:数小时,而非数周。训练 FunctionGemma 的同一数据集可以训练 Gemma 4 E2B 也可以训练 Qwen3-4B——Studio 在不同基础模型间复用数据集,所以你唯一的选择是哪个尺寸与模态适合你的产品。

    更大的趋势

    2024 与 2025 年开源权重模型的故事是能力天花板。每个新发布都把给定参数计数下可能性的标准推高。Llama 3 让 8B 有竞争力。Qwen 2.5 让 7B 有竞争力。Mistral 让小模型超越自身体量。

    2026 年的故事,越来越是专门化下限。不是"最小可信模型可以多大?"而是"该具体工作的最小可信模型可以多小?"270M 的 FunctionGemma 与 2B 的 Gemma 4 E2B 把这个下限推向工具调用更低处。我们将在分类、抽取、路由、验证中看到同一模式——明确设计为微调与发布而非对话的领域特定基础。

    对于移动应用构建者,这一趋势是走出智能体成本悬崖的方法。前沿 API 每次多步骤智能体流程花费数十美分。每天 1,000 个活跃用户,就是每天数百美元。每天 10,000 个,就是数千美元。专家加微调加设备端部署把每次推理成本移到实质为零,且今年发布的智能体专家——FunctionGemma、Gemma 4 E2B 以及随之而来的浪潮——使这种迁移技术上变得简单,而非一个 MLE 季度的工作。

    微调即发货。挑选合适工作的最小专家。在你的精确工具上训练它。把它放到设备上。架构现在已经稳定到只剩执行问题。

    Ship AI that runs on your users' devices.

    Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading