Especialistas en Agentes: FunctionGemma + Gemma 4 E2B y el Argumento de Ajustar-y-Enviar

La tendencia open-weight más interesante de 2026 no es el siguiente modelo mezcla-de-expertos más grande. Es el auge de lo que Google y un puñado de otros laboratorios ahora llaman "especialistas en agentes" — modelos pequeños diseñados explícitamente para ser ajustados para tareas agénticas específicas en lugar de chatear con ellos como asistentes generales.

FunctionGemma con 270M parámetros y el recién lanzado Gemma 4 E2B con aproximadamente 2B parámetros efectivos son los ejemplos canónicos. Ambos se envían con tokens especiales nativos de llamada de funciones. Ambos caben en teléfonos — bajo 200MB y alrededor de 1,5GB respectivamente con Q4_K_M. Ambos se lanzan como modelos base con model cards que dicen, casi palabra por palabra, "destinados a ser ajustados para tu tarea específica de llamada de funciones". Esa frase no es de relleno. Es el posicionamiento del producto. Google te está diciendo explícitamente que estos no son modelos de chat, no son asistentes generales y no son productos terminados. Son puntos de partida para la especialización.

Este es un modelo mental diferente al de los últimos tres años. La vieja suposición era que tomabas un modelo de propósito general — Llama 3, Mistral 7B, Qwen 2.5 — y o lo prompteabas más fuerte, recuperabas más fuerte contra él, o, si tenías el presupuesto, lo ajustabas y esperabas que la capacidad base sobreviviera al contacto con tu dominio. La nueva suposición, encarnada por FunctionGemma y Gemma 4 E2B, es que el modelo base en sí mismo ya debería estar optimizado para la tarea. El fine-tuning no es una solución alternativa para un modelo que no encaja del todo. Es el flujo de trabajo previsto.

Si estás construyendo un agente que vive dentro de una aplicación móvil, o una herramienta de escritorio, o cualquier otra cosa donde cada megabyte y cada milisegundo importe, los especialistas en agentes son la vanguardia de la tendencia que decide si la economía de tu producto funciona.

Lo que la etiqueta de especialista realmente significa

Un modelo Instruct 7B de propósito general está entrenado para hacer muchas cosas pasablemente: resumir, chatear, razonar, escribir código, seguir instrucciones, ocasionalmente llamar herramientas. El presupuesto de capacidad se reparte entre docenas de competencias. La llamada de herramientas es una porción de ese presupuesto — no el foco.

Un especialista en agentes invierte las prioridades. Está entrenado en una distribución estrecha de tareas: la entrada es un mensaje del usuario más un esquema de herramienta, la salida es una llamada de función estructurada. Otras capacidades están presentes con mucha menor fidelidad o eliminadas por completo. La arquitectura, el tokenizador y la mezcla de pre-entrenamiento están sintonizados en torno a esa única forma de salida.

Esa contrapartida — renunciar a la amplitud generalista a cambio de densidad especialista — es lo que hace que los recuentos de parámetros se sientan inverosímiles a primera vista. Un modelo de 270M que alcanza 82-88% en benchmarks estándar de llamada de herramientas no está violando ninguna ley de la física. Simplemente está gastando sus parámetros en una cosa en lugar de cincuenta.

FunctionGemma en un párrafo (porque tiene su propio post)

Cubrimos FunctionGemma en detalle anteriormente este año. La versión corta: 270M parámetros, mapeo de propósito único intención-a-invocación, 200MB con Q4, más de 800 tokens por segundo en una GPU de consumo y 180-250 tokens por segundo en CPU plana. Listo para usar maneja esquemas de herramientas estándar — clima, búsqueda, calendario, CRUD — con 82-88% de precisión. Ajustado en tus esquemas específicos, aterriza en el rango 90-94%. No puede razonar multi-paso, no puede chatear, no puede resumir. Hace una cosa, muy rápido, en una huella diminuta.

Lo que es nuevo — y el corazón de este post — es que Google ha lanzado ahora el modelo que se sitúa un tamaño por encima.

Gemma 4 E2B: el especialista obtiene un hermano multimodal

Gemma 4 E2B (abril de 2026) es la respuesta de Google a una brecha real. FunctionGemma es genial si tu agente solo necesita texto-entra, llamada-de-función-sale. No es suficiente cuando el agente necesita mirar una foto de un recibo antes de llamar a create_expense_report, o leer una captura de pantalla antes de llamar a navigate_to_setting. Los agentes móviles en particular siguen topándose con entradas multimodales, y un modelo solo de texto de 270M los deja varados.

Gemma 4 E2B es un modelo de aproximadamente 2B parámetros efectivos, multimodal nativo con el mismo vocabulario de tokens especiales para llamadas de función que usa FunctionGemma. La arquitectura es la siguiente iteración de la familia Gemma — la "E" en E2B significa parámetros "efectivos", emparejados con caché de Per-Layer Embeddings (PLE) que permite a un modelo de clase 2B usar una huella de memoria activa mucho más pequeña de lo que sugiere el recuento bruto de parámetros. Con cuantización Q4_K_M se sitúa alrededor de 1,5GB en disco y aproximadamente 2GB de memoria de trabajo, lo que lo pone al alcance de cualquier teléfono moderno.

Tres cosas importan sobre cómo se posiciona Gemma 4 E2B:

Está licenciado bajo Apache 2.0. Limpio para uso comercial, redistribuible, ajustable y enviable dentro de una aplicación sin negociar una licencia separada. Esta es la misma postura que el resto de la familia Gemma pero vale la pena reiterarlo porque es el diferenciador frente a un buen número de otros modelos open-weight que se envían bajo licencias con restricciones de uso.
Tiene tokens nativos de llamada de función. El modelo emite llamadas de herramientas estructuradas sin necesitar parsing post-hoc o regex en la salida. Esto suena menor y no lo es — es la diferencia entre un modelo que puede llamar herramientas de forma fiable bajo fine-tuning y uno que produce JSON que mayormente parsea, mayormente.
La model card explícitamente lo enmarca como una base de fine-tuning para aplicaciones de agentes, no un asistente general. Listo para usar es competente en llamada de herramientas pero poco notable en chat. El flujo de trabajo previsto, como con FunctionGemma, es ajustarlo para tu dominio.

Para constructores de agentes móviles y edge, Gemma 4 E2B es el primer modelo abiertamente licenciado, multimodal, nativo en llamada de funciones, lo suficientemente pequeño para ejecutarse en el dispositivo. Esa combinación no existía hace seis meses.

El argumento de ajustar-y-enviar

Aquí está el cálculo que impulsa toda esta conversación.

Un modelo Instruct 7B genérico con un buen prompt y recuperación contra tus esquemas de herramientas alcanza aproximadamente 60-70% de precisión en un conjunto de herramientas moderadamente personalizado. Los fallos de recuperación representan algunos de los errores, la varianza de plantilla de prompt representa más, y el resto es la tendencia general del modelo a alucinar valores de parámetros plausibles. En producción esto se ve como un sistema que mayormente funciona, falla embarazosamente lo suficiente como para construir lógica de reintento, y consume 4,5GB de memoria con Q4 más lo que sea que use tu recuperador.

Un FunctionGemma 270M ajustado en el mismo conjunto de herramientas aterriza por encima del 95% de precisión en las herramientas entrenadas, sin recuperación necesaria porque los esquemas están horneados en los pesos. La huella es 200MB con Q4. Eso es una reducción de 22 veces en memoria con mayor precisión en las herramientas entrenadas, y una reducción sustancial en latencia porque no hay viaje de ida y vuelta de recuperación.

La trampa es la frase "en las herramientas entrenadas". Un especialista ajustado es frágil fuera de su distribución de entrenamiento. Añade una nueva herramienta a tu agente y necesitas una ejecución rápida de reentrenamiento antes de que esa herramienta empiece a funcionar de forma fiable. Para la mayoría de los productos de agentes esto está bien — tu superficie de herramientas cambia con poca frecuencia y tienes un proceso de despliegue de todos modos — pero es la contrapartida en oferta. Intercambias generalidad por precisión y huella.

El argumento de ajustar-y-enviar es que para la gran mayoría de los productos de agentes, especialmente los agentes que viven dentro de una aplicación, esa contrapartida es la correcta. Las razones:

Tu conjunto de herramientas es finito y conocido. Un producto real tiene un catálogo fijo de acciones. El caso para un generalista que pueda manejar herramientas desconocidas arbitrarias en tiempo de ejecución es mayormente un caso de investigación.
Tu barra de precisión es alta. Las llamadas de herramientas impulsan acciones reales. 70% de precisión es inaceptable. 95% es el suelo para producción.
Tu economía unitaria demanda bajo coste marginal. Una vez que cruzas unos pocos miles de usuarios activos ejecutando flujos de agente multi-paso, los costes de la API frontier comen tus márgenes. Los especialistas en dispositivo hacen el coste por inferencia efectivamente cero.
Tu aplicación no puede enviar un binario de 4,5GB. Un modelo de 200MB a 1,5GB es la diferencia entre una descarga que los usuarios aceptarán y una que abandonarán.

Especialista más fine-tuning cumple con las cuatro de esas restricciones. Generalista más prompting no cumple ninguna de ellas.

Cuándo elegir qué especialista

La elección entre FunctionGemma, Gemma 4 E2B y un modelo más grande ajustado es mayormente sobre modalidad de entrada y profundidad de razonamiento.

FunctionGemma 270M es la respuesta correcta cuando:

La entrada es solo texto.
El trabajo del agente es mapeo puro de intención-a-invocación sin razonamiento intermedio.
La restricción de huella es estricta — bajo 500MB de presupuesto total para el modelo.
Tu conteo de herramientas está en dígitos individuales a dígitos dobles bajos.

Este es el despliegue más ligero posible. El fine-tuning toma 5-10 minutos en una sola GPU, el modelo resultante sirve desde menos de 300MB de RAM, y la inferencia es esencialmente instantánea en cualquier dispositivo.

Gemma 4 E2B es la respuesta correcta cuando:

La entrada incluye imágenes, capturas de pantalla, fotos u otro contenido visual.
El agente se beneficia de conversaciones multi-turno de contexto más largo antes de emitir una llamada de herramienta.
La restricción de huella permite aproximadamente 2GB de memoria de trabajo.
El conteo de herramientas es moderado — hasta unas pocas docenas de herramientas con esquemas no triviales.

El flujo de trabajo de fine-tuning es similar al de FunctionGemma pero con una ejecución de entrenamiento más larga (típicamente 30-60 minutos en una sola GPU) y un dataset más grande (500-1500 ejemplos es el punto óptimo, incluyendo ejemplos multimodales si estás usando la entrada de visión).

Un modelo más grande ajustado — Qwen3-4B, Phi-4-Mini o similar — es la respuesta correcta cuando:

El agente necesita pasos de razonamiento entre llamadas de herramientas. Patrones de planificar-y-ejecutar, cadenas de herramientas multi-salto, recuperación de errores, lógica condicional sobre salidas previas de herramientas.
La estructura de salida es compleja — no solo una llamada de función sino un plan estructurado o un árbol de decisiones multi-paso.
Puedes permitirte 2,5-3,5GB de memoria de trabajo.

El post anterior sobre Pydantic AI en dispositivo recorre exactamente este caso para Qwen3-4B. Es el tamaño correcto cuando el agente necesita ser tanto fiable en llamadas de herramientas como capaz de razonamiento ligero entre ellas.

El pipeline de Ertas para cualquiera de estos

El flujo de trabajo es el mismo independientemente de con qué base especialista empieces.

Cura un dataset en Data Craft. Pega tus esquemas de herramientas. Usa la plantilla de prompt de generación masiva para sembrar varios cientos de ejemplos a través de Claude o ChatGPT, luego deja que Studio valide cada ejemplo contra los esquemas antes de añadirlo al conjunto de entrenamiento. Para Gemma 4 E2B específicamente, mezcla ejemplos multimodales — entradas de imagen más texto emparejadas con la salida esperada de llamada de herramienta.
Ajusta en Studio. Elige FunctionGemma, Gemma 4 E2B o cualquier modelo más grande que decidiste. El predeterminado de Studio para fine-tunes de llamada de herramientas es QLoRA en rango 16-32, tres épocas. La curva de pérdida de validación típicamente se aplana alrededor de la época 2-2,5; la auto-evaluación marca el sobreajuste si aparece.
Evalúa contra datos reservados. Las tres métricas a observar son precisión del nombre de herramienta, precisión del nombre de parámetro y precisión del valor de parámetro. Los fine-tunes especialistas listos para producción puntúan por encima del 95% en las tres. Si algo está por debajo del 95%, la causa es casi siempre lagunas en el dataset — encuentra los ejemplos fallidos, añade datos de entrenamiento representativos y ejecuta entrenamiento incremental desde el checkpoint existente.
Exporta a GGUF. El flujo de exportación de Studio produce un binario GGUF en el nivel de cuantización que elijas. Q4_K_M es el predeterminado para móvil.
Envía con el Ertas Deployment CLI. Ejecuta el CLI contra tu proyecto iOS, Android, Flutter o React Native y el modelo se conecta en una llamada de inferencia funcional en minutos. El CLI instala los enlaces FFI móviles de llama.cpp, deja caer el modelo GGUF y expone una función de inferencia tipada en tu base de código.

Línea de tiempo de extremo a extremo desde proyecto en blanco hasta especialista ajustado ejecutándose en un teléfono: horas, no semanas. El mismo dataset que entrena FunctionGemma puede entrenar Gemma 4 E2B puede entrenar Qwen3-4B — Studio reutiliza el dataset entre modelos base, así que tu única elección es qué tamaño y modalidad encajan en tu producto.

La tendencia más amplia

La historia de los modelos open-weight en 2024 y 2025 fue el techo de capacidad. Cada nuevo lanzamiento empujó la barra de lo que era posible en un recuento dado de parámetros. Llama 3 hizo que 8B fuera competitivo. Qwen 2.5 hizo que 7B fuera competitivo. Mistral hizo que los modelos pequeños golpearan por encima de su peso.

La historia de 2026, cada vez más, es el suelo de especialización. No "¿qué tan grande puede ser el modelo creíble más pequeño?" sino "¿qué tan pequeño puede ser el modelo creíble más pequeño para este trabajo específico?" FunctionGemma con 270M y Gemma 4 E2B con 2B están empujando ese suelo hacia abajo para llamada de herramientas. Veremos el mismo patrón en clasificación, en extracción, en enrutamiento, en validación — bases específicas de dominio que están explícitamente diseñadas para ser ajustadas y enviadas, no chateadas.

Para constructores de aplicaciones móviles, esa tendencia es la salida del precipicio de costes agéntico. Las APIs frontier cuestan decenas de centavos por flujo de agente multi-paso. Con mil usuarios activos diarios, eso son cientos de dólares al día. Con diez mil, son miles. Especialista más fine-tuning más despliegue en dispositivo mueve el coste por inferencia a efectivamente cero, y los especialistas en agentes lanzados este año — FunctionGemma, Gemma 4 E2B y la ola que seguirá — hacen ese movimiento técnicamente directo en lugar de un trimestre-MLE de trabajo.

Ajusta y envía. Elige el especialista más pequeño que encaje con el trabajo. Entrénalo en tus herramientas exactas. Ponlo en el dispositivo. La arquitectura está lo suficientemente asentada ahora como para que la única pregunta que queda sea la ejecución.

Ship AI that runs on your users' devices.

Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →

Lectura Adicional

FunctionGemma y el Auge de los Modelos Dedicados de Llamada de Herramientas — la inmersión más profunda en el especialista de 270M que comenzó esta categoría
Pydantic AI en Dispositivo: Ajusta Qwen3-4B para Agentes Móviles con Seguridad de Tipos — cuando el agente necesita razonamiento entre llamadas de herramientas y una base de 4B es el tamaño correcto
Mejor Modelo Open-Source para Ajustar en 2026 — donde FunctionGemma y Gemma 4 E2B encajan junto a Qwen, Llama, Mistral y el resto del panorama de modelos base de 2026