Fine-Tune FunctionGemma with Ertas

    El modelo de llamada de herramientas de Google de 270M parámetros construido a propósito — un derivado de Gemma 3 entrenado exclusivamente para mapear intención en lenguaje natural a invocaciones de funciones. El modelo creíble más pequeño de llamada de funciones en el ecosistema open-weight y una invitación explícita a ajustar para tus propios esquemas de herramientas.

    270MGoogle

    Overview

    FunctionGemma es un derivado de Gemma 3 de 270 millones de parámetros lanzado por Google el 5 de mayo de 2026, entrenado para un solo trabajo: tomar un mensaje de usuario más un conjunto de esquemas de herramientas y emitir la llamada de función correcta con los parámetros adecuados. No chatea, no resume, ni razona en formato largo. Mapea intención a invocación, y lo hace en un tamaño de modelo — bajo 200MB con cuantización Q4 — lo suficientemente pequeño para ejecutarse en una Raspberry Pi, un teléfono o una Jetson Nano.

    El modelo es parte de una narrativa más amplia de Google en torno a modelos pequeños construidos a propósito. Mientras que Gemma 3 y Gemma 4 son familias de propósito general con capacidades multimodales nativas, FunctionGemma es enmarcado explícitamente por Google como una *base* para fine-tuning. Su intención declarada en la model card es inequívoca: 'destinado a ser ajustado para tu tarea específica de llamada de funciones'. Esto es inusual en lanzamientos open-weight — la mayoría de los laboratorios envían checkpoints de propósito general y dejan la especialización a los usuarios por defecto, pero el entrenamiento y posicionamiento de FunctionGemma empuja el fine-tuning al frente del flujo de trabajo recomendado.

    FunctionGemma alcanza 82–88% en tareas estándar de Berkeley Function Calling Leaderboard (BFCL) listo para usar, lo cual es competitivo con modelos de propósito general 3B–8B que son 10–30 veces más grandes. Después de ajustar en los esquemas de herramientas específicos de un dominio — típicamente 200–1.000 ejemplos bien curados de llamadas de función — la precisión en las herramientas objetivo sube rutinariamente por encima del 95%, superando lo que los modelos de propósito general 7B–14B logran en el mismo conjunto de evaluación. Esta combinación de huella pequeña y especialización-tras-ajuste hace de FunctionGemma el ejemplo canónico de la tendencia 'agente especialista' de 2026.

    Key Features

    El formato de entrada de FunctionGemma es un bloque de sistema que lista las funciones disponibles con sus esquemas de parámetros, seguido de un mensaje de usuario. El modelo emite una sola salida estructurada: el nombre de la función y sus parámetros como JSON. No hay capa conversacional, no hay preámbulo ni prosa — la salida comienza con la llamada de función directamente. Esto hace que la integración del parser sea trivial y elimina la fragilidad de post-procesamiento que afecta a los modelos de propósito general que hacen llamadas de herramientas a través de formato JSON inducido por prompts.

    El modelo está licenciado bajo los Términos de Uso de Gemma (la licencia de la era Gemma 3). Google aún no ha relicenciado FunctionGemma bajo Apache 2.0, como hizo para Gemma 4 en abril de 2026, así que los usuarios comerciales deberían revisar los términos de la licencia para casos de uso que toquen la lista de uso prohibido. Para la mayoría de las aplicaciones de producto — asistentes móviles, flujos de trabajo agénticos, automatización interna — la licencia es suficientemente permisiva.

    El tokenizador y la arquitectura base de FunctionGemma se heredan de Gemma 3, así que las cadenas de herramientas estándar de llama.cpp, Ollama, MLX y TensorRT-LLM lo soportan sin modificación. Las cuantizaciones GGUF desde Q2_K hasta Q8_0 están disponibles; Q4_K_M produce un binario de ~180MB que se ejecuta a más de 800 tokens/segundo en GPUs de consumo y 180–250 tokens/segundo en una CPU de portátil moderna.

    Fine-Tuning with Ertas

    FunctionGemma es el objetivo canónico de fine-tuning para la historia del producto de llamada de herramientas de Ertas. El formato de los datos de entrenamiento es el mismo esquema JSONL de llamada de función que Ertas Studio admite nativamente: cada ejemplo es una lista de herramientas, una consulta del usuario y la llamada de función esperada. Como el modelo es tan pequeño, el fine-tuning de parámetros completos cabe en GPUs de consumo — una RTX 3060 de 12GB entrena FunctionGemma a longitud de secuencia completa sin LoRA — pero LoRA y QLoRA también funcionan y producen adaptadores bajo 50MB que pueden intercambiarse en caliente en tiempo de inferencia.

    El flujo de trabajo típico de Ertas para FunctionGemma es: define tus esquemas de herramientas en el módulo Data Craft de Studio, genera 300–800 ejemplos representativos de llamada de función (usando el flujo de generación masiva que emite plantillas de prompt para ChatGPT/Claude/Gemini), divide en entrenamiento/validación, ajusta en Studio con la base FunctionGemma, evalúa en llamadas de función reservadas y exporta a GGUF. El ciclo completo en esquemas de herramientas representativos se ejecuta en 1–3 horas de tiempo de reloj de pared en el nivel estándar de GPU de Studio y produce un modelo que alcanza 95%+ de precisión en el conjunto de herramientas entrenadas.

    Para el despliegue móvil, el Ertas Deployment CLI toma la salida GGUF y la conecta en un proyecto iOS Swift, Android Kotlin, Flutter o React Native con las dependencias de llama.cpp instaladas. De extremo a extremo — desde esquemas de herramientas crudos hasta un modelo de llamada de función ajustado ejecutándose en dispositivo en una aplicación real — son unas pocas horas de trabajo, dominadas por la curación del dataset más que por el entrenamiento o la fontanería del despliegue.

    Use Cases

    El caso de uso principal de FunctionGemma es la capa de llamada de funciones dentro de un sistema de agentes: convertir una solicitud del usuario en una invocación de herramienta estructurada que el código posterior pueda ejecutar. Para aplicaciones móviles con un pequeño número de herramientas de alta frecuencia — reserva, programación, búsqueda, operaciones CRUD sobre datos del usuario — FunctionGemma a 200MB en dispositivo reemplaza una llamada a la API en la nube por completo, eliminando los costes por token y eliminando los viajes de ida y vuelta de red de los flujos sensibles a la latencia.

    Para frameworks de agentes que admiten endpoints compatibles con OpenAI (LangGraph, Pydantic AI, OpenAI Agents SDK, Smolagents, Mastra, Vercel AI SDK), FunctionGemma puede servir como una capa dedicada de enrutamiento de herramientas detrás de un modelo de razonamiento más grande. El patrón: un modelo de 7B–14B maneja el razonamiento abierto, FunctionGemma maneja la emisión estructurada de llamada de herramienta, y ambos se ejecutan localmente. El coste de inferencia cae drásticamente sin sacrificar la fiabilidad de la llamada de herramienta.

    El tamaño pequeño también hace de FunctionGemma la elección correcta para despliegues embebidos y de edge: robótica de planta de fábrica con cómputo limitado, dispositivos IoT que necesitan control en lenguaje natural, sistemas en vehículos donde cada megabyte de peso de modelo está disputado. En cualquier lugar donde un modelo de propósito general 3B–8B sea demasiado grande pero se requiera un mapeo limpio de intención a invocación, FunctionGemma es el punto de partida por defecto.

    Hardware Requirements

    Con cuantización Q4_K_M, los pesos de FunctionGemma son aproximadamente 180MB y requieren ~250MB de RAM total en tiempo de inferencia incluyendo la caché KV para contextos cortos. Esto cabe cómodamente en teléfonos (dispositivos iOS 14+, dispositivos Android con 2GB+ de RAM), ordenadores de placa única (Raspberry Pi 4/5), placas embebidas (Jetson Nano) y cualquier portátil o escritorio.

    Rendimiento en hardware de consumo: 180–250 tokens/segundo en una CPU de portátil moderna (Apple Silicon M1/M2 o Ryzen/Intel móvil), más de 800 tokens/segundo en GPUs de consumo (RTX 3060 y superiores), y más de 1500 tokens/segundo en GPUs de centro de datos. Como las llamadas de herramientas son cortas (típicamente menos de 100 tokens de salida), la latencia de reloj de pared desde el prompt hasta la llamada de función completa está en el rango de 50–200ms en la mayoría del hardware de consumo — lo suficientemente rápido para uso interactivo sin una pausa perceptible.

    Para fine-tuning en Ertas Studio, una GPU de consumo de 12GB (RTX 3060, RTX 4060) maneja el entrenamiento de parámetros completos a longitudes de secuencia de 1024 tokens. LoRA y QLoRA reducen esto a 6–8GB y producen adaptadores lo suficientemente pequeños para enviar como parches de modelo. El tiempo de entrenamiento en datasets representativos de llamada de herramienta (300–800 ejemplos, 3–5 épocas) es típicamente 30–90 minutos en el nivel estándar de GPU de Studio.

    Supported Quantizations

    Q2_KQ4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.