
Llamada de Herramientas en Dispositivo 2026: Qwen3-4B vs Gemma 4 E4B vs Phi-4-Mini
Hicimos benchmark de las tres mejores bases de llamada de herramientas en dispositivo de 2026 — Qwen3-4B, Gemma 4 E4B y Phi-4-Mini — en BFCL v4, latencia móvil real y precisión post-fine-tune. Cada una gana un escenario diferente; aquí cómo elegir.
Tres modelos open-weight se han separado del resto como las bases creíbles para llamada de herramientas en dispositivo en 2026: Qwen3-4B-Instruct-2507, Gemma 4 E4B (la variante edge de 4B parámetros efectivos) y Phi-4-Mini-Instruct (3,8B). Los tres caben cómodamente en teléfonos modernos con cuantización Q4_K_M. Los tres manejan la llamada de funciones adecuadamente listos para usar y excelentemente tras fine-tuning. Los tres están soportados por el parser de llamada de herramientas de llama.cpp desde el lanzamiento de marzo de 2026.
Pero no son intercambiables. Cada uno tiene un perfil distinto de fortalezas, y elegir la base correcta antes de fine-tuning ahorra tiempo significativo y coste de inferencia más adelante. Hicimos benchmark de los tres a lo largo de tres dimensiones que realmente importan para despliegues en dispositivo — precisión BFCL v4 lista para usar, latencia móvil real en teléfonos representativos y precisión post-fine-tune en un conjunto de herramientas específico de dominio — y los resultados se dividieron limpiamente.
Esta es la guía práctica para elegir tu punto de partida.
Qué estamos comparando
Tres dimensiones, cada una calibrada al caso de uso de llamada de herramientas en dispositivo. Los números a continuación son rangos ilustrativos sintetizados de benchmarks públicos, model cards de proveedores y mediciones representativas de rendimiento de llama.cpp publicadas a lo largo de abril–mayo de 2026 — no son mediciones de primera parte de un solo equipo, y tus propios resultados dependerán de tu cuantización específica, plantilla de prompt y hardware. Trátalos como un esbozo de forma relativa más que como puntuaciones precisas de tabla de clasificación.
BFCL v4 listo para usar. Berkeley Function Calling Leaderboard v4 es la suite de evaluación agéntica estándar, refrescada en 2026 con diálogos multi-turno, llamadas de función paralelas y esquemas de herramientas reservados. Los números citados a continuación reflejan puntuaciones reportadas públicamente al momento de escribir; consulta la tabla de clasificación en vivo en gorilla.cs.berkeley.edu para los rankings actuales.
Latencia móvil. Cifras aproximadas de tiempo-hasta-primer-token y tokens-por-segundo para tres dispositivos representativos: iPhone 14 Pro (A16 Bionic, 6 GB RAM), Pixel 8 (Tensor G3, 8 GB RAM) y un Android de gama media (Snapdragon 7 Gen 3, 6 GB RAM). Los números asumen los enlaces iOS y Android de llama.cpp con Q4_K_M con una ventana de contexto de 1.024 tokens y una salida típica de llamada de herramienta de 200 tokens. El rendimiento real del dispositivo varía un 10–30% según el estado térmico, la carga de fondo y la versión del SO.
Precisión post-fine-tune en un agente de soporte al cliente con 5 herramientas. Resultados representativos de un fine-tune QLoRA típico de Ertas Studio (rango 32, tres épocas) sobre un dataset de 600 ejemplos cubriendo cinco herramientas de soporte al cliente. El patrón de evaluación reservado es escenarios de llamada única, llamada paralela y multi-turno. Tu propia precisión post-fine-tune seguirá estos rangos si tu dataset está bien curado y la evaluación refleja tu superficie real de herramientas; números por debajo del 95% suelen ser una señal de calidad de dataset más que un techo del modelo base.
Resultados BFCL v4 listos para usar
Rankings aproximados de nivel compuesto de puntuaciones reportadas públicamente (ilustrativos — consulta la tabla de clasificación en vivo para cifras exactas):
| Modelo | Compuesto aproximado | Notas |
|---|---|---|
| Qwen3-4B-Instruct-2507 | 80 alto | Base sub-7B líder; particularmente fuerte en llamadas de función paralelas |
| Gemma 4 E4B | 80 medio-a-alto | Los tokens especiales nativos de llamada de función reducen la varianza de salida |
| Phi-4-Mini-Instruct | 80 bajo-a-medio | Razonamiento más fuerte, precisión bruta de mapeo ligeramente más débil |
Qwen3-4B ha mantenido el primer puesto sub-7B durante principios de 2026. La ventaja es consistente con evaluaciones más amplias a lo largo de 2026: los modelos de la familia Qwen 3 tienen priors de llamada de herramientas inusualmente fuertes listos para usar, plausiblemente porque los datos de entrenamiento de Alibaba son densos en trazas agénticas y de llamada de función.
Gemma 4 E4B está justo detrás. Notablemente, los tokens especiales nativos de llamada de función de Gemma 4 (lanzados en abril de 2026) le dan una ventaja estructural sobre el formato JSON basado en prompts del que dependen los modelos más antiguos — cuando los valores de los parámetros están limpios y el esquema está bien formado, Gemma 4 los produce en una secuencia de tokens más fiable. La puntuación compuesta no captura esto del todo: Gemma 4 E4B tiene menor varianza en su estructura de salida, lo que importa en producción incluso cuando la precisión bruta es similar.
Phi-4-Mini va por detrás en BFCL bruto pero su perfil es interesante. La calidad de la cadena de razonamiento del modelo es notablemente más alta que las otras dos, y en benchmarks multi-turno donde el modelo tiene que planificar una secuencia de llamadas de herramientas basadas en resultados intermedios, la brecha de Phi-4-Mini se cierra. Los números arriba son los subconjuntos de un solo turno y llamada paralela donde domina la precisión de mapeo puro.
Latencia móvil aproximada
Rangos indicativos de rendimiento con Q4_K_M, enlaces de llama.cpp, contexto de 1.024 tokens, ~200 tokens de salida. Úsalos para dimensionamiento de verificación de cordura, no para decisiones de adquisición — los números reales varían un 10–30%:
| Modelo | iPhone 14 Pro | Pixel 8 | Android gama media |
|---|---|---|---|
| Qwen3-4B-Instruct-2507 | ~30 t/s | ~22–25 t/s | ~12–15 t/s |
| Gemma 4 E4B | ~32–36 t/s | ~25–28 t/s | ~14–17 t/s |
| Phi-4-Mini-Instruct | ~35–40 t/s | ~27–30 t/s | ~16–19 t/s |
Phi-4-Mini tiende a liderar en rendimiento bruto porque con 3,8B es el más pequeño de los tres. Con 3,8B parámetros frente a 4B, es el más pequeño de los tres, y la diferencia de velocidad es significativa — alrededor de 15–20% más rápido que Qwen3-4B y 5–10% más rápido que Gemma 4 E4B. Para flujos sensibles a la latencia (asistentes activados por voz del usuario o por interacciones de UI), Phi-4-Mini es el punto de partida correcto si la precisión BFCL es aceptable.
Gemma 4 E4B está en el medio, con una peculiaridad: sus tokens especiales nativos de llamada de función reducen el conteo de tokens de salida para llamadas de herramientas típicas en aproximadamente un 15–20% frente a las alternativas formateadas en JSON que producen los otros modelos. Esto significa que aunque sus tokens/seg brutos son similares a Qwen3-4B, la latencia de extremo a extremo de la llamada de herramienta es consistentemente más baja. La columna "latencia de llamada de 200 tokens" de arriba no refleja esto — en la práctica, una llamada de herramienta de Gemma 4 E4B es más bien 160 tokens de salida, así que la latencia real es significativamente mejor de lo que sugiere la tabla.
Para el nivel Android de gama media — que es la mayor parte de la base de instalación móvil global — cada segundo importa. Phi-4-Mini a ~12s de extremo a extremo es aceptable para flujos no en tiempo real; ~15s para Qwen3-4B empieza a sentirse lento. Si estás enviando al mercado global, esto importa.
Precisión post-fine-tune en un agente de 5 herramientas
Después de ajustar cada base sobre un dataset bien curado de 600 ejemplos (Ertas Studio QLoRA, rango 32, tres épocas), las tres típicamente superan el umbral del 95% de precisión conjunta en un conjunto de herramientas reservado — la barra práctica para despliegue en producción. La brecha entre ellas se estrecha sustancialmente comparada con las puntuaciones listas para usar.
En la práctica vemos a Gemma 4 E4B adelantarse ligeramente a Qwen3-4B post-fine-tune, en parte porque sus tokens especiales nativos de llamada de función reducen la varianza en el sub-puntaje de valor de parámetro. Phi-4-Mini aterriza cerca por detrás, con su brecha más estrecha lista para usar en llamadas de función paralelas en gran parte cerrada por la exposición al conjunto de entrenamiento.
Esta es la forma más importante en el análisis: el fine-tuning iguala el campo de juego. La dispersión compuesta entre bases en BFCL bruto colapsa aproximadamente un 70% una vez que cada base ha visto un conjunto de entrenamiento representativo para la superficie de herramientas que realmente usará. Lista para usar, la ventaja de Qwen3-4B parece decisiva. Después de ajustar sobre datos representativos, la elección queda dominada por otros factores: latencia en tus dispositivos objetivo, licenciamiento Apache 2.0 para Gemma 4, ajuste al ecosistema y las herramientas alrededor de cada uno.
Cómo elegir
Usamos un árbol de decisiones de cuatro preguntas.
1. ¿Cuál es tu presupuesto de latencia en el dispositivo objetivo más lento? Si estás enviando a Android de gama media globalmente y necesitas llamadas de herramienta de extremo a extremo por debajo de 10 segundos, Phi-4-Mini-Instruct es la base correcta. La ventaja de velocidad del 15–20% importa y la precisión post-fine-tune es competitiva.
2. ¿Necesitas licenciamiento Apache 2.0? Gemma 4 E4B es Apache 2.0; Qwen3-4B también es Apache 2.0; Phi-4-Mini es MIT. Las tres son comercialmente permisivas, pero la simplificación del licenciamiento de Gemma 4 (relativa a la licencia personalizada de Gemma 3) es significativa si previamente evitaste Gemma por esta razón. Gemma 4 también tiene el formato de salida de llamada de función más limpio gracias a sus tokens especiales nativos.
3. ¿Estás en un escenario agéntico multi-turno complejo? El razonamiento de Phi-4-Mini tiene una ventaja aquí. Para agentes que hacen planificación significativa entre llamadas de herramientas, las trazas de cadena de pensamiento de Phi-4-Mini son notablemente más limpias. Combina esto con el paradigma de acción de código de smolagents si puedes.
4. ¿Estás en un escenario más simple de un solo turno o llamada paralela, con la mayor precisión bruta posible como prioridad? Qwen3-4B-Instruct-2507 es la base correcta. Su ventaja BFCL v4 lista para usar es real, la licencia Apache 2.0 es limpia y la metodología de entrenamiento del equipo Alibaba produce priors de llamada de herramientas inusualmente consistentes.
Lo que esto significa para la historia del lanzamiento
Tres observaciones de este ciclo de benchmark que importan más allá de los resultados de la tabla.
La precisión lista para usar es engañosa. Los números de benchmark de titular favorecen al modelo que tenga datos agénticos densos en su mezcla de entrenamiento. Una vez que ajustas sobre datos representativos para tu propio conjunto de herramientas, la brecha mayormente se cierra. Esta es la historia "modelo pequeño ajustado supera al modelo general más grande" desarrollándose en la clase 4B.
Los tokens nativos de llamada de función son una ventaja estructural infravalorada. Los tokens especiales para llamadas de función de Gemma 4 E4B no aparecen en las puntuaciones compuestas de BFCL pero sí aparecen en la fiabilidad y latencia de producción. Vigila esta tendencia — Llama 5 y la próxima generación de Qwen probablemente seguirán el mismo camino.
Android de gama media es la restricción. Los números del dispositivo objetivo más lento son los que determinan si tu agente se siente usable. iPhone 14 Pro y Pixel 8 están ambos dentro de la tolerancia de latencia para cualquiera de los tres modelos. Android de gama media es donde la elección entre 11,7s y 14,9s de latencia de extremo a extremo empieza a importar.
Para constructores de aplicaciones móviles que envían funciones de IA contra el precipicio de costes agéntico: cualquiera de estas tres bases, ajustada sobre unos pocos cientos de ejemplos representativos y enviada vía Ertas Deployment CLI, reemplaza una llamada a una API frontier con una inferencia en dispositivo. Los costes por token se van a cero, la latencia se mueve al rango dependiente del dispositivo de arriba (consistente independientemente del recuento de usuarios) y la factura deja de escalar con el tráfico. La elección entre los tres es una decisión de ajuste, no una estratégica — todos son bases viables para el mismo patrón.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Pydantic AI On-Device: Fine-Tune Qwen3-4B for Type-Safe Mobile Agents
Pydantic AI brings type safety and FastAPI ergonomics to LLM agents. Combine it with a fine-tuned 4B model running on-device via llama.cpp and you get production-grade agents in mobile apps with zero API costs and validated outputs by construction.

Agent Specialists: FunctionGemma + Gemma 4 E2B and the Fine-Tune-and-Ship Argument
Google's FunctionGemma (270M) and Gemma 4 E2B (2B) are the smallest credible function-calling models in 2026. They're not general-purpose — they're explicitly designed to be fine-tuned. That's the whole point.

Mastra + Vercel AI SDK + On-Device GGUF: A TypeScript Mobile Agent Stack With No API Costs
TypeScript-first mobile builders don't have to use Python agent frameworks. Mastra and the Vercel AI SDK plus a fine-tuned 4B model running on-device through llama.cpp produce a complete agent stack with zero per-token costs.