
Los mejores modelos para IA movil en el dispositivo en 2026
Una comparacion practica de los mejores modelos de lenguaje pequenos para despliegue movil. Llama 3.2, Gemma 3, Phi-4 Mini y Qwen 2.5 evaluados para inferencia en el dispositivo via llama.cpp.
El panorama de modelos de lenguaje pequenos ha madurado rapidamente. En 2024, los modelos en el dispositivo eran curiosidades experimentales. En 2026, multiples familias de modelos de Meta, Google, Microsoft y Alibaba ofrecen rendimiento de calidad de produccion en el rango de 1-3B parametros.
Todos estos modelos pueden cuantizarse a GGUF y desplegarse en dispositivos moviles via llama.cpp. La pregunta es cual es mejor para tu caso de uso.
Los contendientes
Llama 3.2 (Meta)
- Tamanos: 1B, 3B
- Licencia: Llama Community License (uso comercial permitido, algunas restricciones por encima de 700M MAU)
- Datos de entrenamiento: 9T tokens
- Ventana de contexto: 128K
- Tamano GGUF Q4: ~600MB (1B), ~1.7GB (3B)
Llama 3.2 fue disenado especificamente para despliegue movil y edge. Las variantes 1B y 3B son destiladas de los modelos Llama 3.1 mas grandes, reteniendo capacidad sorprendente en un paquete pequeno.
Fortalezas: Fuerte capacidad general, excelente seguimiento de instrucciones, gran comunidad y ecosistema, conversiones GGUF bien probadas, robusto soporte de fine-tuning.
Debilidades: La licencia comunitaria tiene un umbral de 700M MAU (contactar a Meta por encima de eso). Ligeramente mas debil en tareas multilingues comparado con Qwen.
Gemma 3 (Google)
- Tamanos: 1B, 4B
- Licencia: Gemma Terms of Use (uso comercial permitido)
- Ventana de contexto: 32K (1B), 128K (4B)
- Tamano GGUF Q4: ~600MB (1B), ~2.3GB (4B)
Gemma 3 de Google mejoro significativamente sobre Gemma 2, particularmente en seguimiento de instrucciones y razonamiento. El modelo 4B supera su peso en benchmarks.
Fortalezas: Fuerte razonamiento para su tamano (especialmente 4B), buen soporte multilingue, licencia permisiva, bien optimizado para inferencia.
Debilidades: El modelo 4B es mas grande que el objetivo tipico de 3B para movil. La variante 1B es menos capaz que Llama 3.2 1B en la mayoria de benchmarks. Comunidad de fine-tuning mas pequena.
Phi-4 Mini (Microsoft)
- Tamanos: 3.8B
- Licencia: MIT (completamente permisiva)
- Ventana de contexto: 128K
- Tamano GGUF Q4: ~2.2GB
La serie Phi de Microsoft se enfoca en eficiencia de entrenamiento, entregando fuerte rendimiento de modelos mas pequenos usando datos de entrenamiento sinteticos de alta calidad.
Fortalezas: Licencia MIT (sin restricciones), fuerte capacidad de razonamiento y matematicas, excelente salida estructurada, buena generacion de codigo para su tamano.
Debilidades: Solo un tamano viable para movil (3.8B), sin variante 1B para cobertura ultra-amplia de dispositivos. Uso de memoria ligeramente mayor que un verdadero 3B.
Qwen 2.5 (Alibaba)
- Tamanos: 0.5B, 1.5B, 3B, 7B
- Licencia: Apache 2.0 (completamente permisiva)
- Ventana de contexto: 128K
- Tamano GGUF Q4: ~300MB (0.5B), ~900MB (1.5B), ~1.7GB (3B)
Qwen ofrece el rango de tamanos mas amplio en una sola familia de modelos. Los modelos 0.5B y 1.5B estan unicamente posicionados para dispositivos ultra-limitados.
Fortalezas: Licencia Apache 2.0 (la mas permisiva), mejor soporte multilingue (especialmente idiomas CJK), rango de tamanos mas amplio, fuerte capacidad de codificacion.
Debilidades: Comunidad occidental mas pequena comparada con Llama. Algunos benchmarks muestran rendimiento en ingles ligeramente menor que Llama en tamanos equivalentes.
Comparacion de benchmarks
Capacidad general (MMLU - Modelos base)
| Modelo | Rango 1B | Rango 3B |
|---|---|---|
| Llama 3.2 | 49.3 | 63.4 |
| Gemma 3 | 46.8 (1B) | N/A (4B: 67.2) |
| Phi-4 Mini | N/A | 68.5 (3.8B) |
| Qwen 2.5 | 47.5 (1.5B) | 65.1 |
Seguimiento de instrucciones (IFEval)
| Modelo | Rango 1B | Rango 3B |
|---|---|---|
| Llama 3.2 | 59.4 | 77.4 |
| Gemma 3 | 54.2 (1B) | N/A (4B: 80.1) |
| Phi-4 Mini | N/A | 79.2 (3.8B) |
| Qwen 2.5 | 55.8 (1.5B) | 68.3 |
Despues de fine-tuning (tareas especificas de dominio)
Las diferencias de benchmarks entre modelos base se comprimen significativamente despues de fine-tuning con datos de dominio. Una brecha de 5 puntos en MMLU del modelo base tipicamente se reduce a 1-2 puntos despues de fine-tuning con LoRA en el mismo dataset de dominio.
Esto significa que la eleccion del modelo base importa menos que la calidad del fine-tuning. Elige el modelo con la mejor licencia, ecosistema y herramientas de fine-tuning para tus necesidades.
Recomendaciones practicas
Mejor en general: Llama 3.2
Para la mayoria de apps moviles, Llama 3.2 es la eleccion por defecto. Los modelos 1B y 3B cubren tanto amplia compatibilidad de dispositivos como generacion de calidad. El ecosistema es el mas grande (mas guias de fine-tuning, mas conversiones GGUF, mas soporte de herramientas y mas ejemplos de despliegue en produccion).
Mejor para multilingue: Qwen 2.5
Si tu app sirve usuarios en multiples idiomas (especialmente chino, japones, coreano, arabe), los datos de entrenamiento multilingue de Qwen le dan una ventaja significativa.
Mejor licencia: Qwen 2.5 o Phi-4 Mini
Si la simplicidad de licenciamiento importa, la Apache 2.0 de Qwen o la MIT de Phi-4 elimina cualquier ambiguedad.
Mejor razonamiento: Phi-4 Mini
Para tareas que requieren razonamiento mas fuerte, matematicas o salida estructurada, Phi-4 Mini lidera en el tamano 3-4B.
Mejor para dispositivos pequenos: Qwen 2.5 0.5B
La unica opcion viable para dispositivos con 2-3GB de RAM o para tareas donde la velocidad de inferencia debe maximizarse (100+ tok/s).
El ecualizador del fine-tuning
Los benchmarks de modelos base son utiles para la seleccion pero se vuelven menos importantes despues del fine-tuning. Cuando fine-tuneas cualquiera de estos modelos con 500-5,000 ejemplos especificos de dominio:
- La precision de clasificacion converge al 90-96% independientemente del modelo base
- La calidad de Q&A especifica de dominio se reduce a diferencias de 2-3 puntos
- El seguimiento de instrucciones mejora en todos los modelos
Los criterios practicos de seleccion se convierten en:
- Compatibilidad de licencia con tu negocio
- Disponibilidad de tamano (necesitas 1B para amplia cobertura?)
- Ecosistema de fine-tuning (herramientas, comunidad, documentacion)
- Requisitos multilingues
Plataformas como Ertas soportan fine-tuning en todas las familias principales de modelos. Sube tus datos de entrenamiento, selecciona tu modelo base, entrena con LoRA y exporta GGUF.
Tabla resumen
| Factor | Llama 3.2 | Gemma 3 | Phi-4 Mini | Qwen 2.5 |
|---|---|---|---|---|
| Tamanos moviles | 1B, 3B | 1B, 4B | 3.8B | 0.5B, 1.5B, 3B |
| Licencia | Community | Gemma ToU | MIT | Apache 2.0 |
| Calidad en ingles | Excelente | Buena | Excelente | Muy buena |
| Multilingue | Bueno | Bueno | Moderado | Excelente |
| Ecosistema de fine-tuning | El mas grande | Medio | Medio | Grande |
| Recomendado para | Eleccion por defecto | Ecosistema Google | Razonamiento/codigo | Multilingue/pequeno |
Comienza con Llama 3.2 a menos que tengas una razon especifica para elegir otro. Fine-tunea con tus datos. Prueba con tus benchmarks. El modelo que mejor rinda en tu conjunto de evaluacion es la eleccion correcta, independientemente de benchmarks generales.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Llama 3.2 for Mobile Apps: Fine-Tuning and On-Device Deployment
A complete guide to using Meta's Llama 3.2 1B and 3B models in mobile apps. Fine-tuning with LoRA, exporting to GGUF, and deploying on iOS and Android via llama.cpp.

Gemma 3 for Mobile: Fine-Tuning and On-Device Deployment
How to use Google's Gemma 3 models for on-device mobile AI. Model selection, fine-tuning with LoRA, GGUF export, and deployment via llama.cpp on iOS and Android.

Phi-4 Mini for Mobile: Microsoft's Small Model on iOS and Android
Microsoft's Phi-4 Mini packs strong reasoning into 3.8B parameters with an MIT license. How it compares to Llama and Gemma for mobile deployment, and when to choose it.