Los mejores modelos para IA movil en el dispositivo en 2026

El panorama de modelos de lenguaje pequenos ha madurado rapidamente. En 2024, los modelos en el dispositivo eran curiosidades experimentales. En 2026, multiples familias de modelos de Meta, Google, Microsoft y Alibaba ofrecen rendimiento de calidad de produccion en el rango de 1-3B parametros.

Todos estos modelos pueden cuantizarse a GGUF y desplegarse en dispositivos moviles via llama.cpp. La pregunta es cual es mejor para tu caso de uso.

Los contendientes

Llama 3.2 (Meta)

Tamanos: 1B, 3B
Licencia: Llama Community License (uso comercial permitido, algunas restricciones por encima de 700M MAU)
Datos de entrenamiento: 9T tokens
Ventana de contexto: 128K
Tamano GGUF Q4: ~600MB (1B), ~1.7GB (3B)

Llama 3.2 fue disenado especificamente para despliegue movil y edge. Las variantes 1B y 3B son destiladas de los modelos Llama 3.1 mas grandes, reteniendo capacidad sorprendente en un paquete pequeno.

Fortalezas: Fuerte capacidad general, excelente seguimiento de instrucciones, gran comunidad y ecosistema, conversiones GGUF bien probadas, robusto soporte de fine-tuning.

Debilidades: La licencia comunitaria tiene un umbral de 700M MAU (contactar a Meta por encima de eso). Ligeramente mas debil en tareas multilingues comparado con Qwen.

Gemma 3 (Google)

Tamanos: 1B, 4B
Licencia: Gemma Terms of Use (uso comercial permitido)
Ventana de contexto: 32K (1B), 128K (4B)
Tamano GGUF Q4: ~600MB (1B), ~2.3GB (4B)

Gemma 3 de Google mejoro significativamente sobre Gemma 2, particularmente en seguimiento de instrucciones y razonamiento. El modelo 4B supera su peso en benchmarks.

Fortalezas: Fuerte razonamiento para su tamano (especialmente 4B), buen soporte multilingue, licencia permisiva, bien optimizado para inferencia.

Debilidades: El modelo 4B es mas grande que el objetivo tipico de 3B para movil. La variante 1B es menos capaz que Llama 3.2 1B en la mayoria de benchmarks. Comunidad de fine-tuning mas pequena.

Phi-4 Mini (Microsoft)

Tamanos: 3.8B
Licencia: MIT (completamente permisiva)
Ventana de contexto: 128K
Tamano GGUF Q4: ~2.2GB

La serie Phi de Microsoft se enfoca en eficiencia de entrenamiento, entregando fuerte rendimiento de modelos mas pequenos usando datos de entrenamiento sinteticos de alta calidad.

Fortalezas: Licencia MIT (sin restricciones), fuerte capacidad de razonamiento y matematicas, excelente salida estructurada, buena generacion de codigo para su tamano.

Debilidades: Solo un tamano viable para movil (3.8B), sin variante 1B para cobertura ultra-amplia de dispositivos. Uso de memoria ligeramente mayor que un verdadero 3B.

Qwen 2.5 (Alibaba)

Tamanos: 0.5B, 1.5B, 3B, 7B
Licencia: Apache 2.0 (completamente permisiva)
Ventana de contexto: 128K
Tamano GGUF Q4: ~300MB (0.5B), ~900MB (1.5B), ~1.7GB (3B)

Qwen ofrece el rango de tamanos mas amplio en una sola familia de modelos. Los modelos 0.5B y 1.5B estan unicamente posicionados para dispositivos ultra-limitados.

Fortalezas: Licencia Apache 2.0 (la mas permisiva), mejor soporte multilingue (especialmente idiomas CJK), rango de tamanos mas amplio, fuerte capacidad de codificacion.

Debilidades: Comunidad occidental mas pequena comparada con Llama. Algunos benchmarks muestran rendimiento en ingles ligeramente menor que Llama en tamanos equivalentes.

Comparacion de benchmarks

Capacidad general (MMLU - Modelos base)

Modelo	Rango 1B	Rango 3B
Llama 3.2	49.3	63.4
Gemma 3	46.8 (1B)	N/A (4B: 67.2)
Phi-4 Mini	N/A	68.5 (3.8B)
Qwen 2.5	47.5 (1.5B)	65.1

Seguimiento de instrucciones (IFEval)

Modelo	Rango 1B	Rango 3B
Llama 3.2	59.4	77.4
Gemma 3	54.2 (1B)	N/A (4B: 80.1)
Phi-4 Mini	N/A	79.2 (3.8B)
Qwen 2.5	55.8 (1.5B)	68.3

Despues de fine-tuning (tareas especificas de dominio)

Las diferencias de benchmarks entre modelos base se comprimen significativamente despues de fine-tuning con datos de dominio. Una brecha de 5 puntos en MMLU del modelo base tipicamente se reduce a 1-2 puntos despues de fine-tuning con LoRA en el mismo dataset de dominio.

Esto significa que la eleccion del modelo base importa menos que la calidad del fine-tuning. Elige el modelo con la mejor licencia, ecosistema y herramientas de fine-tuning para tus necesidades.

Recomendaciones practicas

Mejor en general: Llama 3.2

Para la mayoria de apps moviles, Llama 3.2 es la eleccion por defecto. Los modelos 1B y 3B cubren tanto amplia compatibilidad de dispositivos como generacion de calidad. El ecosistema es el mas grande (mas guias de fine-tuning, mas conversiones GGUF, mas soporte de herramientas y mas ejemplos de despliegue en produccion).

Mejor para multilingue: Qwen 2.5

Si tu app sirve usuarios en multiples idiomas (especialmente chino, japones, coreano, arabe), los datos de entrenamiento multilingue de Qwen le dan una ventaja significativa.

Mejor licencia: Qwen 2.5 o Phi-4 Mini

Si la simplicidad de licenciamiento importa, la Apache 2.0 de Qwen o la MIT de Phi-4 elimina cualquier ambiguedad.

Mejor razonamiento: Phi-4 Mini

Para tareas que requieren razonamiento mas fuerte, matematicas o salida estructurada, Phi-4 Mini lidera en el tamano 3-4B.

Mejor para dispositivos pequenos: Qwen 2.5 0.5B

La unica opcion viable para dispositivos con 2-3GB de RAM o para tareas donde la velocidad de inferencia debe maximizarse (100+ tok/s).

El ecualizador del fine-tuning

Los benchmarks de modelos base son utiles para la seleccion pero se vuelven menos importantes despues del fine-tuning. Cuando fine-tuneas cualquiera de estos modelos con 500-5,000 ejemplos especificos de dominio:

La precision de clasificacion converge al 90-96% independientemente del modelo base
La calidad de Q&A especifica de dominio se reduce a diferencias de 2-3 puntos
El seguimiento de instrucciones mejora en todos los modelos

Los criterios practicos de seleccion se convierten en:

Compatibilidad de licencia con tu negocio
Disponibilidad de tamano (necesitas 1B para amplia cobertura?)
Ecosistema de fine-tuning (herramientas, comunidad, documentacion)
Requisitos multilingues

Plataformas como Ertas soportan fine-tuning en todas las familias principales de modelos. Sube tus datos de entrenamiento, selecciona tu modelo base, entrena con LoRA y exporta GGUF.

Tabla resumen

Factor	Llama 3.2	Gemma 3	Phi-4 Mini	Qwen 2.5
Tamanos moviles	1B, 3B	1B, 4B	3.8B	0.5B, 1.5B, 3B
Licencia	Community	Gemma ToU	MIT	Apache 2.0
Calidad en ingles	Excelente	Buena	Excelente	Muy buena
Multilingue	Bueno	Bueno	Moderado	Excelente
Ecosistema de fine-tuning	El mas grande	Medio	Medio	Grande
Recomendado para	Eleccion por defecto	Ecosistema Google	Razonamiento/codigo	Multilingue/pequeno

Comienza con Llama 3.2 a menos que tengas una razon especifica para elegir otro. Fine-tunea con tus datos. Prueba con tus benchmarks. El modelo que mejor rinda en tu conjunto de evaluacion es la eleccion correcta, independientemente de benchmarks generales.