Back to blog
    Los mejores modelos para IA movil en el dispositivo en 2026
    model selectionLlamaGemmaPhiQwenmobile AI2026segment:mobile-builder

    Los mejores modelos para IA movil en el dispositivo en 2026

    Una comparacion practica de los mejores modelos de lenguaje pequenos para despliegue movil. Llama 3.2, Gemma 3, Phi-4 Mini y Qwen 2.5 evaluados para inferencia en el dispositivo via llama.cpp.

    EErtas Team·

    El panorama de modelos de lenguaje pequenos ha madurado rapidamente. En 2024, los modelos en el dispositivo eran curiosidades experimentales. En 2026, multiples familias de modelos de Meta, Google, Microsoft y Alibaba ofrecen rendimiento de calidad de produccion en el rango de 1-3B parametros.

    Todos estos modelos pueden cuantizarse a GGUF y desplegarse en dispositivos moviles via llama.cpp. La pregunta es cual es mejor para tu caso de uso.

    Los contendientes

    Llama 3.2 (Meta)

    • Tamanos: 1B, 3B
    • Licencia: Llama Community License (uso comercial permitido, algunas restricciones por encima de 700M MAU)
    • Datos de entrenamiento: 9T tokens
    • Ventana de contexto: 128K
    • Tamano GGUF Q4: ~600MB (1B), ~1.7GB (3B)

    Llama 3.2 fue disenado especificamente para despliegue movil y edge. Las variantes 1B y 3B son destiladas de los modelos Llama 3.1 mas grandes, reteniendo capacidad sorprendente en un paquete pequeno.

    Fortalezas: Fuerte capacidad general, excelente seguimiento de instrucciones, gran comunidad y ecosistema, conversiones GGUF bien probadas, robusto soporte de fine-tuning.

    Debilidades: La licencia comunitaria tiene un umbral de 700M MAU (contactar a Meta por encima de eso). Ligeramente mas debil en tareas multilingues comparado con Qwen.

    Gemma 3 (Google)

    • Tamanos: 1B, 4B
    • Licencia: Gemma Terms of Use (uso comercial permitido)
    • Ventana de contexto: 32K (1B), 128K (4B)
    • Tamano GGUF Q4: ~600MB (1B), ~2.3GB (4B)

    Gemma 3 de Google mejoro significativamente sobre Gemma 2, particularmente en seguimiento de instrucciones y razonamiento. El modelo 4B supera su peso en benchmarks.

    Fortalezas: Fuerte razonamiento para su tamano (especialmente 4B), buen soporte multilingue, licencia permisiva, bien optimizado para inferencia.

    Debilidades: El modelo 4B es mas grande que el objetivo tipico de 3B para movil. La variante 1B es menos capaz que Llama 3.2 1B en la mayoria de benchmarks. Comunidad de fine-tuning mas pequena.

    Phi-4 Mini (Microsoft)

    • Tamanos: 3.8B
    • Licencia: MIT (completamente permisiva)
    • Ventana de contexto: 128K
    • Tamano GGUF Q4: ~2.2GB

    La serie Phi de Microsoft se enfoca en eficiencia de entrenamiento, entregando fuerte rendimiento de modelos mas pequenos usando datos de entrenamiento sinteticos de alta calidad.

    Fortalezas: Licencia MIT (sin restricciones), fuerte capacidad de razonamiento y matematicas, excelente salida estructurada, buena generacion de codigo para su tamano.

    Debilidades: Solo un tamano viable para movil (3.8B), sin variante 1B para cobertura ultra-amplia de dispositivos. Uso de memoria ligeramente mayor que un verdadero 3B.

    Qwen 2.5 (Alibaba)

    • Tamanos: 0.5B, 1.5B, 3B, 7B
    • Licencia: Apache 2.0 (completamente permisiva)
    • Ventana de contexto: 128K
    • Tamano GGUF Q4: ~300MB (0.5B), ~900MB (1.5B), ~1.7GB (3B)

    Qwen ofrece el rango de tamanos mas amplio en una sola familia de modelos. Los modelos 0.5B y 1.5B estan unicamente posicionados para dispositivos ultra-limitados.

    Fortalezas: Licencia Apache 2.0 (la mas permisiva), mejor soporte multilingue (especialmente idiomas CJK), rango de tamanos mas amplio, fuerte capacidad de codificacion.

    Debilidades: Comunidad occidental mas pequena comparada con Llama. Algunos benchmarks muestran rendimiento en ingles ligeramente menor que Llama en tamanos equivalentes.

    Comparacion de benchmarks

    Capacidad general (MMLU - Modelos base)

    ModeloRango 1BRango 3B
    Llama 3.249.363.4
    Gemma 346.8 (1B)N/A (4B: 67.2)
    Phi-4 MiniN/A68.5 (3.8B)
    Qwen 2.547.5 (1.5B)65.1

    Seguimiento de instrucciones (IFEval)

    ModeloRango 1BRango 3B
    Llama 3.259.477.4
    Gemma 354.2 (1B)N/A (4B: 80.1)
    Phi-4 MiniN/A79.2 (3.8B)
    Qwen 2.555.8 (1.5B)68.3

    Despues de fine-tuning (tareas especificas de dominio)

    Las diferencias de benchmarks entre modelos base se comprimen significativamente despues de fine-tuning con datos de dominio. Una brecha de 5 puntos en MMLU del modelo base tipicamente se reduce a 1-2 puntos despues de fine-tuning con LoRA en el mismo dataset de dominio.

    Esto significa que la eleccion del modelo base importa menos que la calidad del fine-tuning. Elige el modelo con la mejor licencia, ecosistema y herramientas de fine-tuning para tus necesidades.

    Recomendaciones practicas

    Mejor en general: Llama 3.2

    Para la mayoria de apps moviles, Llama 3.2 es la eleccion por defecto. Los modelos 1B y 3B cubren tanto amplia compatibilidad de dispositivos como generacion de calidad. El ecosistema es el mas grande (mas guias de fine-tuning, mas conversiones GGUF, mas soporte de herramientas y mas ejemplos de despliegue en produccion).

    Mejor para multilingue: Qwen 2.5

    Si tu app sirve usuarios en multiples idiomas (especialmente chino, japones, coreano, arabe), los datos de entrenamiento multilingue de Qwen le dan una ventaja significativa.

    Mejor licencia: Qwen 2.5 o Phi-4 Mini

    Si la simplicidad de licenciamiento importa, la Apache 2.0 de Qwen o la MIT de Phi-4 elimina cualquier ambiguedad.

    Mejor razonamiento: Phi-4 Mini

    Para tareas que requieren razonamiento mas fuerte, matematicas o salida estructurada, Phi-4 Mini lidera en el tamano 3-4B.

    Mejor para dispositivos pequenos: Qwen 2.5 0.5B

    La unica opcion viable para dispositivos con 2-3GB de RAM o para tareas donde la velocidad de inferencia debe maximizarse (100+ tok/s).

    El ecualizador del fine-tuning

    Los benchmarks de modelos base son utiles para la seleccion pero se vuelven menos importantes despues del fine-tuning. Cuando fine-tuneas cualquiera de estos modelos con 500-5,000 ejemplos especificos de dominio:

    • La precision de clasificacion converge al 90-96% independientemente del modelo base
    • La calidad de Q&A especifica de dominio se reduce a diferencias de 2-3 puntos
    • El seguimiento de instrucciones mejora en todos los modelos

    Los criterios practicos de seleccion se convierten en:

    1. Compatibilidad de licencia con tu negocio
    2. Disponibilidad de tamano (necesitas 1B para amplia cobertura?)
    3. Ecosistema de fine-tuning (herramientas, comunidad, documentacion)
    4. Requisitos multilingues

    Plataformas como Ertas soportan fine-tuning en todas las familias principales de modelos. Sube tus datos de entrenamiento, selecciona tu modelo base, entrena con LoRA y exporta GGUF.

    Tabla resumen

    FactorLlama 3.2Gemma 3Phi-4 MiniQwen 2.5
    Tamanos moviles1B, 3B1B, 4B3.8B0.5B, 1.5B, 3B
    LicenciaCommunityGemma ToUMITApache 2.0
    Calidad en inglesExcelenteBuenaExcelenteMuy buena
    MultilingueBuenoBuenoModeradoExcelente
    Ecosistema de fine-tuningEl mas grandeMedioMedioGrande
    Recomendado paraEleccion por defectoEcosistema GoogleRazonamiento/codigoMultilingue/pequeno

    Comienza con Llama 3.2 a menos que tengas una razon especifica para elegir otro. Fine-tunea con tus datos. Prueba con tus benchmarks. El modelo que mejor rinda en tu conjunto de evaluacion es la eleccion correcta, independientemente de benchmarks generales.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading