Back to blog
    Guia de tamano de modelos de IA en el dispositivo: 1B vs 3B vs 7B para movil
    model sizeon-device AImobile AIGGUFarchitecturesegment:mobile-builder

    Guia de tamano de modelos de IA en el dispositivo: 1B vs 3B vs 7B para movil

    Como elegir el tamano de modelo correcto para tu app movil. Desglose de capacidades, requisitos de dispositivo, benchmarks de calidad y el factor de fine-tuning que cambia las matematicas.

    EErtas Team·

    Elegir el tamano de modelo correcto para tu app movil es la decision tecnica mas importante en IA en el dispositivo. Demasiado pequeno y el modelo no puede manejar tu tarea. Demasiado grande y se ejecuta lento, usa demasiada memoria o excluye demasiados dispositivos.

    La respuesta correcta depende de tu tarea, tus dispositivos objetivo y si haces fine-tuning.

    El espectro de tamanos

    Cantidad de parametrosTamano GGUF Q4RAM necesariaRequisito de dispositivo
    1B~600MB~800MB4GB+ RAM (cualquier telefono moderno)
    3B~1.7GB~2.2GB6GB+ RAM (gama media 2023+)
    7B~4GB~5GB8GB+ RAM (solo flagship)

    Estos tamanos asumen cuantizacion Q4_K_M, que proporciona el mejor balance de reduccion de tamano y retencion de calidad. Cuantizacion mas alta (Q5, Q8) aumenta el tamano un 25-100% con mejora marginal de calidad.

    Que puede hacer cada tamano

    Modelos 1B

    Fortalezas:

    • Clasificacion de texto (sentimiento, categoria, intencion)
    • Autocompletado y prediccion de texto
    • Sugerencias inteligentes (sugerencias de respuesta, sugerencias de accion)
    • Reconocimiento de entidades nombradas
    • Q&A simple con respuestas cortas
    • Extraccion de palabras clave y etiquetado

    Limitaciones:

    • Capacidad de razonamiento limitada
    • Generacion corta, a veces repetitiva
    • Lucha con instrucciones matizadas
    • No puede mantener salida coherente de formato largo

    Mejor para: Funciones que transforman entrada en una salida estructurada. Clasificacion, etiquetado, sugerencias y generacion de formato corto.

    Modelos 3B

    Fortalezas:

    • Chat conversacional con coherencia multi-turno
    • Resumen de articulos y documentos
    • Redaccion de contenido (emails, mensajes, notas)
    • Traduccion entre pares de idiomas comunes
    • Seguimiento de instrucciones complejas
    • Generacion de salida estructurada (JSON, texto formateado)

    Limitaciones:

    • Mas lento que 1B (aproximadamente la mitad de velocidad)
    • No puede igualar el razonamiento de modelos de frontera (GPT-4, Claude Sonnet)
    • Puede luchar con contenido altamente tecnico o especializado sin fine-tuning
    • Usa 2-3x mas memoria que 1B

    Mejor para: Funciones que generan texto legible por humanos. Chat, resumen, creacion de contenido y clasificacion compleja.

    Modelos 7B

    Fortalezas:

    • Razonamiento e inferencia mas fuertes
    • Mejor en tareas ambiguas o abiertas
    • Seguimiento de instrucciones mas robusto
    • Puede manejar salidas mas largas y coherentes

    Limitaciones:

    • Solo se ejecuta en dispositivos flagship con 8GB+ RAM
    • Generacion lenta (5-12 tok/s en la mayoria de dispositivos)
    • Excluye el 50-70% del mercado de dispositivos
    • La presion de memoria causa inestabilidad de la app

    Mejor para: Rara vez es la eleccion correcta para movil. Las compensaciones de cobertura de dispositivos y rendimiento son severas. Si necesitas calidad de 7B, fine-tunea un modelo 3B con tus datos de dominio en su lugar.

    Comparacion de calidad

    Benchmarks generales (modelos base, sin fine-tuning)

    Tarea1B3B7B
    Precision en clasificacion de texto78-85%85-90%88-93%
    Calidad de resumen (eval. humana)5.5/107/108/10
    Tasa de seguimiento de instrucciones70%85%90%
    Coherencia de conversacion (5 turnos)PobreBuenaMuy buena
    Confiabilidad de salida JSON60%82%90%

    Despues de fine-tuning con datos de dominio

    Tarea1B fine-tuned3B fine-tunedAPI en la nube (con prompts)
    Precision en clasificacion de dominio90-94%93-96%71-80%
    Q&A especifico de dominio82-88%88-94%75-82%
    Confiabilidad de salida estructurada85-90%92-96%80-88%

    La idea critica: un modelo 1B fine-tuned supera a una API en la nube con prompts en tareas especificas de dominio. Un modelo 3B fine-tuned la supera significativamente. El fine-tuning cierra la brecha de calidad mientras mantiene el modelo lo suficientemente pequeno para movil.

    El factor de fine-tuning

    El fine-tuning cambia las matematicas de seleccion de tamano:

    Sin fine-tuning, necesitas un modelo mas grande para manejar tu tarea porque el modelo depende del conocimiento general e instrucciones del prompt. Compensas la falta de conocimiento de dominio con mas parametros.

    Con fine-tuning, incorporas conocimiento de dominio en los pesos del modelo. El modelo no necesita descifrar tu dominio desde un prompt. Ya lo sabe. Esto significa que un modelo mas pequeno fine-tuned frecuentemente iguala o supera a un modelo general mas grande en tu tarea especifica.

    Implicaciones practicas:

    • Necesitas chat? Comienza con 3B fine-tuned. Podrias encontrar que iguala la calidad de tu API en la nube en tu dominio.
    • Necesitas clasificacion? Comienza con 1B fine-tuned. Probablemente superara la precision de tu API en la nube.
    • Crees que necesitas 7B? Fine-tunea 3B primero. Pruebalo. Probablemente no necesitaras 7B.

    Cobertura de dispositivos por tamano de modelo

    Tamano de modeloCobertura iPhoneCobertura AndroidTotal direccionable
    1BiPhone 12+ (95%+ activos)4GB+ (85%+ activos)~90% de smartphones
    3BiPhone 14+ (70%+ activos)6GB+ (60%+ activos)~65% de smartphones
    7BiPhone 15 Pro+ (15% activos)8GB+ flagship (20% activos)~18% de smartphones

    Elegir 1B sobre 3B aproximadamente duplica tu mercado de dispositivos direccionable. Elegir 3B sobre 7B lo triplica.

    Marco de decision

    Paso 1: Define tu tarea

    Que hara el modelo en tu app?

    Tipo de tareaTamano minimoTamano recomendado
    Clasificacion / etiquetado1B1B fine-tuned
    Autocompletado / sugerencias1B1B fine-tuned
    Q&A corto (1-2 oraciones)1B1B fine-tuned
    Chat (multi-turno)3B3B fine-tuned
    Resumen3B3B fine-tuned
    Redaccion de contenido3B3B fine-tuned
    Traduccion1-3B3B fine-tuned
    Razonamiento complejo3B+3B fine-tuned (prueba primero)

    Paso 2: Conoce tu audiencia

    Que dispositivos tienen tus usuarios? Revisa tu analitica para la distribucion de RAM de dispositivos. Si mas del 80% de tus usuarios tienen 6GB+ RAM, 3B es seguro. Si apuntas a mercados en desarrollo o usuarios conscientes del presupuesto, 1B es la eleccion mas segura.

    Paso 3: Fine-tunea y prueba

    No adivines. Fine-tunea tanto 1B como 3B con tus datos de dominio usando una plataforma como Ertas. Prueba ambos contra tus benchmarks de calidad. Elige el modelo mas pequeno que cumpla tu barra de calidad.

    La inversion en fine-tuning es pequena ($5-50 por ejecucion de entrenamiento) y las pruebas te dan evidencia empirica en lugar de suposiciones.

    Paso 4: Ofrece ambos

    La arquitectura ideal detecta la RAM disponible en tiempo de ejecucion y carga el modelo apropiado:

    • Dispositivos de 4-6GB: 1B fine-tuned
    • Dispositivos de 6GB+: 3B fine-tuned
    • Respaldo: API en la nube para dispositivos bajo 4GB (o sin funcion de IA)

    Esto maximiza tanto la calidad como la cobertura de dispositivos.

    Resumen

    1B3B7B
    Tamano de archivo (Q4)~600MB~1.7GB~4GB
    Velocidad (flagship)35-50 tok/s18-30 tok/s6-12 tok/s
    Cobertura de dispositivos~90%~65%~18%
    Mejor caso de usoClasificacion, sugerenciasChat, generacionRara vez apropiado para movil
    Calidad fine-tunedSupera APIs en la nube con promptsSupera significativamenteNo necesario si 3B esta fine-tuned

    Comienza con el modelo mas pequeno que maneje tu tarea. Fine-tunealo. Pruebalo. Solo ve mas grande si la calidad es genuinamente insuficiente.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading