Guia de tamano de modelos de IA en el dispositivo: 1B vs 3B vs 7B para movil

Elegir el tamano de modelo correcto para tu app movil es la decision tecnica mas importante en IA en el dispositivo. Demasiado pequeno y el modelo no puede manejar tu tarea. Demasiado grande y se ejecuta lento, usa demasiada memoria o excluye demasiados dispositivos.

La respuesta correcta depende de tu tarea, tus dispositivos objetivo y si haces fine-tuning.

El espectro de tamanos

Cantidad de parametros	Tamano GGUF Q4	RAM necesaria	Requisito de dispositivo
1B	~600MB	~800MB	4GB+ RAM (cualquier telefono moderno)
3B	~1.7GB	~2.2GB	6GB+ RAM (gama media 2023+)
7B	~4GB	~5GB	8GB+ RAM (solo flagship)

Estos tamanos asumen cuantizacion Q4_K_M, que proporciona el mejor balance de reduccion de tamano y retencion de calidad. Cuantizacion mas alta (Q5, Q8) aumenta el tamano un 25-100% con mejora marginal de calidad.

Que puede hacer cada tamano

Modelos 1B

Fortalezas:

Clasificacion de texto (sentimiento, categoria, intencion)
Autocompletado y prediccion de texto
Sugerencias inteligentes (sugerencias de respuesta, sugerencias de accion)
Reconocimiento de entidades nombradas
Q&A simple con respuestas cortas
Extraccion de palabras clave y etiquetado

Limitaciones:

Capacidad de razonamiento limitada
Generacion corta, a veces repetitiva
Lucha con instrucciones matizadas
No puede mantener salida coherente de formato largo

Mejor para: Funciones que transforman entrada en una salida estructurada. Clasificacion, etiquetado, sugerencias y generacion de formato corto.

Modelos 3B

Fortalezas:

Chat conversacional con coherencia multi-turno
Resumen de articulos y documentos
Redaccion de contenido (emails, mensajes, notas)
Traduccion entre pares de idiomas comunes
Seguimiento de instrucciones complejas
Generacion de salida estructurada (JSON, texto formateado)

Limitaciones:

Mas lento que 1B (aproximadamente la mitad de velocidad)
No puede igualar el razonamiento de modelos de frontera (GPT-4, Claude Sonnet)
Puede luchar con contenido altamente tecnico o especializado sin fine-tuning
Usa 2-3x mas memoria que 1B

Mejor para: Funciones que generan texto legible por humanos. Chat, resumen, creacion de contenido y clasificacion compleja.

Modelos 7B

Fortalezas:

Razonamiento e inferencia mas fuertes
Mejor en tareas ambiguas o abiertas
Seguimiento de instrucciones mas robusto
Puede manejar salidas mas largas y coherentes

Limitaciones:

Solo se ejecuta en dispositivos flagship con 8GB+ RAM
Generacion lenta (5-12 tok/s en la mayoria de dispositivos)
Excluye el 50-70% del mercado de dispositivos
La presion de memoria causa inestabilidad de la app

Mejor para: Rara vez es la eleccion correcta para movil. Las compensaciones de cobertura de dispositivos y rendimiento son severas. Si necesitas calidad de 7B, fine-tunea un modelo 3B con tus datos de dominio en su lugar.

Comparacion de calidad

Benchmarks generales (modelos base, sin fine-tuning)

Tarea	1B	3B	7B
Precision en clasificacion de texto	78-85%	85-90%	88-93%
Calidad de resumen (eval. humana)	5.5/10	7/10	8/10
Tasa de seguimiento de instrucciones	70%	85%	90%
Coherencia de conversacion (5 turnos)	Pobre	Buena	Muy buena
Confiabilidad de salida JSON	60%	82%	90%

Despues de fine-tuning con datos de dominio

Tarea	1B fine-tuned	3B fine-tuned	API en la nube (con prompts)
Precision en clasificacion de dominio	90-94%	93-96%	71-80%
Q&A especifico de dominio	82-88%	88-94%	75-82%
Confiabilidad de salida estructurada	85-90%	92-96%	80-88%

La idea critica: un modelo 1B fine-tuned supera a una API en la nube con prompts en tareas especificas de dominio. Un modelo 3B fine-tuned la supera significativamente. El fine-tuning cierra la brecha de calidad mientras mantiene el modelo lo suficientemente pequeno para movil.

El factor de fine-tuning

El fine-tuning cambia las matematicas de seleccion de tamano:

Sin fine-tuning, necesitas un modelo mas grande para manejar tu tarea porque el modelo depende del conocimiento general e instrucciones del prompt. Compensas la falta de conocimiento de dominio con mas parametros.

Con fine-tuning, incorporas conocimiento de dominio en los pesos del modelo. El modelo no necesita descifrar tu dominio desde un prompt. Ya lo sabe. Esto significa que un modelo mas pequeno fine-tuned frecuentemente iguala o supera a un modelo general mas grande en tu tarea especifica.

Implicaciones practicas:

Necesitas chat? Comienza con 3B fine-tuned. Podrias encontrar que iguala la calidad de tu API en la nube en tu dominio.
Necesitas clasificacion? Comienza con 1B fine-tuned. Probablemente superara la precision de tu API en la nube.
Crees que necesitas 7B? Fine-tunea 3B primero. Pruebalo. Probablemente no necesitaras 7B.

Cobertura de dispositivos por tamano de modelo

Tamano de modelo	Cobertura iPhone	Cobertura Android	Total direccionable
1B	iPhone 12+ (95%+ activos)	4GB+ (85%+ activos)	~90% de smartphones
3B	iPhone 14+ (70%+ activos)	6GB+ (60%+ activos)	~65% de smartphones
7B	iPhone 15 Pro+ (15% activos)	8GB+ flagship (20% activos)	~18% de smartphones

Elegir 1B sobre 3B aproximadamente duplica tu mercado de dispositivos direccionable. Elegir 3B sobre 7B lo triplica.

Marco de decision

Paso 1: Define tu tarea

Que hara el modelo en tu app?

Tipo de tarea	Tamano minimo	Tamano recomendado
Clasificacion / etiquetado	1B	1B fine-tuned
Autocompletado / sugerencias	1B	1B fine-tuned
Q&A corto (1-2 oraciones)	1B	1B fine-tuned
Chat (multi-turno)	3B	3B fine-tuned
Resumen	3B	3B fine-tuned
Redaccion de contenido	3B	3B fine-tuned
Traduccion	1-3B	3B fine-tuned
Razonamiento complejo	3B+	3B fine-tuned (prueba primero)

Paso 2: Conoce tu audiencia

Que dispositivos tienen tus usuarios? Revisa tu analitica para la distribucion de RAM de dispositivos. Si mas del 80% de tus usuarios tienen 6GB+ RAM, 3B es seguro. Si apuntas a mercados en desarrollo o usuarios conscientes del presupuesto, 1B es la eleccion mas segura.

Paso 3: Fine-tunea y prueba

No adivines. Fine-tunea tanto 1B como 3B con tus datos de dominio usando una plataforma como Ertas. Prueba ambos contra tus benchmarks de calidad. Elige el modelo mas pequeno que cumpla tu barra de calidad.

La inversion en fine-tuning es pequena ($5-50 por ejecucion de entrenamiento) y las pruebas te dan evidencia empirica en lugar de suposiciones.

Paso 4: Ofrece ambos

La arquitectura ideal detecta la RAM disponible en tiempo de ejecucion y carga el modelo apropiado:

Dispositivos de 4-6GB: 1B fine-tuned
Dispositivos de 6GB+: 3B fine-tuned
Respaldo: API en la nube para dispositivos bajo 4GB (o sin funcion de IA)

Esto maximiza tanto la calidad como la cobertura de dispositivos.

Resumen

	1B	3B	7B
Tamano de archivo (Q4)	~600MB	~1.7GB	~4GB
Velocidad (flagship)	35-50 tok/s	18-30 tok/s	6-12 tok/s
Cobertura de dispositivos	~90%	~65%	~18%
Mejor caso de uso	Clasificacion, sugerencias	Chat, generacion	Rara vez apropiado para movil
Calidad fine-tuned	Supera APIs en la nube con prompts	Supera significativamente	No necesario si 3B esta fine-tuned

Comienza con el modelo mas pequeno que maneje tu tarea. Fine-tunealo. Pruebalo. Solo ve mas grande si la calidad es genuinamente insuficiente.

Guia de tamano de modelos de IA en el dispositivo: 1B vs 3B vs 7B para movil

El espectro de tamanos

Que puede hacer cada tamano

Modelos 1B

Modelos 3B

Modelos 7B

Comparacion de calidad

Benchmarks generales (modelos base, sin fine-tuning)

Despues de fine-tuning con datos de dominio

El factor de fine-tuning

Cobertura de dispositivos por tamano de modelo

Marco de decision

Paso 1: Define tu tarea

Paso 2: Conoce tu audiencia

Paso 3: Fine-tunea y prueba

Paso 4: Ofrece ambos

Resumen

Ship AI that runs on your users' devices.

Keep reading

Gemma 3 for Mobile: Fine-Tuning and On-Device Deployment

How to Add AI to Your Mobile App: A Developer's Decision Guide

Offline AI: Building Mobile Features That Work Without Internet