
Gemma 3 para movil: Fine-tuning y despliegue en el dispositivo
Como usar los modelos Gemma 3 de Google para IA movil en el dispositivo. Seleccion de modelo, fine-tuning con LoRA, exportacion GGUF y despliegue via llama.cpp en iOS y Android.
Gemma 3 de Google representa un paso significativo adelante respecto a Gemma 2. El modelo 1B es practico para tareas de clasificacion movil, y el modelo 4B ofrece capacidad de razonamiento que compite con modelos mas grandes de otras familias.
Para desarrolladores moviles que ya estan en el ecosistema de Google (Android, Firebase, Google Cloud), Gemma es una eleccion natural con buen soporte de herramientas.
Linea de modelos Gemma 3 para movil
| Modelo | Parametros | Tamano GGUF Q4 | RAM necesaria | Viabilidad movil |
|---|---|---|---|---|
| Gemma 3 1B | 1B | ~600MB | ~800MB | Excelente (dispositivos 4GB+) |
| Gemma 3 4B | 4B | ~2.3GB | ~3GB | Buena (dispositivos 8GB+) |
| Gemma 3 12B | 12B | ~7GB | ~9GB | No viable para movil |
| Gemma 3 27B | 27B | ~15GB | ~18GB | No viable para movil |
Los tamanos 1B y 4B son los relevantes para movil. El 4B es ligeramente mas grande que el objetivo tipico de 3B pero funciona dentro del presupuesto en dispositivos de 8GB.
Cuando Gemma 3 es la eleccion correcta
Integracion con ecosistema Google: Si ya usas Firebase, Android Studio y Google Cloud, Gemma tiene la ruta de herramientas mas fluida. Google proporciona integracion con Keras, fine-tuning en Vertex AI y documentacion especifica para Android.
Calidad 4B en flagships: Si tu app apunta a dispositivos flagship y necesitas razonamiento mas fuerte que un modelo 3B, Gemma 3 4B llena un vacio. Se ubica entre las categorias tipicas de 3B y 7B.
Requisitos multilingues: El soporte de 35+ idiomas de Gemma 3 es mas amplio que Llama 3.2. Para apps de idiomas europeos y del sur de Asia, Gemma es una opcion fuerte.
Fine-tuning de Gemma 3
Formato de datos de entrenamiento
Gemma usa una plantilla de chat especifica con tokens <start_of_turn> y <end_of_turn>:
<start_of_turn>user
Cual es la politica de devolucion para electronica?<end_of_turn>
<start_of_turn>model
Los electronicos comprados dentro de los ultimos 30 dias pueden devolverse con recibo para un reembolso completo. Los articulos deben estar en su empaque original.<end_of_turn>
La mayoria de frameworks de entrenamiento (Hugging Face, Axolotl, Unsloth) manejan la plantilla automaticamente cuando especificas Gemma como tipo de modelo.
Configuracion de LoRA
| Parametro | 1B | 4B |
|---|---|---|
| Rango LoRA (r) | 16-32 | 16-64 |
| LoRA alpha | 32-64 | 32-128 |
| Tasa de aprendizaje | 2e-4 | 1e-4 |
| Epocas | 3-5 | 2-4 |
| Modulos objetivo | q_proj, v_proj, k_proj, o_proj | Igual |
| Tamano del adaptador | 30-80MB | 50-150MB |
Calidad despues del fine-tuning
Gemma 3 responde bien al fine-tuning. El modelo 1B salta de mediocridad de proposito general a competencia especifica de dominio con tan solo 500 ejemplos. El modelo 4B se fine-tunea a niveles de calidad que rivalizan con GPT-4o con prompts en tareas especificas.
Rangos de precision esperados (clasificacion especifica de dominio):
- 1B base: 65-72%
- 1B fine-tuned (500 ejemplos): 88-92%
- 4B base: 75-80%
- 4B fine-tuned (500 ejemplos): 92-96%
Exportacion GGUF
Los modelos Gemma 3 se convierten a formato GGUF usando las herramientas estandar de conversion de llama.cpp. El proceso:
- Fine-tunea con LoRA
- Fusiona el adaptador LoRA en los pesos base
- Convierte a GGUF usando
convert_hf_to_gguf.py - Cuantiza a Q4_K_M con
llama-quantize
Plataformas como Ertas automatizan este pipeline: selecciona Gemma 3 como modelo base, sube datos de entrenamiento, entrena y exporta directamente a GGUF en tu nivel de cuantizacion deseado.
Despliegue en iOS y Android
Los modelos Gemma 3 GGUF se ejecutan en llama.cpp de forma identica a Llama o cualquier otro modelo GGUF. El proceso de despliegue es el mismo:
iOS: Carga el GGUF via llama.cpp con aceleracion Metal. Sin configuracion especifica de Gemma necesaria.
Android: Carga via llama.android con aceleracion GPU Vulkan. Misma API que cualquier otro modelo GGUF.
La ventaja de GGUF como formato universal es que tu infraestructura de despliegue funciona con cualquier familia de modelos. Cambiar de Llama a Gemma (o viceversa) requiere solo intercambiar el archivo del modelo.
Rendimiento en dispositivos moviles
Gemma 3 1B (Q4_K_M, ~600MB)
| Dispositivo | Tokens/seg | Memoria |
|---|---|---|
| iPhone 16 Pro | 38-48 | ~800MB |
| iPhone 15 | 26-34 | ~800MB |
| Galaxy S24 (Vulkan) | 38-48 | ~800MB |
| Android gama media | 18-25 | ~800MB |
Gemma 3 4B (Q4_K_M, ~2.3GB)
| Dispositivo | Tokens/seg | Memoria |
|---|---|---|
| iPhone 16 Pro | 16-22 | ~3.0GB |
| iPhone 15 Pro | 14-20 | ~3.0GB |
| Galaxy S24 (Vulkan) | 18-24 | ~3.0GB |
| Galaxy S25 (Vulkan) | 20-28 | ~3.0GB |
El modelo 4B es ligeramente mas lento que un modelo 3B pero la diferencia es pequena. En dispositivos flagship, esta bien por encima del umbral de usabilidad de 10 tok/s.
Gemma vs Gemini Nano
Google ofrece tanto Gemma (modelo abierto para auto-despliegue) como Gemini Nano (en el dispositivo via Android AICore). Sirven propositos diferentes:
| Factor | Gemma 3 (GGUF) | Gemini Nano |
|---|---|---|
| Fine-tuning personalizado | Si | No |
| Cobertura de dispositivos | Cualquier dispositivo 4GB+ | Solo Pixel 8+, Galaxy S24+ |
| Control del modelo | Completo | Ninguno |
| Tareas | Cualquier generacion de texto | Tareas predefinidas limitadas |
| Plataforma | iOS y Android | Solo Android |
| Costo | Gratis (en el dispositivo) | Gratis (en el dispositivo) |
Si necesitas comportamiento de IA personalizado, conocimiento especifico de dominio o despliegue multiplataforma, Gemma via GGUF es el camino correcto. Gemini Nano solo es apropiado para tareas predefinidas en un conjunto estrecho de dispositivos.
Licenciamiento
Gemma 3 usa los Gemma Terms of Use:
- Uso comercial: Permitido
- Fine-tuning y modificacion: Permitidos
- Distribucion: Permitida
- Sin umbral de MAU (a diferencia del limite de 700M de Llama)
- No se pueden usar salidas para entrenar modelos que compitan con Gemini
La licencia es practica para la mayoria de casos de uso de apps moviles.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Device AI Model Size Guide: 1B vs 3B vs 7B for Mobile
How to choose the right model size for your mobile app. Capability breakdown, device requirements, quality benchmarks, and the fine-tuning factor that changes the math.

Llama 3.2 for Mobile Apps: Fine-Tuning and On-Device Deployment
A complete guide to using Meta's Llama 3.2 1B and 3B models in mobile apps. Fine-tuning with LoRA, exporting to GGUF, and deploying on iOS and Android via llama.cpp.

How to Add AI to Your Mobile App: A Developer's Decision Guide
A comprehensive guide covering every approach to adding AI features to iOS and Android apps. Cloud APIs, on-device models, and hybrid architectures compared with real cost and performance data.