Gemma 3 para movil: Fine-tuning y despliegue en el dispositivo

Gemma 3 de Google representa un paso significativo adelante respecto a Gemma 2. El modelo 1B es practico para tareas de clasificacion movil, y el modelo 4B ofrece capacidad de razonamiento que compite con modelos mas grandes de otras familias.

Para desarrolladores moviles que ya estan en el ecosistema de Google (Android, Firebase, Google Cloud), Gemma es una eleccion natural con buen soporte de herramientas.

Linea de modelos Gemma 3 para movil

Modelo	Parametros	Tamano GGUF Q4	RAM necesaria	Viabilidad movil
Gemma 3 1B	1B	~600MB	~800MB	Excelente (dispositivos 4GB+)
Gemma 3 4B	4B	~2.3GB	~3GB	Buena (dispositivos 8GB+)
Gemma 3 12B	12B	~7GB	~9GB	No viable para movil
Gemma 3 27B	27B	~15GB	~18GB	No viable para movil

Los tamanos 1B y 4B son los relevantes para movil. El 4B es ligeramente mas grande que el objetivo tipico de 3B pero funciona dentro del presupuesto en dispositivos de 8GB.

Cuando Gemma 3 es la eleccion correcta

Integracion con ecosistema Google: Si ya usas Firebase, Android Studio y Google Cloud, Gemma tiene la ruta de herramientas mas fluida. Google proporciona integracion con Keras, fine-tuning en Vertex AI y documentacion especifica para Android.

Calidad 4B en flagships: Si tu app apunta a dispositivos flagship y necesitas razonamiento mas fuerte que un modelo 3B, Gemma 3 4B llena un vacio. Se ubica entre las categorias tipicas de 3B y 7B.

Requisitos multilingues: El soporte de 35+ idiomas de Gemma 3 es mas amplio que Llama 3.2. Para apps de idiomas europeos y del sur de Asia, Gemma es una opcion fuerte.

Fine-tuning de Gemma 3

Formato de datos de entrenamiento

Gemma usa una plantilla de chat especifica con tokens <start_of_turn> y <end_of_turn>:

<start_of_turn>user
Cual es la politica de devolucion para electronica?<end_of_turn>
<start_of_turn>model
Los electronicos comprados dentro de los ultimos 30 dias pueden devolverse con recibo para un reembolso completo. Los articulos deben estar en su empaque original.<end_of_turn>

La mayoria de frameworks de entrenamiento (Hugging Face, Axolotl, Unsloth) manejan la plantilla automaticamente cuando especificas Gemma como tipo de modelo.

Configuracion de LoRA

Parametro	1B	4B
Rango LoRA (r)	16-32	16-64
LoRA alpha	32-64	32-128
Tasa de aprendizaje	2e-4	1e-4
Epocas	3-5	2-4
Modulos objetivo	q_proj, v_proj, k_proj, o_proj	Igual
Tamano del adaptador	30-80MB	50-150MB

Calidad despues del fine-tuning

Gemma 3 responde bien al fine-tuning. El modelo 1B salta de mediocridad de proposito general a competencia especifica de dominio con tan solo 500 ejemplos. El modelo 4B se fine-tunea a niveles de calidad que rivalizan con GPT-4o con prompts en tareas especificas.

Rangos de precision esperados (clasificacion especifica de dominio):

1B base: 65-72%
1B fine-tuned (500 ejemplos): 88-92%
4B base: 75-80%
4B fine-tuned (500 ejemplos): 92-96%

Exportacion GGUF

Los modelos Gemma 3 se convierten a formato GGUF usando las herramientas estandar de conversion de llama.cpp. El proceso:

Fine-tunea con LoRA
Fusiona el adaptador LoRA en los pesos base
Convierte a GGUF usando convert_hf_to_gguf.py
Cuantiza a Q4_K_M con llama-quantize

Plataformas como Ertas automatizan este pipeline: selecciona Gemma 3 como modelo base, sube datos de entrenamiento, entrena y exporta directamente a GGUF en tu nivel de cuantizacion deseado.

Despliegue en iOS y Android

Los modelos Gemma 3 GGUF se ejecutan en llama.cpp de forma identica a Llama o cualquier otro modelo GGUF. El proceso de despliegue es el mismo:

iOS: Carga el GGUF via llama.cpp con aceleracion Metal. Sin configuracion especifica de Gemma necesaria.

Android: Carga via llama.android con aceleracion GPU Vulkan. Misma API que cualquier otro modelo GGUF.

La ventaja de GGUF como formato universal es que tu infraestructura de despliegue funciona con cualquier familia de modelos. Cambiar de Llama a Gemma (o viceversa) requiere solo intercambiar el archivo del modelo.

Rendimiento en dispositivos moviles

Gemma 3 1B (Q4_K_M, ~600MB)

Dispositivo	Tokens/seg	Memoria
iPhone 16 Pro	38-48	~800MB
iPhone 15	26-34	~800MB
Galaxy S24 (Vulkan)	38-48	~800MB
Android gama media	18-25	~800MB

Gemma 3 4B (Q4_K_M, ~2.3GB)

Dispositivo	Tokens/seg	Memoria
iPhone 16 Pro	16-22	~3.0GB
iPhone 15 Pro	14-20	~3.0GB
Galaxy S24 (Vulkan)	18-24	~3.0GB
Galaxy S25 (Vulkan)	20-28	~3.0GB

El modelo 4B es ligeramente mas lento que un modelo 3B pero la diferencia es pequena. En dispositivos flagship, esta bien por encima del umbral de usabilidad de 10 tok/s.

Gemma vs Gemini Nano

Google ofrece tanto Gemma (modelo abierto para auto-despliegue) como Gemini Nano (en el dispositivo via Android AICore). Sirven propositos diferentes:

Factor	Gemma 3 (GGUF)	Gemini Nano
Fine-tuning personalizado	Si	No
Cobertura de dispositivos	Cualquier dispositivo 4GB+	Solo Pixel 8+, Galaxy S24+
Control del modelo	Completo	Ninguno
Tareas	Cualquier generacion de texto	Tareas predefinidas limitadas
Plataforma	iOS y Android	Solo Android
Costo	Gratis (en el dispositivo)	Gratis (en el dispositivo)

Si necesitas comportamiento de IA personalizado, conocimiento especifico de dominio o despliegue multiplataforma, Gemma via GGUF es el camino correcto. Gemini Nano solo es apropiado para tareas predefinidas en un conjunto estrecho de dispositivos.

Licenciamiento

Gemma 3 usa los Gemma Terms of Use:

Uso comercial: Permitido
Fine-tuning y modificacion: Permitidos
Distribucion: Permitida
Sin umbral de MAU (a diferencia del limite de 700M de Llama)
No se pueden usar salidas para entrenar modelos que compitan con Gemini

La licencia es practica para la mayoria de casos de uso de apps moviles.