Back to blog
    Gemma 3 para movil: Fine-tuning y despliegue en el dispositivo
    GemmaGooglefine-tuningmobile AIGGUFon-device AIsegment:mobile-builder

    Gemma 3 para movil: Fine-tuning y despliegue en el dispositivo

    Como usar los modelos Gemma 3 de Google para IA movil en el dispositivo. Seleccion de modelo, fine-tuning con LoRA, exportacion GGUF y despliegue via llama.cpp en iOS y Android.

    EErtas Team·

    Gemma 3 de Google representa un paso significativo adelante respecto a Gemma 2. El modelo 1B es practico para tareas de clasificacion movil, y el modelo 4B ofrece capacidad de razonamiento que compite con modelos mas grandes de otras familias.

    Para desarrolladores moviles que ya estan en el ecosistema de Google (Android, Firebase, Google Cloud), Gemma es una eleccion natural con buen soporte de herramientas.

    Linea de modelos Gemma 3 para movil

    ModeloParametrosTamano GGUF Q4RAM necesariaViabilidad movil
    Gemma 3 1B1B~600MB~800MBExcelente (dispositivos 4GB+)
    Gemma 3 4B4B~2.3GB~3GBBuena (dispositivos 8GB+)
    Gemma 3 12B12B~7GB~9GBNo viable para movil
    Gemma 3 27B27B~15GB~18GBNo viable para movil

    Los tamanos 1B y 4B son los relevantes para movil. El 4B es ligeramente mas grande que el objetivo tipico de 3B pero funciona dentro del presupuesto en dispositivos de 8GB.

    Cuando Gemma 3 es la eleccion correcta

    Integracion con ecosistema Google: Si ya usas Firebase, Android Studio y Google Cloud, Gemma tiene la ruta de herramientas mas fluida. Google proporciona integracion con Keras, fine-tuning en Vertex AI y documentacion especifica para Android.

    Calidad 4B en flagships: Si tu app apunta a dispositivos flagship y necesitas razonamiento mas fuerte que un modelo 3B, Gemma 3 4B llena un vacio. Se ubica entre las categorias tipicas de 3B y 7B.

    Requisitos multilingues: El soporte de 35+ idiomas de Gemma 3 es mas amplio que Llama 3.2. Para apps de idiomas europeos y del sur de Asia, Gemma es una opcion fuerte.

    Fine-tuning de Gemma 3

    Formato de datos de entrenamiento

    Gemma usa una plantilla de chat especifica con tokens <start_of_turn> y <end_of_turn>:

    <start_of_turn>user
    Cual es la politica de devolucion para electronica?<end_of_turn>
    <start_of_turn>model
    Los electronicos comprados dentro de los ultimos 30 dias pueden devolverse con recibo para un reembolso completo. Los articulos deben estar en su empaque original.<end_of_turn>
    

    La mayoria de frameworks de entrenamiento (Hugging Face, Axolotl, Unsloth) manejan la plantilla automaticamente cuando especificas Gemma como tipo de modelo.

    Configuracion de LoRA

    Parametro1B4B
    Rango LoRA (r)16-3216-64
    LoRA alpha32-6432-128
    Tasa de aprendizaje2e-41e-4
    Epocas3-52-4
    Modulos objetivoq_proj, v_proj, k_proj, o_projIgual
    Tamano del adaptador30-80MB50-150MB

    Calidad despues del fine-tuning

    Gemma 3 responde bien al fine-tuning. El modelo 1B salta de mediocridad de proposito general a competencia especifica de dominio con tan solo 500 ejemplos. El modelo 4B se fine-tunea a niveles de calidad que rivalizan con GPT-4o con prompts en tareas especificas.

    Rangos de precision esperados (clasificacion especifica de dominio):

    • 1B base: 65-72%
    • 1B fine-tuned (500 ejemplos): 88-92%
    • 4B base: 75-80%
    • 4B fine-tuned (500 ejemplos): 92-96%

    Exportacion GGUF

    Los modelos Gemma 3 se convierten a formato GGUF usando las herramientas estandar de conversion de llama.cpp. El proceso:

    1. Fine-tunea con LoRA
    2. Fusiona el adaptador LoRA en los pesos base
    3. Convierte a GGUF usando convert_hf_to_gguf.py
    4. Cuantiza a Q4_K_M con llama-quantize

    Plataformas como Ertas automatizan este pipeline: selecciona Gemma 3 como modelo base, sube datos de entrenamiento, entrena y exporta directamente a GGUF en tu nivel de cuantizacion deseado.

    Despliegue en iOS y Android

    Los modelos Gemma 3 GGUF se ejecutan en llama.cpp de forma identica a Llama o cualquier otro modelo GGUF. El proceso de despliegue es el mismo:

    iOS: Carga el GGUF via llama.cpp con aceleracion Metal. Sin configuracion especifica de Gemma necesaria.

    Android: Carga via llama.android con aceleracion GPU Vulkan. Misma API que cualquier otro modelo GGUF.

    La ventaja de GGUF como formato universal es que tu infraestructura de despliegue funciona con cualquier familia de modelos. Cambiar de Llama a Gemma (o viceversa) requiere solo intercambiar el archivo del modelo.

    Rendimiento en dispositivos moviles

    Gemma 3 1B (Q4_K_M, ~600MB)

    DispositivoTokens/segMemoria
    iPhone 16 Pro38-48~800MB
    iPhone 1526-34~800MB
    Galaxy S24 (Vulkan)38-48~800MB
    Android gama media18-25~800MB

    Gemma 3 4B (Q4_K_M, ~2.3GB)

    DispositivoTokens/segMemoria
    iPhone 16 Pro16-22~3.0GB
    iPhone 15 Pro14-20~3.0GB
    Galaxy S24 (Vulkan)18-24~3.0GB
    Galaxy S25 (Vulkan)20-28~3.0GB

    El modelo 4B es ligeramente mas lento que un modelo 3B pero la diferencia es pequena. En dispositivos flagship, esta bien por encima del umbral de usabilidad de 10 tok/s.

    Gemma vs Gemini Nano

    Google ofrece tanto Gemma (modelo abierto para auto-despliegue) como Gemini Nano (en el dispositivo via Android AICore). Sirven propositos diferentes:

    FactorGemma 3 (GGUF)Gemini Nano
    Fine-tuning personalizadoSiNo
    Cobertura de dispositivosCualquier dispositivo 4GB+Solo Pixel 8+, Galaxy S24+
    Control del modeloCompletoNinguno
    TareasCualquier generacion de textoTareas predefinidas limitadas
    PlataformaiOS y AndroidSolo Android
    CostoGratis (en el dispositivo)Gratis (en el dispositivo)

    Si necesitas comportamiento de IA personalizado, conocimiento especifico de dominio o despliegue multiplataforma, Gemma via GGUF es el camino correcto. Gemini Nano solo es apropiado para tareas predefinidas en un conjunto estrecho de dispositivos.

    Licenciamiento

    Gemma 3 usa los Gemma Terms of Use:

    • Uso comercial: Permitido
    • Fine-tuning y modificacion: Permitidos
    • Distribucion: Permitida
    • Sin umbral de MAU (a diferencia del limite de 700M de Llama)
    • No se pueden usar salidas para entrenar modelos que compitan con Gemini

    La licencia es practica para la mayoria de casos de uso de apps moviles.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading