
Llama 3.2 para apps moviles: Fine-tuning y despliegue en el dispositivo
Una guia completa para usar los modelos Llama 3.2 1B y 3B de Meta en apps moviles. Fine-tuning con LoRA, exportacion a GGUF y despliegue en iOS y Android via llama.cpp.
Llama 3.2 de Meta incluye modelos de 1B y 3B disenados especificamente para despliegue movil y edge. No son versiones reducidas de ultimo momento. Fueron construidos a proposito para inferencia en el dispositivo, destilados de los modelos Llama 3.1 mas grandes para retener capacidad mientras caben en presupuestos de memoria movil.
Esta guia cubre el pipeline completo: seleccionar el tamano correcto, fine-tuning con tus datos, exportacion a GGUF y despliegue en iOS y Android.
Por que Llama 3.2 para movil
Llama 3.2 1B y 3B tienen varias ventajas para despliegue movil:
Disenado para movil: A diferencia de modelos mas grandes que se comprimen, estos fueron entrenados desde el inicio con restricciones moviles en mente. La arquitectura esta optimizada para inferencia rapida en hardware limitado.
Fuerte capacidad base: Entrenado con 9 billones de tokens. El modelo 3B obtiene 63.4 en MMLU y 77.4 en IFEval (seguimiento de instrucciones), haciendolo competitivo con modelos 2-3x su tamano de hace solo un ano.
Mayor ecosistema: Llama tiene la comunidad mas grande de cualquier familia de modelos abiertos. Mas guias de fine-tuning, mas conversiones GGUF, mas soporte de herramientas y mas ejemplos de despliegue en produccion que cualquier alternativa.
Contexto de 128K: Tanto 1B como 3B soportan ventanas de contexto de 128K tokens. Para movil, rara vez usaras mas de 2-4K, pero el contexto largo esta ahi si se necesita.
Eligiendo 1B vs 3B
| Factor | 1B | 3B |
|---|---|---|
| Tamano GGUF Q4 | ~600MB | ~1.7GB |
| RAM durante inferencia | ~800MB | ~2.2GB |
| Cobertura de dispositivos | 4GB+ (90% de telefonos) | 6GB+ (65% de telefonos) |
| Velocidad de generacion (flagship) | 35-50 tok/s | 18-30 tok/s |
| Precision de clasificacion (fine-tuned) | 90-94% | 93-96% |
| Calidad de chat (fine-tuned) | Buena para respuestas cortas | Buena para multi-turno |
| Resumen | Adecuado | Bueno |
Elige 1B cuando: Tu tarea es clasificacion, etiquetado, autocompletado, sugerencias inteligentes o generacion de formato corto. Quieres maxima cobertura de dispositivos.
Elige 3B cuando: Tu tarea es chat conversacional, resumen, redaccion de contenido o seguimiento de instrucciones complejas. Tus usuarios tienen dispositivos mas nuevos.
Fine-tuning con LoRA
LoRA (Low-Rank Adaptation) es el metodo estandar de fine-tuning para modelos moviles. En lugar de modificar todos los pesos del modelo, LoRA entrena pequenas matrices adaptadoras que ajustan el comportamiento del modelo. El adaptador es de 50-200MB, fusionado en el modelo base antes de la exportacion GGUF.
Formato de datos de entrenamiento
Llama 3.2 usa una plantilla de chat especifica. Tus datos de entrenamiento deben seguir este formato:
{
"messages": [
{"role": "system", "content": "Eres un asistente de viajes para la app TripHelper."},
{"role": "user", "content": "Cual es la mejor epoca para visitar Kioto?"},
{"role": "assistant", "content": "Marzo-abril para los cerezos en flor o noviembre para el follaje de otono. Ambas son temporadas altas, asi que reserva con 2-3 meses de anticipacion."}
]
}
Requisitos de datos
| Tarea | Ejemplos minimos | Recomendados | Tiempo de entrenamiento (LoRA) |
|---|---|---|---|
| Clasificacion | 200 | 500-1,000 | 15-30 min |
| Q&A corto | 300 | 1,000-2,000 | 30-60 min |
| Chat | 500 | 2,000-5,000 | 1-3 horas |
| Resumen | 300 | 1,000-3,000 | 1-2 horas |
Hiperparametros de LoRA
Configuracion estandar para fine-tuning movil de Llama 3.2:
| Parametro | 1B | 3B |
|---|---|---|
| Rango LoRA (r) | 16-32 | 16-64 |
| LoRA alpha | 32-64 | 32-128 |
| Tasa de aprendizaje | 2e-4 | 1e-4 |
| Epocas | 3-5 | 2-4 |
| Tamano de lote | 4-8 | 2-4 |
| Modulos objetivo | q_proj, v_proj, k_proj, o_proj | Igual |
Exportacion a GGUF
Despues del entrenamiento, el pipeline es:
- Fusionar el adaptador LoRA en los pesos del modelo base
- Convertir a formato GGUF
- Cuantizar a Q4_K_M (o tu nivel objetivo)
- Validar el modelo cuantizado en tu conjunto de evaluacion
El archivo GGUF es el artefacto final que envias a los dispositivos. Contiene el modelo completo en un solo archivo que llama.cpp puede cargar directamente.
Plataformas como Ertas manejan esto de principio a fin:
Sube datos de entrenamiento, selecciona Llama 3.2 1B o 3B como modelo base, configura parametros LoRA (o usa los predeterminados), entrena en GPUs en la nube y exporta directamente a GGUF. Sin herramientas de linea de comandos, sin configuracion de GPU, sin scripts de conversion.
Despliegue en iOS
Integracion con llama.cpp
Agrega llama.cpp a tu proyecto iOS via Swift Package Manager o como framework compilado. Carga el modelo GGUF y ejecuta inferencia:
import llama
let modelPath = Bundle.main.path(forResource: "model", ofType: "gguf")!
let params = llama_model_default_params()
let model = llama_load_model_from_file(modelPath, params)
// Configurar inferencia
var contextParams = llama_context_default_params()
contextParams.n_ctx = 2048
contextParams.n_threads = 4
let context = llama_new_context_with_model(model, contextParams)
Aceleracion GPU Metal
llama.cpp usa automaticamente Metal en iOS para inferencia acelerada por GPU. Configura n_gpu_layers al conteo total de capas del modelo para descargar toda la computacion a la GPU:
var modelParams = llama_model_default_params()
modelParams.n_gpu_layers = 32 // Descargar todas las capas a Metal
Esto proporciona una mejora de velocidad del 30-50% sobre inferencia solo CPU.
Despliegue en Android
Integracion con llama.android
Usa la libreria llama.android del proyecto llama.cpp. Proporciona bindings Kotlin a traves de JNI:
val model = LlamaModel()
model.load(modelPath, nThreads = 4, nGpuLayers = 32)
// Generar con streaming
model.generate(prompt) { token ->
runOnUiThread { appendToUI(token) }
}
Aceleracion GPU Vulkan
En Android, llama.cpp soporta Vulkan para aceleracion GPU en Snapdragon, Tensor y otros chipsets. Habilita configurando nGpuLayers al conteo de capas del modelo.
Licenciamiento
Llama 3.2 usa el Llama Community License Agreement de Meta. Puntos clave:
- Uso comercial: Permitido
- Modificacion: Permitida (incluyendo fine-tuning)
- Distribucion: Permitida
- Umbral de 700M MAU: Si tu producto o servicio tiene mas de 700 millones de usuarios activos mensuales, necesitas una licencia especial de Meta
- Atribucion: Requerida
Para la gran mayoria de apps moviles, la licencia es completamente permisiva.
Linea de tiempo de principio a fin
| Paso | Duracion | Notas |
|---|---|---|
| Preparar datos de entrenamiento | 1-5 dias | Depende de la disponibilidad de datos |
| Fine-tune con LoRA | 30 min - 3 horas | Depende de GPU, entrenamiento en nube recomendado |
| Exportar a GGUF | 10-30 minutos | Automatizado en la mayoria de plataformas |
| Integrar llama.cpp | 1-2 dias | Configuracion unica |
| Pruebas y evaluacion | 1-3 dias | Probar en dispositivos objetivo |
| Total | 3-10 dias | Primer despliegue; iteraciones posteriores son mas rapidas |
El primer despliegue toma mas tiempo por la integracion de llama.cpp. Despues de eso, las actualizaciones de modelo (re-entrenamiento, re-exportacion GGUF) toman horas, no dias.
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

Gemma 3 para movil: Fine-tuning y despliegue en el dispositivo
Como usar los modelos Gemma 3 de Google para IA movil en el dispositivo. Seleccion de modelo, fine-tuning con LoRA, exportacion GGUF y despliegue via llama.cpp en iOS y Android.

Los mejores modelos para IA movil en el dispositivo en 2026
Una comparacion practica de los mejores modelos de lenguaje pequenos para despliegue movil. Llama 3.2, Gemma 3, Phi-4 Mini y Qwen 2.5 evaluados para inferencia en el dispositivo via llama.cpp.

Guia de tamano de modelos de IA en el dispositivo: 1B vs 3B vs 7B para movil
Como elegir el tamano de modelo correcto para tu app movil. Desglose de capacidades, requisitos de dispositivo, benchmarks de calidad y el factor de fine-tuning que cambia las matematicas.