
IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados
Tres caminos para agregar IA a tu app Android. Google ML Kit para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Kotlin.
Los desarrolladores Android tienen tres enfoques distintos para agregar IA a sus apps. Google ML Kit maneja tareas comunes. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.
Camino 1: Google ML Kit
ML Kit es el SDK de Google para machine learning movil en el dispositivo. Proporciona APIs listas para produccion para tareas comunes de ML sin requerir experiencia en ML.
Lo que ML Kit puede hacer: Reconocimiento de texto (OCR), deteccion de rostros, escaneo de codigos de barras, etiquetado de imagenes, deteccion y seguimiento de objetos, deteccion de poses, reconocimiento de escritura digital, traduccion, respuestas inteligentes, extraccion de entidades.
Lo que ML Kit no puede hacer: ML Kit no soporta modelos de lenguaje grandes. No hay generacion de texto abierta, IA conversacional, redaccion de contenido ni razonamiento complejo.
Costo: Gratis. ML Kit se ejecuta completamente en el dispositivo.
Camino 2: APIs en la nube
Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app Android. Para Google Gemini, Android tiene un SDK dedicado que proporciona una integracion mas nativa.
Costo: Precio por token. Gemini Flash es la opcion mas economica a $0.10/$0.40 por millon de tokens.
Camino 3: LLMs en el dispositivo via llama.cpp
Ejecuta un modelo de lenguaje completo localmente en el dispositivo Android. llama.cpp proporciona el motor de inferencia. Tu modelo GGUF fine-tuneado proporciona la inteligencia.
Rendimiento por chipset
| Chipset | Dispositivos | 1B (tok/s) | 3B (tok/s) |
|---|---|---|---|
| Snapdragon 8 Gen 3 | Galaxy S24, OnePlus 12 | 35-45 | 18-25 |
| Snapdragon 8 Gen 2 | Galaxy S23, OnePlus 11 | 25-35 | 12-18 |
| Tensor G4 | Pixel 9/9 Pro | 30-40 | 15-22 |
| Tensor G3 | Pixel 8/8 Pro | 25-35 | 12-18 |
| Snapdragon 7 Gen 3 | Gama media 2024+ | 18-25 | 8-12 |
La fragmentacion de Android
Android tiene mas diversidad de dispositivos que iOS. Enfoque practico: apunta a modelos de 1B para compatibilidad amplia (dispositivos con 4GB+). Ofrece modelos de 3B como mejora para dispositivos con 8GB+ RAM. Detecta la memoria disponible en tiempo de ejecucion y ajusta.
La comparacion
| Factor | ML Kit | API en la nube | LLM en dispositivo |
|---|---|---|---|
| Generacion de texto / chat | No | Si | Si |
| OCR / escaneo de codigos | Si (optimizado) | Si | No |
| Soporte sin conexion | Si | No | Si |
| Costo por inferencia | $0 | $0.0001-$0.01 | $0 |
| Privacidad | En el dispositivo | Servidores de terceros | En el dispositivo |
| Soporte de modelos personalizados | No | Via seleccion de API | Cualquier GGUF |
Marco de decision practico
Usa ML Kit cuando necesites OCR, escaneo de codigos de barras, deteccion de rostros, estimacion de poses o etiquetado de imagenes.
Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.
Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala.
El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier dispositivo Android via llama.cpp.
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

llama.cpp en Android: guia de integracion con Kotlin
Guia paso a paso para integrar llama.cpp en una app Android con Kotlin. Bindings JNI, aceleracion GPU con Vulkan, carga de modelos y gestion de memoria en el espectro de dispositivos Android.

IA en apps Flutter: APIs en la nube, TFLite y LLMs en el dispositivo
Tres caminos para IA en Flutter. APIs en la nube via el paquete http, TensorFlow Lite para tareas clasicas de ML y LLMs en el dispositivo via llama.cpp para generacion de texto. Una comparacion practica para desarrolladores Dart.

IA en apps iOS: Core ML, APIs en la nube y LLMs en el dispositivo comparados
Tres caminos para agregar IA a tu app iOS. Core ML para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Swift.