
IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados
Tres caminos para agregar IA a tu app Android. Google ML Kit para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Kotlin.
Los desarrolladores Android tienen tres enfoques distintos para agregar IA a sus apps. Google ML Kit maneja tareas comunes. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.
Camino 1: Google ML Kit
ML Kit es el SDK de Google para machine learning movil en el dispositivo. Proporciona APIs listas para produccion para tareas comunes de ML sin requerir experiencia en ML.
Lo que ML Kit puede hacer: Reconocimiento de texto (OCR), deteccion de rostros, escaneo de codigos de barras, etiquetado de imagenes, deteccion y seguimiento de objetos, deteccion de poses, reconocimiento de escritura digital, traduccion, respuestas inteligentes, extraccion de entidades.
Lo que ML Kit no puede hacer: ML Kit no soporta modelos de lenguaje grandes. No hay generacion de texto abierta, IA conversacional, redaccion de contenido ni razonamiento complejo.
Costo: Gratis. ML Kit se ejecuta completamente en el dispositivo.
Camino 2: APIs en la nube
Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app Android. Para Google Gemini, Android tiene un SDK dedicado que proporciona una integracion mas nativa.
Costo: Precio por token. Gemini Flash es la opcion mas economica a $0.10/$0.40 por millon de tokens.
Camino 3: LLMs en el dispositivo via llama.cpp
Ejecuta un modelo de lenguaje completo localmente en el dispositivo Android. llama.cpp proporciona el motor de inferencia. Tu modelo GGUF fine-tuneado proporciona la inteligencia.
Rendimiento por chipset
| Chipset | Dispositivos | 1B (tok/s) | 3B (tok/s) |
|---|---|---|---|
| Snapdragon 8 Gen 3 | Galaxy S24, OnePlus 12 | 35-45 | 18-25 |
| Snapdragon 8 Gen 2 | Galaxy S23, OnePlus 11 | 25-35 | 12-18 |
| Tensor G4 | Pixel 9/9 Pro | 30-40 | 15-22 |
| Tensor G3 | Pixel 8/8 Pro | 25-35 | 12-18 |
| Snapdragon 7 Gen 3 | Gama media 2024+ | 18-25 | 8-12 |
La fragmentacion de Android
Android tiene mas diversidad de dispositivos que iOS. Enfoque practico: apunta a modelos de 1B para compatibilidad amplia (dispositivos con 4GB+). Ofrece modelos de 3B como mejora para dispositivos con 8GB+ RAM. Detecta la memoria disponible en tiempo de ejecucion y ajusta.
La comparacion
| Factor | ML Kit | API en la nube | LLM en dispositivo |
|---|---|---|---|
| Generacion de texto / chat | No | Si | Si |
| OCR / escaneo de codigos | Si (optimizado) | Si | No |
| Soporte sin conexion | Si | No | Si |
| Costo por inferencia | $0 | $0.0001-$0.01 | $0 |
| Privacidad | En el dispositivo | Servidores de terceros | En el dispositivo |
| Soporte de modelos personalizados | No | Via seleccion de API | Cualquier GGUF |
Marco de decision practico
Usa ML Kit cuando necesites OCR, escaneo de codigos de barras, deteccion de rostros, estimacion de poses o etiquetado de imagenes.
Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.
Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala.
El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier dispositivo Android via llama.cpp.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

llama.cpp on Android: A Kotlin Integration Guide
Step-by-step guide to integrating llama.cpp into an Android app with Kotlin. JNI bindings, Vulkan GPU acceleration, model loading, and memory management across the Android device spectrum.

How to Add AI to Your Mobile App: A Developer's Decision Guide
A comprehensive guide covering every approach to adding AI features to iOS and Android apps. Cloud APIs, on-device models, and hybrid architectures compared with real cost and performance data.

AI in iOS Apps: CoreML, Cloud APIs, and On-Device LLMs Compared
Three paths to AI in your iOS app. CoreML for Apple's ecosystem, cloud APIs for capability, and on-device LLMs via llama.cpp for cost and privacy. A practical comparison for Swift developers.