IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados

Los desarrolladores Android tienen tres enfoques distintos para agregar IA a sus apps. Google ML Kit maneja tareas comunes. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.

Camino 1: Google ML Kit

ML Kit es el SDK de Google para machine learning movil en el dispositivo. Proporciona APIs listas para produccion para tareas comunes de ML sin requerir experiencia en ML.

Lo que ML Kit puede hacer: Reconocimiento de texto (OCR), deteccion de rostros, escaneo de codigos de barras, etiquetado de imagenes, deteccion y seguimiento de objetos, deteccion de poses, reconocimiento de escritura digital, traduccion, respuestas inteligentes, extraccion de entidades.

Lo que ML Kit no puede hacer: ML Kit no soporta modelos de lenguaje grandes. No hay generacion de texto abierta, IA conversacional, redaccion de contenido ni razonamiento complejo.

Costo: Gratis. ML Kit se ejecuta completamente en el dispositivo.

Camino 2: APIs en la nube

Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app Android. Para Google Gemini, Android tiene un SDK dedicado que proporciona una integracion mas nativa.

Costo: Precio por token. Gemini Flash es la opcion mas economica a $0.10/$0.40 por millon de tokens.

Camino 3: LLMs en el dispositivo via llama.cpp

Ejecuta un modelo de lenguaje completo localmente en el dispositivo Android. llama.cpp proporciona el motor de inferencia. Tu modelo GGUF fine-tuneado proporciona la inteligencia.

Rendimiento por chipset

Chipset	Dispositivos	1B (tok/s)	3B (tok/s)
Snapdragon 8 Gen 3	Galaxy S24, OnePlus 12	35-45	18-25
Snapdragon 8 Gen 2	Galaxy S23, OnePlus 11	25-35	12-18
Tensor G4	Pixel 9/9 Pro	30-40	15-22
Tensor G3	Pixel 8/8 Pro	25-35	12-18
Snapdragon 7 Gen 3	Gama media 2024+	18-25	8-12

La fragmentacion de Android

Android tiene mas diversidad de dispositivos que iOS. Enfoque practico: apunta a modelos de 1B para compatibilidad amplia (dispositivos con 4GB+). Ofrece modelos de 3B como mejora para dispositivos con 8GB+ RAM. Detecta la memoria disponible en tiempo de ejecucion y ajusta.

La comparacion

Factor	ML Kit	API en la nube	LLM en dispositivo
Generacion de texto / chat	No	Si	Si
OCR / escaneo de codigos	Si (optimizado)	Si	No
Soporte sin conexion	Si	No	Si
Costo por inferencia	$0	$0.0001-$0.01	$0
Privacidad	En el dispositivo	Servidores de terceros	En el dispositivo
Soporte de modelos personalizados	No	Via seleccion de API	Cualquier GGUF

Marco de decision practico

Usa ML Kit cuando necesites OCR, escaneo de codigos de barras, deteccion de rostros, estimacion de poses o etiquetado de imagenes.

Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.

Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala.

El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier dispositivo Android via llama.cpp.

IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados

Camino 1: Google ML Kit

Camino 2: APIs en la nube

Camino 3: LLMs en el dispositivo via llama.cpp

Rendimiento por chipset

La fragmentacion de Android

La comparacion

Marco de decision practico

Ship AI that runs on your users' devices.

Keep reading

llama.cpp on Android: A Kotlin Integration Guide

How to Add AI to Your Mobile App: A Developer's Decision Guide

AI in iOS Apps: CoreML, Cloud APIs, and On-Device LLMs Compared