Back to blog
    IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados
    AndroidML KitKotlincloud APIon-device AIllama.cppsegment:mobile-builder

    IA en apps Android: ML Kit, APIs en la nube y LLMs en el dispositivo comparados

    Tres caminos para agregar IA a tu app Android. Google ML Kit para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Kotlin.

    EErtas Team·

    Los desarrolladores Android tienen tres enfoques distintos para agregar IA a sus apps. Google ML Kit maneja tareas comunes. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.

    Camino 1: Google ML Kit

    ML Kit es el SDK de Google para machine learning movil en el dispositivo. Proporciona APIs listas para produccion para tareas comunes de ML sin requerir experiencia en ML.

    Lo que ML Kit puede hacer: Reconocimiento de texto (OCR), deteccion de rostros, escaneo de codigos de barras, etiquetado de imagenes, deteccion y seguimiento de objetos, deteccion de poses, reconocimiento de escritura digital, traduccion, respuestas inteligentes, extraccion de entidades.

    Lo que ML Kit no puede hacer: ML Kit no soporta modelos de lenguaje grandes. No hay generacion de texto abierta, IA conversacional, redaccion de contenido ni razonamiento complejo.

    Costo: Gratis. ML Kit se ejecuta completamente en el dispositivo.

    Camino 2: APIs en la nube

    Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app Android. Para Google Gemini, Android tiene un SDK dedicado que proporciona una integracion mas nativa.

    Costo: Precio por token. Gemini Flash es la opcion mas economica a $0.10/$0.40 por millon de tokens.

    Camino 3: LLMs en el dispositivo via llama.cpp

    Ejecuta un modelo de lenguaje completo localmente en el dispositivo Android. llama.cpp proporciona el motor de inferencia. Tu modelo GGUF fine-tuneado proporciona la inteligencia.

    Rendimiento por chipset

    ChipsetDispositivos1B (tok/s)3B (tok/s)
    Snapdragon 8 Gen 3Galaxy S24, OnePlus 1235-4518-25
    Snapdragon 8 Gen 2Galaxy S23, OnePlus 1125-3512-18
    Tensor G4Pixel 9/9 Pro30-4015-22
    Tensor G3Pixel 8/8 Pro25-3512-18
    Snapdragon 7 Gen 3Gama media 2024+18-258-12

    La fragmentacion de Android

    Android tiene mas diversidad de dispositivos que iOS. Enfoque practico: apunta a modelos de 1B para compatibilidad amplia (dispositivos con 4GB+). Ofrece modelos de 3B como mejora para dispositivos con 8GB+ RAM. Detecta la memoria disponible en tiempo de ejecucion y ajusta.

    La comparacion

    FactorML KitAPI en la nubeLLM en dispositivo
    Generacion de texto / chatNoSiSi
    OCR / escaneo de codigosSi (optimizado)SiNo
    Soporte sin conexionSiNoSi
    Costo por inferencia$0$0.0001-$0.01$0
    PrivacidadEn el dispositivoServidores de tercerosEn el dispositivo
    Soporte de modelos personalizadosNoVia seleccion de APICualquier GGUF

    Marco de decision practico

    Usa ML Kit cuando necesites OCR, escaneo de codigos de barras, deteccion de rostros, estimacion de poses o etiquetado de imagenes.

    Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.

    Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala.

    El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier dispositivo Android via llama.cpp.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading