Back to blog
    IA en apps iOS: Core ML, APIs en la nube y LLMs en el dispositivo comparados
    iOSCore MLSwiftcloud APIon-device AIllama.cppsegment:mobile-builder

    IA en apps iOS: Core ML, APIs en la nube y LLMs en el dispositivo comparados

    Tres caminos para agregar IA a tu app iOS. Core ML para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Swift.

    EErtas Team·

    Los desarrolladores iOS tienen tres enfoques distintos para agregar IA a sus apps. Core ML maneja tareas comunes de ML. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.

    Camino 1: Core ML

    Core ML es el framework de Apple para machine learning en el dispositivo. Proporciona APIs de produccion para tareas especificas de ML.

    Lo que Core ML puede hacer: Vision (deteccion de objetos, clasificacion de imagenes), Natural Language (analisis de sentimiento, reconocimiento de entidades), Speech (transcripcion), Sound (clasificacion de audio).

    Lo que Core ML no puede hacer: Core ML no soporta modelos de lenguaje grandes para generacion de texto abierta. No hay capacidad integrada para IA conversacional, redaccion de contenido, resumen o cualquier tarea que requiera generar respuestas en lenguaje natural.

    Costo: Gratis. Core ML se ejecuta completamente en el dispositivo.

    Camino 2: APIs en la nube

    Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app iOS. El modelo se ejecuta en servidores remotos.

    Costo: Precio por token. Gemini Flash desde $0.10/$0.40 por millon de tokens. GPT-4o-mini a $0.15/$0.60. A escala, los costos van desde cientos hasta miles por mes.

    Mejor para: Prototipado, validacion, volumen muy bajo o tareas que requieren razonamiento de frontera.

    Camino 3: LLMs en el dispositivo via llama.cpp

    Ejecuta un modelo de lenguaje completo localmente en el iPhone. llama.cpp proporciona el motor de inferencia con aceleracion Metal GPU. Tu modelo GGUF fine-tuneado proporciona la inteligencia.

    Rendimiento por modelo de iPhone

    iPhoneChip1B (tok/s)3B (tok/s)
    iPhone 16 ProA18 Pro40-5022-28
    iPhone 15 ProA17 Pro35-4518-25
    iPhone 15A1628-3514-18
    iPhone 14A1525-3214-18
    iPhone 13A1522-2810-14
    iPhone 12A1418-24No recomendado

    Por encima de 10 tokens por segundo es utilizable para interfaces de chat. Los dispositivos flagship de los ultimos dos anos manejan modelos de 1-3B comodamente.

    La comparacion

    FactorCore MLAPI en la nubeLLM en dispositivo
    Generacion de texto / chatNoSiSi
    Vision / clasificacion de imagenesSi (optimizado)SiNo
    Soporte sin conexionSiNoSi
    Costo por inferencia$0$0.0001-$0.01$0
    PrivacidadEn el dispositivoServidores de tercerosEn el dispositivo
    Modelos personalizadosLimitadoVia seleccion de APICualquier GGUF
    Fine-tuningLimitadoAlgunos proveedoresLoRA/QLoRA completo

    Marco de decision practico

    Usa Core ML cuando necesites vision por computadora, analisis de imagenes, transcripcion de voz o clasificacion de audio. Las implementaciones de Apple son de grado produccion y gratuitas.

    Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.

    Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala. El escalado a costo cero, soporte sin conexion y garantias de privacidad son ventajas decisivas.

    El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier iPhone via llama.cpp sin configuracion adicional.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading