
IA en apps iOS: Core ML, APIs en la nube y LLMs en el dispositivo comparados
Tres caminos para agregar IA a tu app iOS. Core ML para tareas comunes, APIs en la nube para capacidad completa de LLM y modelos en el dispositivo via llama.cpp para costo y privacidad. Una comparacion practica para desarrolladores Swift.
Los desarrolladores iOS tienen tres enfoques distintos para agregar IA a sus apps. Core ML maneja tareas comunes de ML. Las APIs en la nube proporcionan capacidad de modelos de frontera. Los LLMs en el dispositivo via llama.cpp te dan generacion de texto completa sin costos de API ni dependencia de red.
Camino 1: Core ML
Core ML es el framework de Apple para machine learning en el dispositivo. Proporciona APIs de produccion para tareas especificas de ML.
Lo que Core ML puede hacer: Vision (deteccion de objetos, clasificacion de imagenes), Natural Language (analisis de sentimiento, reconocimiento de entidades), Speech (transcripcion), Sound (clasificacion de audio).
Lo que Core ML no puede hacer: Core ML no soporta modelos de lenguaje grandes para generacion de texto abierta. No hay capacidad integrada para IA conversacional, redaccion de contenido, resumen o cualquier tarea que requiera generar respuestas en lenguaje natural.
Costo: Gratis. Core ML se ejecuta completamente en el dispositivo.
Camino 2: APIs en la nube
Llama a OpenAI, Anthropic, Google Gemini u otro proveedor desde tu app iOS. El modelo se ejecuta en servidores remotos.
Costo: Precio por token. Gemini Flash desde $0.10/$0.40 por millon de tokens. GPT-4o-mini a $0.15/$0.60. A escala, los costos van desde cientos hasta miles por mes.
Mejor para: Prototipado, validacion, volumen muy bajo o tareas que requieren razonamiento de frontera.
Camino 3: LLMs en el dispositivo via llama.cpp
Ejecuta un modelo de lenguaje completo localmente en el iPhone. llama.cpp proporciona el motor de inferencia con aceleracion Metal GPU. Tu modelo GGUF fine-tuneado proporciona la inteligencia.
Rendimiento por modelo de iPhone
| iPhone | Chip | 1B (tok/s) | 3B (tok/s) |
|---|---|---|---|
| iPhone 16 Pro | A18 Pro | 40-50 | 22-28 |
| iPhone 15 Pro | A17 Pro | 35-45 | 18-25 |
| iPhone 15 | A16 | 28-35 | 14-18 |
| iPhone 14 | A15 | 25-32 | 14-18 |
| iPhone 13 | A15 | 22-28 | 10-14 |
| iPhone 12 | A14 | 18-24 | No recomendado |
Por encima de 10 tokens por segundo es utilizable para interfaces de chat. Los dispositivos flagship de los ultimos dos anos manejan modelos de 1-3B comodamente.
La comparacion
| Factor | Core ML | API en la nube | LLM en dispositivo |
|---|---|---|---|
| Generacion de texto / chat | No | Si | Si |
| Vision / clasificacion de imagenes | Si (optimizado) | Si | No |
| Soporte sin conexion | Si | No | Si |
| Costo por inferencia | $0 | $0.0001-$0.01 | $0 |
| Privacidad | En el dispositivo | Servidores de terceros | En el dispositivo |
| Modelos personalizados | Limitado | Via seleccion de API | Cualquier GGUF |
| Fine-tuning | Limitado | Algunos proveedores | LoRA/QLoRA completo |
Marco de decision practico
Usa Core ML cuando necesites vision por computadora, analisis de imagenes, transcripcion de voz o clasificacion de audio. Las implementaciones de Apple son de grado produccion y gratuitas.
Usa APIs en la nube cuando estes validando una funcion, sirviendo volumen muy bajo o necesites razonamiento de frontera.
Usa LLMs en el dispositivo cuando necesites IA conversacional, generacion de contenido, clasificacion o cualquier funcion de IA intensiva en texto a escala. El escalado a costo cero, soporte sin conexion y garantias de privacidad son ventajas decisivas.
El pipeline de fine-tuning es donde herramientas como Ertas ahorran tiempo. La interfaz visual maneja el flujo completo, y el GGUF exportado se ejecuta en cualquier iPhone via llama.cpp sin configuracion adicional.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

llama.cpp on iOS: A Swift Integration Guide
Step-by-step guide to integrating llama.cpp into an iOS app. Project setup, Metal GPU acceleration, model loading, token streaming, and memory management for production deployment.

How to Add AI to Your Mobile App: A Developer's Decision Guide
A comprehensive guide covering every approach to adding AI features to iOS and Android apps. Cloud APIs, on-device models, and hybrid architectures compared with real cost and performance data.

AI in Android Apps: ML Kit, Cloud APIs, and On-Device LLMs Compared
Three paths to AI in your Android app. Google ML Kit for common tasks, cloud APIs for full LLM capability, and on-device models via llama.cpp for cost and privacy. A practical comparison for Kotlin developers.