
Como agregar IA a tu app movil: APIs en la nube, modelos en el dispositivo o ambos
Tres formas de agregar funciones de IA a tu aplicacion movil. APIs en la nube para prototipos rapidos, modelos en el dispositivo para produccion y arquitecturas hibridas que combinan ambas. Una guia practica con costos reales, codigo y matrices de decision.
Existen tres formas de agregar funciones de IA a una aplicacion movil. Cada una tiene diferentes implicaciones de costo, rendimiento, privacidad y complejidad. La eleccion correcta depende de tu caso de uso, tus usuarios y tu etapa de crecimiento.
Las tres opciones
Opcion 1: APIs en la nube
Envia los datos del usuario a un modelo alojado por OpenAI, Anthropic, Google u otro proveedor. El modelo se ejecuta en sus servidores. Tu app recibe la respuesta a traves de la red.
Cuando usarla: Prototipado, validacion de funciones, volumen bajo, tareas que requieren razonamiento de modelos de frontera.
Costo: Precio por token. Gemini Flash desde $0.10/millon de tokens de entrada. GPT-4o-mini desde $0.15/millon. Los costos escalan linealmente con cada usuario.
Latencia: 500-3,000ms por solicitud (ida y vuelta de red + inferencia del modelo).
Privacidad: Los datos del usuario salen del dispositivo en cada solicitud.
Opcion 2: Modelos en el dispositivo
Ejecuta un modelo de lenguaje directamente en el telefono del usuario usando llama.cpp. El modelo se entrega como un archivo GGUF. La inferencia ocurre localmente.
Cuando usarla: Produccion a escala, requisitos de privacidad, funcionalidad sin conexion, funciones sensibles a la latencia.
Costo: Costo unico de fine-tuning ($5-50) + distribucion por CDN. Cero costo por inferencia.
Latencia: 50-200ms hasta el primer token. Sin dependencia de red.
Privacidad: Los datos nunca salen del dispositivo.
Opcion 3: Hibrido
Usa modelos en el dispositivo para tareas comunes y APIs en la nube como respaldo para tareas que superan la capacidad del modelo local.
Cuando usarla: Apps que necesitan funciones de IA tanto basicas como avanzadas. El modelo en el dispositivo maneja el 80-90% de las solicitudes; la nube maneja el resto.
Matriz de decision
| Factor | API en la nube | En el dispositivo | Hibrido |
|---|---|---|---|
| Costo a 10K MAU | $300-$8,000/mes | ~$0/mes | ~$50-$500/mes |
| Latencia | 500-3,000ms | 50-200ms | 50-200ms (mayoria) |
| Sin conexion | No | Si | Parcial |
| Privacidad | Datos enviados a terceros | En el dispositivo | Mixta |
| Calidad del modelo | Frontera (GPT-4o, Claude) | 1-3B fine-tuned | Ambos |
| Complejidad de configuracion | Baja | Media | Alta |
| Cobertura de dispositivos | Todos (con internet) | 4GB+ RAM | Todos |
Curva de costos
A baja escala, las APIs en la nube son mas baratas (sin costo inicial). A medida que los usuarios crecen, la inferencia en el dispositivo se vuelve dramaticamente mas economica porque el costo por inferencia es cero.
| MAU | API en la nube (GPT-4o-mini) | En el dispositivo |
|---|---|---|
| 100 | $7/mes | ~$0/mes |
| 1,000 | $68/mes | ~$0/mes |
| 10,000 | $675/mes | ~$0/mes |
| 100,000 | $6,750/mes | ~$0/mes |
El punto de equilibrio llega rapidamente. Para la mayoria de las apps, la inferencia en el dispositivo se vuelve mas economica entre 500-1,000 MAU.
El camino practico
- Comienza con una API en la nube para validar que los usuarios quieren tu funcion de IA. Usa GPT-4o-mini o Gemini Flash para el costo mas bajo.
- Recopila datos de entrenamiento desde tus registros de API. Cada llamada a la API es un potencial ejemplo de entrenamiento.
- Fine-tune un modelo pequeno cuando tu costo de IA se convierta en una partida presupuestaria. Plataformas como Ertas proporcionan un pipeline visual: sube datos, entrena con LoRA, exporta GGUF.
- Despliega en el dispositivo y realiza pruebas A/B contra tu linea base en la nube.
- Migra al dispositivo como predeterminado cuando la calidad iguale o supere la de la nube.
Tu codigo debe abstraer el proveedor de IA desde el inicio. Disena una interfaz comun que tanto los proveedores en la nube como en el dispositivo implementen. Esto hace que la migracion sea un cambio de configuracion, no una reescritura.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

On-Device AI Model Size Guide: 1B vs 3B vs 7B for Mobile
How to choose the right model size for your mobile app. Capability breakdown, device requirements, quality benchmarks, and the fine-tuning factor that changes the math.

Migrating from Cloud API to On-Device AI: The Complete Guide
A step-by-step migration plan for moving your mobile app from cloud AI APIs to on-device inference. Data extraction, fine-tuning, integration, testing, rollout, and monitoring.

AI in iOS Apps: CoreML, Cloud APIs, and On-Device LLMs Compared
Three paths to AI in your iOS app. CoreML for Apple's ecosystem, cloud APIs for capability, and on-device LLMs via llama.cpp for cost and privacy. A practical comparison for Swift developers.