
On-Device vs API en la Nube: Las Matemáticas Reales con 10K, 50K y 100K MAU
Un desglose sin adornos del coste de las API en la nube frente a la inferencia on-device a escala. Descubre exactamente cuándo el fine-tuning on-device se amortiza, con tablas, datos reales de precios y los costes ocultos que nadie pone en el README.
Tu funcionalidad de IA va perfecta en pruebas. Las respuestas son rápidas, el modelo es capaz, los costes son insignificantes. Entonces alcanzas 10K usuarios activos mensuales y llega la factura.
Este es el momento que separa las apps que escalan de las apps que se acaban reescribiendo en silencio. Según un informe de Forrester de 2026, el setenta por ciento de los CIOs cita la imprevisibilidad del coste de la IA como su principal barrera de adopción. Menlo Ventures encontró que el gasto medio mensual de las organizaciones en IA pasó de 63K$ en 2024 a 85,5K$ en 2025, un aumento del 36% en un solo año. Los márgenes brutos de Replit, según informes, oscilaron de +36% a -14% a medida que los costes de inferencia escalaban con el uso (Sacra).
La buena noticia: puedes modelar todo esto antes de que ocurra. Este artículo enseña las matemáticas.
El Panorama de Precios
Primero, establezcamos los números reales. Todos los precios son por 1 millón de tokens, a principios de 2026.
| Modelo | Input (por 1M tokens) | Output (por 1M tokens) |
|---|---|---|
| OpenAI GPT-4o | $2.50 | $10.00 |
| OpenAI GPT-4.1-mini | $0.40 | $1.60 |
| OpenAI GPT-4o-mini | $0.15 | $0.60 |
| Anthropic Claude 3.5 Haiku | $0.80 | $4.00 |
| Google Gemini 2.0 Flash | $0.10 | $0.40 |
Los tokens de output cuestan significativamente más que los de input en cada proveedor. Esto importa porque la mayoría de las estimaciones de coste se centran en la longitud del input y subestiman la parte del output.
El Modelo de Coste: Suposiciones
Para hacerlo concreto, necesitamos una suposición de uso de referencia. Aquí tienes un modelo razonable para una app móvil con una funcionalidad de asistente de IA:
- 3 interacciones por usuario al día (conservador para una app de uso diario)
- 500 tokens de input por interacción (un system prompt corto más el mensaje del usuario)
- 500 tokens de output por interacción (una respuesta del tamaño de un párrafo)
- Usuarios activos mensuales en 10K, 50K y 100K
Eso nos da 30 interacciones por usuario al mes, y 1.000 tokens totales por interacción (divididos a partes iguales entre input y output).
Tokens totales por usuario al mes: 30.000 (15K input + 15K output).
Coste de las API en la Nube a Escala
Esto es lo que producen esas matemáticas en tres hitos de MAU.
10.000 MAU
| Modelo | Coste Mensual |
|---|---|
| Gemini 2.0 Flash | $67.50 |
| GPT-4o-mini | $337.50 |
| GPT-4.1-mini | $900.00 |
| Claude 3.5 Haiku | $1,500.00 |
| GPT-4o | $5,625.00 |
50.000 MAU
| Modelo | Coste Mensual |
|---|---|
| Gemini 2.0 Flash | $337.50 |
| GPT-4o-mini | $1,687.50 |
| GPT-4.1-mini | $4,500.00 |
| Claude 3.5 Haiku | $7,500.00 |
| GPT-4o | $28,125.00 |
100.000 MAU
| Modelo | Coste Mensual |
|---|---|
| Gemini 2.0 Flash | $675.00 |
| GPT-4o-mini | $3,375.00 |
| GPT-4.1-mini | $9,000.00 |
| Claude 3.5 Haiku | $15,000.00 |
| GPT-4o | $56,250.00 |
Estas son estimaciones mínimas. No incluyen lógica de reintentos, sobrecarga de streaming, crecimiento del contexto a medida que las conversaciones se alargan, ni el coste de las llamadas a embeddings si estás corriendo RAG. El uso real de tokens suele ser entre 1,5 y 2 veces mayor que las estimaciones.
La Alternativa On-Device
La inferencia on-device ejecuta el modelo en el hardware del usuario. Una vez distribuido el modelo, cada inferencia te cuesta cero. Sin tarifas por token, sin llamadas a API, sin costes de egress.
Los dos componentes de coste que sí pagas son:
-
Fine-tuning (única vez): Entrenar un adaptador LoRA en un servicio de GPU en la nube cuesta aproximadamente 5$-50$ dependiendo del tamaño del dataset y del modelo base. Es un coste único por versión del modelo, no por usuario ni por inferencia.
-
Distribución del modelo (única vez por instalación): Estás enviando un fichero GGUF con tu app. Tamaños GGUF para modelos prácticos en móvil: Llama 3.2 1B con cuantización Q4_K_M ocupa 808MB; la variante 3B son 2.02GB. El egress de CDN para un fichero de 1GB a tarifas estándar son menos de 0,10$ por instalación. Para 10K usuarios, eso son aproximadamente 1.000$ totales de coste de distribución amortizados en el momento de la instalación, no mensualmente.
Coste mensual recurrente: 0$.
El Punto de Equilibrio
Usando GPT-4o-mini como referencia (una elección común para equipos preocupados por el coste):
| MAU | GPT-4o-mini Mensual | On-Device Mensual | Punto de Equilibrio (meses) |
|---|---|---|---|
| 10K | $337.50 | $0 | Menos de 1 mes tras la puesta en marcha |
| 50K | $1,687.50 | $0 | Menos de 1 mes tras la puesta en marcha |
| 100K | $3,375.00 | $0 | Menos de 1 mes tras la puesta en marcha |
El coste único de fine-tuning de 5$-50$ se recupera dentro del primer mes prácticamente con cualquier MAU por encima de unos pocos cientos de usuarios. El único coste real es el tiempo de ingeniería para la integración y la distribución inicial del modelo.
Ship AI that runs on your users' devices.
Ertas early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Los Costes Ocultos de las API en la Nube
La tabla de precios no es la historia completa. Las dependencias de API en la nube traen consigo un conjunto de costes que no aparecen en tu factura mensual.
Límites de Velocidad y Picos de Latencia
Cada gran proveedor impone límites de velocidad: tokens por minuto, peticiones por minuto y topes diarios. Están escalonados por nivel de cuenta y pueden requerir semanas de historial de uso para subir. Durante un pico (un momento viral, el lanzamiento de un producto, una funcionalidad que se vuelve tendencia), chocarás con los límites justo cuando más necesitas fiabilidad. Los errores de rate limit requieren lógica de reintentos en el cliente, lo que añade complejidad y puede convertirse en cascada en fallos visibles para el usuario.
La latencia también varía. Los endpoints de modelos en la nube son infraestructura compartida. Las latencias P99 pueden llegar a 5-10 segundos en periodos de carga punta. La inferencia on-device, por contraste, es determinista. Corre en hardware dedicado sin viaje de ida y vuelta por la red.
Vendor Lock-In y Riesgo de Deprecación
Las API de modelos no son contratos estables. OpenAI ha deprecado GPT-3, GPT-3.5 y múltiples endpoints de fine-tuning. Anthropic, Google y otros han seguido patrones similares. Cuando se depreca un modelo, tienes una ventana de migración, a menudo de 6-12 meses, para actualizar tus prompts, volver a probar y redesplegar. La ingeniería de prompts que funciona bien en GPT-4o-mini no siempre se transfiere directamente a un nuevo modelo.
Los modelos on-device no se deprecan según el calendario del proveedor. Tú controlas cuándo actualizas y puedes mantener el soporte de versiones antiguas de la app indefinidamente sin pagar por un endpoint de API que ya no controlas.
Dependencia de Red
Las apps móviles que requieren conexión activa a internet para cada funcionalidad de IA tienen una restricción dura. Los modelos on-device funcionan sin conexión. Para apps de toma de notas, herramientas de productividad, apps local-first o cualquier app dirigida a regiones con conectividad poco fiable, la capacidad offline es una ventaja competitiva real, no un mero lujo.
Privacidad y Residencia de Datos
Cada llamada a la API envía la entrada del usuario a un servidor de terceros. Para apps que manejan datos sensibles (salud, finanzas, legal, RR.HH.), esto crea una superficie de cumplimiento. La inferencia on-device mantiene los datos del usuario en el dispositivo. Nunca salen.
Cuándo Sí Tienen Sentido las API en la Nube
On-device no es la respuesta correcta para cada caso de uso. Sé honesto sobre estos escenarios:
Prototipado y desarrollo en fase temprana. Cuando tienes menos de unos cientos de MAU, la economía favorece a la nube. Aún estás validando la funcionalidad. Usa GPT-4o-mini o Gemini Flash, instrumenta tu uso de tokens con cuidado y revisa la arquitectura del modelo entre 1K y 5K MAU.
Tareas que requieren capacidad de modelo de frontera. Los modelos on-device en el rango de 1B-7B parámetros son capaces para resúmenes, clasificación, extracción, Q&A simple y generación de formato corto. No son adecuados para razonamiento multietapa complejo, generación de código en codebases grandes o tareas que se beneficien genuinamente de modelos de 100B+ parámetros. Si tu funcionalidad requiere razonamiento al nivel de GPT-4o, on-device no es un sustituto.
Herramientas B2B de bajo volumen. Si tienes 200 usuarios empresariales haciendo cada uno 10 interacciones por semana, tu factura de GPT-4o es de menos de 100$ al mes. La inversión de ingeniería para implementar on-device no merece la pena a ese volumen.
Tareas con requisitos que cambian rápido. Si tu system prompt cambia semanalmente y estás iterando rápido sobre el comportamiento del modelo, el bucle de iteración en la nube es mucho más rápido. Volver a hacer fine-tuning y redistribuir un modelo on-device toma más tiempo que empujar un nuevo system prompt.
Un Marco de Decisión Práctico
| Factor | API en la Nube | On-Device |
|---|---|---|
| MAU por debajo de 2.000 | Preferida | Sobrecarga no justificada |
| MAU por encima de 10.000 | Cara | Coste-efectiva |
| Offline requerido | No | Sí |
| Datos sensibles a privacidad | Arriesgado | Seguro por defecto |
| Tareas de razonamiento complejo | Mejor capacidad | Limitado |
| Iteración rápida de prompts | Fácil | Requiere redespliegue |
| Latencia determinista | No | Sí |
| Riesgo de deprecación del proveedor | Alto | Ninguno |
La decisión no es binaria. Una arquitectura híbrida común: usa on-device para las funcionalidades centrales (resúmenes, etiquetado, respuestas rápidas) y enruta peticiones específicas de alta complejidad a una API en la nube. Esto mantiene el 80-90% del volumen de inferencia on-device a coste cero por token, preservando el acceso a la capacidad de frontera para los casos límite.
El Camino de Ingeniería hacia On-Device
Históricamente, la barrera práctica para la IA on-device ha sido el toolchain. El fine-tuning requiere infraestructura de ML, exportar a GGUF requiere herramientas de conversión de modelos, e integrar la inferencia en una app móvil requiere bindings específicos de cada plataforma.
Aquí es donde encaja Ertas. La plataforma se encarga del fine-tuning (adaptadores LoRA sobre tu dataset), la cuantización y la exportación a GGUF en un solo pipeline. Tú aportas tus datos de entrenamiento y el caso de uso objetivo. Recibes un fichero GGUF listo para despliegue móvil, junto con guías de integración para iOS (vía bindings de llama.cpp) y Android.
El coste único de fine-tuning de 5$-50$ frente a una factura mensual de API que crece linealmente con cada usuario que adquieres: las matemáticas se resuelven solas rápidamente.
Conclusión
Con 10K MAU usando GPT-4o-mini, estás pagando 337$ al mes. Con 50K MAU son 1.687$. Con 100K MAU son 3.375$ al mes, y eso con un modelo barato y suposiciones de uso conservadoras. GPT-4o con 100K MAU son 56.250$ al mes.
La inferencia on-device cuesta 0$ tras una inversión única en fine-tuning de menos de 50$ y unos costes de distribución del modelo que se amortizan en el momento de la instalación.
El punto de equilibrio no está a meses vista. Para casi cualquier app por encima de unos pocos cientos de usuarios activos, la factura de la API supera el coste del fine-tuning dentro del primer ciclo de facturación tras el lanzamiento. La pregunta no es si on-device es más barato. La pregunta es cuándo lo construyes.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning vs RAG for Mobile: Why RAG Still Needs a Server
RAG is the go-to solution for giving AI domain knowledge. But on mobile, RAG reintroduces the server dependency you are trying to eliminate. Fine-tuning bakes the knowledge into the model itself.

Fine-Tuning vs Prompt Engineering for Mobile Apps
Prompt engineering is fast and flexible. Fine-tuning is accurate and cheap at scale. Here is the practical comparison for mobile developers deciding between the two approaches.

On-Device AI Unit Economics: The Math That Makes Mobile AI Profitable
The complete unit economics breakdown for on-device AI vs cloud APIs. Fixed costs, variable costs, break-even analysis, and the financial model for scaling mobile AI features profitably.