
Precios de API de IA para movil: El costo real por usuario
Como calcular el verdadero costo de IA por usuario de app movil. Comparacion de proveedores, multiplicadores ocultos y la economia unitaria que determina si tu funcion de IA es sostenible.
Tu funcion de IA cuesta $0.003 por solicitud. Eso suena a nada. Pero cada usuario hace 3-5 solicitudes por dia. Tienes 10,000 MAU. La factura mensual es $2,700-$4,500. Si tu app cobra $4.99/mes, la IA acaba de consumir el 5-9% de los ingresos brutos.
El costo por usuario es el numero que importa. No el costo por token, no el costo por solicitud. El costo por usuario por mes determina si tu funcion de IA es sostenible a escala.
Calculando el costo por usuario
La formula:
Costo por usuario por mes = (tokens por solicitud) * (solicitudes por usuario por dia) * 30 * (precio por token)
Pero esta formula solo funciona si contabilizas todas las fuentes de tokens. La mayoria de desarrolladores omiten tres de ellas.
Fuentes de tokens por solicitud
Entrada del usuario: El texto real que el usuario envia. Tipicamente 50-300 tokens para movil (mensajes cortos, consultas de busqueda, prompts breves).
Prompt del sistema: Enviado con cada solicitud. Usualmente 800-1,500 tokens. Estas son las instrucciones de tu app al modelo: persona, reglas de formato, guardarrails, contexto sobre la app.
Historial de conversacion: Para funciones tipo chat, todos los mensajes previos se reenvian con cada solicitud. Una conversacion de 5 turnos significa que el turno 5 incluye todos los 4 intercambios anteriores.
Contexto RAG: Si inyectas documentos recuperados o conocimiento del producto, agrega 500-3,000 tokens por solicitud.
Conteo realista de tokens por solicitud
| Componente | Tokens | Se envia en cada solicitud? |
|---|---|---|
| Prompt del sistema | 1,200 | Si |
| Entrada del usuario | 200 | Si |
| Historial de conversacion (prom.) | 1,500 | Si (funciones de chat) |
| Contexto RAG | 1,000 | Si aplica |
| Salida del modelo | 400 | Si |
| Total (chat + RAG) | 4,300 | |
| Total (turno unico) | 1,800 |
La estimacion ingenua de "1,000 tokens por solicitud" subestima por 2-4x.
Comparacion de proveedores: Costo por usuario por mes
Usando conteos realistas de tokens, 3 solicitudes por usuario por dia, 30 dias por mes.
Funciones de turno unico (sin historial de chat)
1,800 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.
| Proveedor/Modelo | Costo entrada | Costo salida | Total/usuario/mes |
|---|---|---|---|
| Gemini 2.0 Flash | $0.016 | $0.014 | $0.030 |
| GPT-4o-mini | $0.024 | $0.022 | $0.046 |
| GPT-4.1-mini | $0.065 | $0.058 | $0.123 |
| Claude 3.5 Haiku | $0.130 | $0.144 | $0.274 |
| GPT-4o | $0.405 | $0.360 | $0.765 |
| Claude 3.5 Sonnet | $0.486 | $0.540 | $1.026 |
Funciones de chat (con historial de conversacion)
4,300 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.
| Proveedor/Modelo | Costo entrada | Costo salida | Total/usuario/mes |
|---|---|---|---|
| Gemini 2.0 Flash | $0.039 | $0.014 | $0.053 |
| GPT-4o-mini | $0.058 | $0.022 | $0.080 |
| GPT-4.1-mini | $0.155 | $0.058 | $0.213 |
| Claude 3.5 Haiku | $0.310 | $0.144 | $0.454 |
| GPT-4o | $0.968 | $0.360 | $1.328 |
| Claude 3.5 Sonnet | $1.161 | $0.540 | $1.701 |
Que significa esto a escala
| MAU | Gemini Flash | GPT-4o-mini | Claude Haiku | GPT-4o |
|---|---|---|---|---|
| 1,000 | $53 | $80 | $454 | $1,328 |
| 10,000 | $530 | $800 | $4,540 | $13,280 |
| 50,000 | $2,650 | $4,000 | $22,700 | $66,400 |
| 100,000 | $5,300 | $8,000 | $45,400 | $132,800 |
El umbral de sostenibilidad
Si tu app cobra $4.99/mes por usuario, que porcentaje de ingresos consume la IA?
| Modelo | Costo/usuario | % de $4.99 ingresos | Sostenible? |
|---|---|---|---|
| Gemini Flash (chat) | $0.053 | 1.1% | Si |
| GPT-4o-mini (chat) | $0.080 | 1.6% | Si |
| GPT-4.1-mini (chat) | $0.213 | 4.3% | Marginal |
| Claude Haiku (chat) | $0.454 | 9.1% | Riesgoso |
| GPT-4o (chat) | $1.328 | 26.6% | No |
| Claude Sonnet (chat) | $1.701 | 34.1% | No |
Al 1-2% de ingresos, los costos de IA son sostenibles. Al 5-10%, compiten con otros centros de costo. Por encima del 10%, amenazan los margenes.
Pero estos numeros asumen 3 solicitudes por dia por usuario. Los usuarios intensivos que hacen 10-20 solicitudes por dia cuestan 3-7x mas. Si el 10% de tus usuarios son intensivos, pueden representar el 30-50% de tu gasto en IA.
Multiplicadores de costo ocultos
Reintentos
A escala, 2-5% de las llamadas a la API fallan (limites de tasa, timeouts, errores del servidor). Cada reintento reenvia la carga completa. Presupuesta un 3-5% extra sobre el gasto total de tokens.
Sobrecarga de ingenieria de prompts
A medida que iteras en tu prompt del sistema, tiende a crecer. Lo que empieza en 500 tokens termina en 1,500. Cada instruccion, guardarrail o ejemplo agregado se multiplica por cada solicitud, cada usuario, cada dia.
Expansion de funciones
Una funcion de IA se convierte en tres. Chat, resumen y sugerencias inteligentes, cada una con sus propias llamadas a la API. Las solicitudes totales por usuario por dia crecen de 3 a 10+.
Nivel gratuito / Freemium
Si tu app tiene un nivel gratuito con funciones de IA, esos usuarios generan costo con cero ingresos. Un modelo freemium donde el 90% de usuarios son gratuitos significa que tus usuarios de pago deben cubrir 10x sus propios costos de IA.
El punto de equilibrio: Nube vs dispositivo
La inferencia en el dispositivo tiene una estructura de costos fija: fine-tuning unico ($5-50) mas distribucion CDN (~$0.08/GB por descarga de modelo). El costo por inferencia es $0.
El punto de equilibrio es simple: cuando tu factura mensual de API en la nube excede el costo unico de fine-tuning, el dispositivo se vuelve mas economico.
| Escenario | Costo mensual nube | Fine-tuning unico | Punto de equilibrio |
|---|---|---|---|
| 500 MAU, GPT-4o-mini | $40 | $10-30 | Mes 1 |
| 1K MAU, Gemini Flash | $53 | $10-30 | Mes 1 |
| 5K MAU, GPT-4o-mini | $400 | $10-30 | Mes 1 |
Con cualquier cantidad no trivial de usuarios, las matematicas favorecen al dispositivo. La pregunta no es "si" sino "cuando" en tu trayectoria de crecimiento haces el cambio.
Plataformas como Ertas hacen el cambio practico: sube tus datos de entrenamiento (que puedes extraer de tus logs de API existentes), fine-tunea con LoRA en GPUs en la nube, y exporta un modelo GGUF listo para despliegue movil. El pipeline toma horas, no semanas.
Que rastrear
Desde el primer dia, rastrea estos numeros en tu analitica:
- Costo por usuario por mes (gasto total en IA / MAU)
- Costo por usuario de pago (si freemium, solo cuenta usuarios de pago)
- Solicitudes por usuario por dia (identifica usuarios intensivos)
- Tokens por solicitud (vigila el crecimiento del prompt del sistema)
- Costo de IA como % de ingresos por usuario
Configura alertas. Cuando el costo por usuario cruce $0.10/mes, comienza a planificar la migracion al dispositivo. Cuando cruce $0.50, ejecuta.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Your AI API Bill Will 10x When Your App Gets Users
The cost math most AI tutorials skip. Your API bill scales linearly with every user, and the real multipliers are worse than the pricing page suggests. Here's what happens at 1K, 10K, and 100K MAU.

On-Device AI Unit Economics: The Math That Makes Mobile AI Profitable
The complete unit economics breakdown for on-device AI vs cloud APIs. Fixed costs, variable costs, break-even analysis, and the financial model for scaling mobile AI features profitably.

Fine-Tuning vs Prompt Engineering for Mobile Apps
Prompt engineering is fast and flexible. Fine-tuning is accurate and cheap at scale. Here is the practical comparison for mobile developers deciding between the two approaches.