Precios de API de IA para movil: El costo real por usuario

Tu funcion de IA cuesta $0.003 por solicitud. Eso suena a nada. Pero cada usuario hace 3-5 solicitudes por dia. Tienes 10,000 MAU. La factura mensual es $2,700-$4,500. Si tu app cobra $4.99/mes, la IA acaba de consumir el 5-9% de los ingresos brutos.

El costo por usuario es el numero que importa. No el costo por token, no el costo por solicitud. El costo por usuario por mes determina si tu funcion de IA es sostenible a escala.

Calculando el costo por usuario

La formula:

Costo por usuario por mes = (tokens por solicitud) * (solicitudes por usuario por dia) * 30 * (precio por token)

Pero esta formula solo funciona si contabilizas todas las fuentes de tokens. La mayoria de desarrolladores omiten tres de ellas.

Fuentes de tokens por solicitud

Entrada del usuario: El texto real que el usuario envia. Tipicamente 50-300 tokens para movil (mensajes cortos, consultas de busqueda, prompts breves).

Prompt del sistema: Enviado con cada solicitud. Usualmente 800-1,500 tokens. Estas son las instrucciones de tu app al modelo: persona, reglas de formato, guardarrails, contexto sobre la app.

Historial de conversacion: Para funciones tipo chat, todos los mensajes previos se reenvian con cada solicitud. Una conversacion de 5 turnos significa que el turno 5 incluye todos los 4 intercambios anteriores.

Contexto RAG: Si inyectas documentos recuperados o conocimiento del producto, agrega 500-3,000 tokens por solicitud.

Conteo realista de tokens por solicitud

Componente	Tokens	Se envia en cada solicitud?
Prompt del sistema	1,200	Si
Entrada del usuario	200	Si
Historial de conversacion (prom.)	1,500	Si (funciones de chat)
Contexto RAG	1,000	Si aplica
Salida del modelo	400	Si
Total (chat + RAG)	4,300
Total (turno unico)	1,800

La estimacion ingenua de "1,000 tokens por solicitud" subestima por 2-4x.

Comparacion de proveedores: Costo por usuario por mes

Usando conteos realistas de tokens, 3 solicitudes por usuario por dia, 30 dias por mes.

Funciones de turno unico (sin historial de chat)

1,800 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.

Proveedor/Modelo	Costo entrada	Costo salida	Total/usuario/mes
Gemini 2.0 Flash	$0.016	$0.014	$0.030
GPT-4o-mini	$0.024	$0.022	$0.046
GPT-4.1-mini	$0.065	$0.058	$0.123
Claude 3.5 Haiku	$0.130	$0.144	$0.274
GPT-4o	$0.405	$0.360	$0.765
Claude 3.5 Sonnet	$0.486	$0.540	$1.026

Funciones de chat (con historial de conversacion)

4,300 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.

Proveedor/Modelo	Costo entrada	Costo salida	Total/usuario/mes
Gemini 2.0 Flash	$0.039	$0.014	$0.053
GPT-4o-mini	$0.058	$0.022	$0.080
GPT-4.1-mini	$0.155	$0.058	$0.213
Claude 3.5 Haiku	$0.310	$0.144	$0.454
GPT-4o	$0.968	$0.360	$1.328
Claude 3.5 Sonnet	$1.161	$0.540	$1.701

Que significa esto a escala

MAU	Gemini Flash	GPT-4o-mini	Claude Haiku	GPT-4o
1,000	$53	$80	$454	$1,328
10,000	$530	$800	$4,540	$13,280
50,000	$2,650	$4,000	$22,700	$66,400
100,000	$5,300	$8,000	$45,400	$132,800

El umbral de sostenibilidad

Si tu app cobra $4.99/mes por usuario, que porcentaje de ingresos consume la IA?

Modelo	Costo/usuario	% de $4.99 ingresos	Sostenible?
Gemini Flash (chat)	$0.053	1.1%	Si
GPT-4o-mini (chat)	$0.080	1.6%	Si
GPT-4.1-mini (chat)	$0.213	4.3%	Marginal
Claude Haiku (chat)	$0.454	9.1%	Riesgoso
GPT-4o (chat)	$1.328	26.6%	No
Claude Sonnet (chat)	$1.701	34.1%	No

Al 1-2% de ingresos, los costos de IA son sostenibles. Al 5-10%, compiten con otros centros de costo. Por encima del 10%, amenazan los margenes.

Pero estos numeros asumen 3 solicitudes por dia por usuario. Los usuarios intensivos que hacen 10-20 solicitudes por dia cuestan 3-7x mas. Si el 10% de tus usuarios son intensivos, pueden representar el 30-50% de tu gasto en IA.

Multiplicadores de costo ocultos

Reintentos

A escala, 2-5% de las llamadas a la API fallan (limites de tasa, timeouts, errores del servidor). Cada reintento reenvia la carga completa. Presupuesta un 3-5% extra sobre el gasto total de tokens.

Sobrecarga de ingenieria de prompts

A medida que iteras en tu prompt del sistema, tiende a crecer. Lo que empieza en 500 tokens termina en 1,500. Cada instruccion, guardarrail o ejemplo agregado se multiplica por cada solicitud, cada usuario, cada dia.

Expansion de funciones

Una funcion de IA se convierte en tres. Chat, resumen y sugerencias inteligentes, cada una con sus propias llamadas a la API. Las solicitudes totales por usuario por dia crecen de 3 a 10+.

Nivel gratuito / Freemium

Si tu app tiene un nivel gratuito con funciones de IA, esos usuarios generan costo con cero ingresos. Un modelo freemium donde el 90% de usuarios son gratuitos significa que tus usuarios de pago deben cubrir 10x sus propios costos de IA.

El punto de equilibrio: Nube vs dispositivo

La inferencia en el dispositivo tiene una estructura de costos fija: fine-tuning unico ($5-50) mas distribucion CDN (~$0.08/GB por descarga de modelo). El costo por inferencia es $0.

El punto de equilibrio es simple: cuando tu factura mensual de API en la nube excede el costo unico de fine-tuning, el dispositivo se vuelve mas economico.

Escenario	Costo mensual nube	Fine-tuning unico	Punto de equilibrio
500 MAU, GPT-4o-mini	$40	$10-30	Mes 1
1K MAU, Gemini Flash	$53	$10-30	Mes 1
5K MAU, GPT-4o-mini	$400	$10-30	Mes 1

Con cualquier cantidad no trivial de usuarios, las matematicas favorecen al dispositivo. La pregunta no es "si" sino "cuando" en tu trayectoria de crecimiento haces el cambio.

Plataformas como Ertas hacen el cambio practico: sube tus datos de entrenamiento (que puedes extraer de tus logs de API existentes), fine-tunea con LoRA en GPUs en la nube, y exporta un modelo GGUF listo para despliegue movil. El pipeline toma horas, no semanas.

Que rastrear

Desde el primer dia, rastrea estos numeros en tu analitica:

Costo por usuario por mes (gasto total en IA / MAU)
Costo por usuario de pago (si freemium, solo cuenta usuarios de pago)
Solicitudes por usuario por dia (identifica usuarios intensivos)
Tokens por solicitud (vigila el crecimiento del prompt del sistema)
Costo de IA como % de ingresos por usuario

Configura alertas. Cuando el costo por usuario cruce $0.10/mes, comienza a planificar la migracion al dispositivo. Cuando cruce $0.50, ejecuta.