Back to blog
    Precios de API de IA para movil: El costo real por usuario
    cost optimizationAPI pricingmobile AIunit economicssegment:mobile-builder

    Precios de API de IA para movil: El costo real por usuario

    Como calcular el verdadero costo de IA por usuario de app movil. Comparacion de proveedores, multiplicadores ocultos y la economia unitaria que determina si tu funcion de IA es sostenible.

    EErtas Team·

    Tu funcion de IA cuesta $0.003 por solicitud. Eso suena a nada. Pero cada usuario hace 3-5 solicitudes por dia. Tienes 10,000 MAU. La factura mensual es $2,700-$4,500. Si tu app cobra $4.99/mes, la IA acaba de consumir el 5-9% de los ingresos brutos.

    El costo por usuario es el numero que importa. No el costo por token, no el costo por solicitud. El costo por usuario por mes determina si tu funcion de IA es sostenible a escala.

    Calculando el costo por usuario

    La formula:

    Costo por usuario por mes = (tokens por solicitud) * (solicitudes por usuario por dia) * 30 * (precio por token)

    Pero esta formula solo funciona si contabilizas todas las fuentes de tokens. La mayoria de desarrolladores omiten tres de ellas.

    Fuentes de tokens por solicitud

    Entrada del usuario: El texto real que el usuario envia. Tipicamente 50-300 tokens para movil (mensajes cortos, consultas de busqueda, prompts breves).

    Prompt del sistema: Enviado con cada solicitud. Usualmente 800-1,500 tokens. Estas son las instrucciones de tu app al modelo: persona, reglas de formato, guardarrails, contexto sobre la app.

    Historial de conversacion: Para funciones tipo chat, todos los mensajes previos se reenvian con cada solicitud. Una conversacion de 5 turnos significa que el turno 5 incluye todos los 4 intercambios anteriores.

    Contexto RAG: Si inyectas documentos recuperados o conocimiento del producto, agrega 500-3,000 tokens por solicitud.

    Conteo realista de tokens por solicitud

    ComponenteTokensSe envia en cada solicitud?
    Prompt del sistema1,200Si
    Entrada del usuario200Si
    Historial de conversacion (prom.)1,500Si (funciones de chat)
    Contexto RAG1,000Si aplica
    Salida del modelo400Si
    Total (chat + RAG)4,300
    Total (turno unico)1,800

    La estimacion ingenua de "1,000 tokens por solicitud" subestima por 2-4x.

    Comparacion de proveedores: Costo por usuario por mes

    Usando conteos realistas de tokens, 3 solicitudes por usuario por dia, 30 dias por mes.

    Funciones de turno unico (sin historial de chat)

    1,800 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.

    Proveedor/ModeloCosto entradaCosto salidaTotal/usuario/mes
    Gemini 2.0 Flash$0.016$0.014$0.030
    GPT-4o-mini$0.024$0.022$0.046
    GPT-4.1-mini$0.065$0.058$0.123
    Claude 3.5 Haiku$0.130$0.144$0.274
    GPT-4o$0.405$0.360$0.765
    Claude 3.5 Sonnet$0.486$0.540$1.026

    Funciones de chat (con historial de conversacion)

    4,300 entrada + 400 salida tokens por solicitud. 90 solicitudes por usuario por mes.

    Proveedor/ModeloCosto entradaCosto salidaTotal/usuario/mes
    Gemini 2.0 Flash$0.039$0.014$0.053
    GPT-4o-mini$0.058$0.022$0.080
    GPT-4.1-mini$0.155$0.058$0.213
    Claude 3.5 Haiku$0.310$0.144$0.454
    GPT-4o$0.968$0.360$1.328
    Claude 3.5 Sonnet$1.161$0.540$1.701

    Que significa esto a escala

    MAUGemini FlashGPT-4o-miniClaude HaikuGPT-4o
    1,000$53$80$454$1,328
    10,000$530$800$4,540$13,280
    50,000$2,650$4,000$22,700$66,400
    100,000$5,300$8,000$45,400$132,800

    El umbral de sostenibilidad

    Si tu app cobra $4.99/mes por usuario, que porcentaje de ingresos consume la IA?

    ModeloCosto/usuario% de $4.99 ingresosSostenible?
    Gemini Flash (chat)$0.0531.1%Si
    GPT-4o-mini (chat)$0.0801.6%Si
    GPT-4.1-mini (chat)$0.2134.3%Marginal
    Claude Haiku (chat)$0.4549.1%Riesgoso
    GPT-4o (chat)$1.32826.6%No
    Claude Sonnet (chat)$1.70134.1%No

    Al 1-2% de ingresos, los costos de IA son sostenibles. Al 5-10%, compiten con otros centros de costo. Por encima del 10%, amenazan los margenes.

    Pero estos numeros asumen 3 solicitudes por dia por usuario. Los usuarios intensivos que hacen 10-20 solicitudes por dia cuestan 3-7x mas. Si el 10% de tus usuarios son intensivos, pueden representar el 30-50% de tu gasto en IA.

    Multiplicadores de costo ocultos

    Reintentos

    A escala, 2-5% de las llamadas a la API fallan (limites de tasa, timeouts, errores del servidor). Cada reintento reenvia la carga completa. Presupuesta un 3-5% extra sobre el gasto total de tokens.

    Sobrecarga de ingenieria de prompts

    A medida que iteras en tu prompt del sistema, tiende a crecer. Lo que empieza en 500 tokens termina en 1,500. Cada instruccion, guardarrail o ejemplo agregado se multiplica por cada solicitud, cada usuario, cada dia.

    Expansion de funciones

    Una funcion de IA se convierte en tres. Chat, resumen y sugerencias inteligentes, cada una con sus propias llamadas a la API. Las solicitudes totales por usuario por dia crecen de 3 a 10+.

    Nivel gratuito / Freemium

    Si tu app tiene un nivel gratuito con funciones de IA, esos usuarios generan costo con cero ingresos. Un modelo freemium donde el 90% de usuarios son gratuitos significa que tus usuarios de pago deben cubrir 10x sus propios costos de IA.

    El punto de equilibrio: Nube vs dispositivo

    La inferencia en el dispositivo tiene una estructura de costos fija: fine-tuning unico ($5-50) mas distribucion CDN (~$0.08/GB por descarga de modelo). El costo por inferencia es $0.

    El punto de equilibrio es simple: cuando tu factura mensual de API en la nube excede el costo unico de fine-tuning, el dispositivo se vuelve mas economico.

    EscenarioCosto mensual nubeFine-tuning unicoPunto de equilibrio
    500 MAU, GPT-4o-mini$40$10-30Mes 1
    1K MAU, Gemini Flash$53$10-30Mes 1
    5K MAU, GPT-4o-mini$400$10-30Mes 1

    Con cualquier cantidad no trivial de usuarios, las matematicas favorecen al dispositivo. La pregunta no es "si" sino "cuando" en tu trayectoria de crecimiento haces el cambio.

    Plataformas como Ertas hacen el cambio practico: sube tus datos de entrenamiento (que puedes extraer de tus logs de API existentes), fine-tunea con LoRA en GPUs en la nube, y exporta un modelo GGUF listo para despliegue movil. El pipeline toma horas, no semanas.

    Que rastrear

    Desde el primer dia, rastrea estos numeros en tu analitica:

    1. Costo por usuario por mes (gasto total en IA / MAU)
    2. Costo por usuario de pago (si freemium, solo cuenta usuarios de pago)
    3. Solicitudes por usuario por dia (identifica usuarios intensivos)
    4. Tokens por solicitud (vigila el crecimiento del prompt del sistema)
    5. Costo de IA como % de ingresos por usuario

    Configura alertas. Cuando el costo por usuario cruce $0.10/mes, comienza a planificar la migracion al dispositivo. Cuando cruce $0.50, ejecuta.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading