
Por que tu app de IA se siente lenta: La latencia de red es el cuello de botella
Las llamadas a APIs de IA agregan 500-3,000ms de latencia a cada interaccion. En movil, esa es la diferencia entre una funcion que los usuarios aman y una que abandonan. Aqui es donde se va el tiempo y como solucionarlo.
Tu funcion de IA funciona. El modelo es bueno. Los prompts estan afinados. Pero los usuarios la describen como "lenta." Esperan 2-3 segundos mirando un spinner de carga antes de ver cualquier respuesta. En movil, eso es una eternidad.
El problema no es el modelo. Es el viaje de red ida y vuelta entre el telefono del usuario y el servidor en la nube ejecutando la inferencia.
Donde se va el tiempo
Una llamada tipica a una API de IA en la nube desde un dispositivo movil involucra estos pasos:
| Paso | Tiempo | Notas |
|---|---|---|
| Resolucion DNS | 10-50ms | Cacheada despues de la primera llamada |
| Handshake TCP + TLS | 50-150ms | Por conexion (la reutilizacion ayuda) |
| Subida de solicitud | 20-100ms | Depende del tamano del payload y ancho de banda |
| Espera en cola del servidor | 50-500ms | Varia segun la carga del proveedor |
| Inferencia del modelo (TTFT) | 200-1,500ms | Tiempo hasta primer token, depende del modelo |
| Descarga de respuesta (primer token) | 20-50ms | Transito de red |
| Tiempo total hasta primer token | 350-2,350ms |
Con buena conexion, podrias ver 500ms. En celular, 1-2 segundos. En conexion debil (ascensor, metro, area rural), 3+ segundos o timeout.
El efecto acumulativo
Estas latencias impactan en cada interaccion individual. Una conversacion de 5 turnos con una API en la nube significa que el usuario espera 5 veces. Cada espera refuerza la percepcion de que la funcion es lenta. Despues de 3-4 interacciones, muchos usuarios dejan de usar la funcion por completo.
Investigacion de Google encontro que el 53% de usuarios moviles abandonan una pagina que tarda mas de 3 segundos en cargar. Las funciones de IA enfrentan el mismo umbral, pero el estandar es aun mas alto porque los usuarios comparan los tiempos de respuesta de IA con la retroalimentacion instantanea de cada otro elemento de UI en la app.
Por que movil es peor que escritorio
Las apps de escritorio llamando APIs de IA tienen una ventaja estructural: tipicamente funcionan en conexiones WiFi o ethernet estables. Movil agrega varias capas de latencia:
Variabilidad celular: La latencia 4G promedia 50-100ms pero sube a 300-500ms durante congestion. 5G es mejor en condiciones ideales pero inconsistente en la practica.
Cambio de conexion: Moverse entre WiFi y celular (entrar/salir de un edificio) puede causar interrupciones de 1-2 segundos mientras la conexion se restablece.
Transiciones primer plano/segundo plano: iOS y Android suspenden conexiones de red cuando las apps estan en segundo plano. Cuando el usuario regresa, la conexion puede necesitar restablecerse.
Distancia geografica: Los servidores de API tipicamente estan en US-East o US-West. Usuarios en el sudeste asiatico, Africa o Sudamerica agregan 100-300ms de puro tiempo de transito de red.
El impacto en UX
Los spinners de carga matan el engagement
Cada spinner de carga es un momento donde el usuario puede decidir hacer otra cosa. En movil, "otra cosa" esta a un deslizamiento de distancia. El cambiador de apps siempre esta disponible.
Pruebas A/B de multiples equipos moviles han mostrado que funciones de IA con mas de 1 segundo de latencia ven tasas de completado 30-40% menores comparadas con funciones sub-segundo. La funcion opera de forma identica. La unica diferencia es la velocidad percibida.
El streaming ayuda, pero tiene limites
El streaming token por token (Server-Sent Events) reduce la latencia percibida mostrando la salida mientras se genera. El usuario ve las primeras palabras rapidamente, lo que da la impresion de capacidad de respuesta.
El streaming mejora la experiencia pero no elimina el problema:
- El tiempo hasta el primer token sigue siendo 500-2,000ms
- En conexiones debiles, los streams SSE se almacenan en buffer, creando tartamudeo visible
- Cada chunk transmitido agrega su propia sobrecarga de red
La brecha sin conexion
La peor latencia es infinita. Cuando el usuario no tiene conexion, la API en la nube no devuelve nada. La funcion falla completamente.
Esto no es un caso extremo en movil. Los usuarios estan regularmente en metros, ascensores, aviones, areas rurales y ubicaciones internacionales sin datos. Una funcion que falla en estos momentos entrena a los usuarios para no confiar en ella.
La alternativa en el dispositivo
La inferencia en el dispositivo elimina la latencia de red por completo. El modelo se ejecuta en el telefono del usuario. La ruta desde la entrada hasta la salida nunca toca la red.
| Metrica | API en la nube | En el dispositivo |
|---|---|---|
| Tiempo hasta primer token | 500-2,000ms | 50-200ms |
| Respuesta completa (100 tokens) | 2-5 segundos | 1-3 segundos |
| Sin conexion | Falla | Funciona |
| Latencia en conexion debil | 3-10+ segundos | Igual que conexion fuerte |
| Consistencia | Variable | Consistente |
La diferencia es mas dramatica en el primer token. Los usuarios perciben 50ms como instantaneo. La respuesta parece comenzar "inmediatamente" despues de tocar enviar.
Velocidad de generacion de tokens
El hardware movil moderno genera tokens suficientemente rapido para una experiencia de chat responsiva:
| Dispositivo | Modelo 1B | Modelo 3B |
|---|---|---|
| iPhone 15 Pro | 35-45 tok/s | 18-25 tok/s |
| Galaxy S24 | 35-45 tok/s | 18-25 tok/s |
| iPhone 13 | 20-30 tok/s | 10-15 tok/s |
| Android gama media | 18-25 tok/s | 8-12 tok/s |
A 20+ tokens por segundo, el texto aparece fluyendo suavemente. A 10+ tokens por segundo, es legible y usable. Ambos superan el umbral para una experiencia de chat comoda.
Midiendo el impacto
Rastrea estas metricas para cuantificar el problema de latencia en tu app:
P50/P95 de tiempo hasta primer token: La mediana te dice la experiencia tipica. El P95 te dice la experiencia del peor 5% de tus usuarios. Si el P95 excede 3 segundos, el 5% de tus usuarios esta teniendo una mala experiencia en cada interaccion.
Tasa de completado de funcion: Que porcentaje de usuarios que inician una interaccion de IA la completan (esperan y leen la respuesta)? Compara esto con funciones no-IA en tu app.
Tasa de reintentos: Con que frecuencia los usuarios tocan "enviar" otra vez porque creyeron que la primera solicitud fallo? Tasas altas de reintentos indican timeouts percibidos.
Retencion de funcion de IA (D7/D30): Los usuarios que prueban la funcion de IA vuelven a usarla? Baja retencion a pesar de alta prueba inicial sugiere un problema de UX, y la latencia es la causa mas comun.
La solucion
La solucion arquitectonica es mover la inferencia al dispositivo. Fine-tunea un modelo pequeno (1-3B parametros) en tu tarea especifica, exporta como GGUF, y ejecutalo localmente via llama.cpp.
El camino:
- Mide tu latencia actual de API en la nube (P50 y P95)
- Identifica que funciones de IA son sensibles a la latencia (cualquier funcion donde los usuarios esperan una respuesta)
- Recopila datos de entrenamiento de tus logs de API existentes
- Fine-tunea un modelo especifico de dominio usando una plataforma como Ertas
- Despliega en el dispositivo y mide la mejora de latencia
- Haz pruebas A/B del engagement de usuarios entre nube y dispositivo
La mejora de latencia por si sola frecuentemente impulsa un aumento medible en el engagement de la funcion. Cuando agregas soporte sin conexion y eliminacion de costos, el caso se vuelve definitivo.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Fine-Tuning vs RAG for Mobile: Why RAG Still Needs a Server
RAG is the go-to solution for giving AI domain knowledge. But on mobile, RAG reintroduces the server dependency you are trying to eliminate. Fine-tuning bakes the knowledge into the model itself.

On-Device AI Unit Economics: The Math That Makes Mobile AI Profitable
The complete unit economics breakdown for on-device AI vs cloud APIs. Fixed costs, variable costs, break-even analysis, and the financial model for scaling mobile AI features profitably.

AI Features Mobile Users Actually Want (2026)
Research-backed list of AI features that drive retention and engagement in mobile apps. What users want, what they ignore, and how to prioritize AI features based on actual behavior data.