Por que tu app de IA se siente lenta: La latencia de red es el cuello de botella

Tu funcion de IA funciona. El modelo es bueno. Los prompts estan afinados. Pero los usuarios la describen como "lenta." Esperan 2-3 segundos mirando un spinner de carga antes de ver cualquier respuesta. En movil, eso es una eternidad.

El problema no es el modelo. Es el viaje de red ida y vuelta entre el telefono del usuario y el servidor en la nube ejecutando la inferencia.

Donde se va el tiempo

Una llamada tipica a una API de IA en la nube desde un dispositivo movil involucra estos pasos:

Paso	Tiempo	Notas
Resolucion DNS	10-50ms	Cacheada despues de la primera llamada
Handshake TCP + TLS	50-150ms	Por conexion (la reutilizacion ayuda)
Subida de solicitud	20-100ms	Depende del tamano del payload y ancho de banda
Espera en cola del servidor	50-500ms	Varia segun la carga del proveedor
Inferencia del modelo (TTFT)	200-1,500ms	Tiempo hasta primer token, depende del modelo
Descarga de respuesta (primer token)	20-50ms	Transito de red
Tiempo total hasta primer token	350-2,350ms

Con buena conexion, podrias ver 500ms. En celular, 1-2 segundos. En conexion debil (ascensor, metro, area rural), 3+ segundos o timeout.

El efecto acumulativo

Estas latencias impactan en cada interaccion individual. Una conversacion de 5 turnos con una API en la nube significa que el usuario espera 5 veces. Cada espera refuerza la percepcion de que la funcion es lenta. Despues de 3-4 interacciones, muchos usuarios dejan de usar la funcion por completo.

Investigacion de Google encontro que el 53% de usuarios moviles abandonan una pagina que tarda mas de 3 segundos en cargar. Las funciones de IA enfrentan el mismo umbral, pero el estandar es aun mas alto porque los usuarios comparan los tiempos de respuesta de IA con la retroalimentacion instantanea de cada otro elemento de UI en la app.

Por que movil es peor que escritorio

Las apps de escritorio llamando APIs de IA tienen una ventaja estructural: tipicamente funcionan en conexiones WiFi o ethernet estables. Movil agrega varias capas de latencia:

Variabilidad celular: La latencia 4G promedia 50-100ms pero sube a 300-500ms durante congestion. 5G es mejor en condiciones ideales pero inconsistente en la practica.

Cambio de conexion: Moverse entre WiFi y celular (entrar/salir de un edificio) puede causar interrupciones de 1-2 segundos mientras la conexion se restablece.

Transiciones primer plano/segundo plano: iOS y Android suspenden conexiones de red cuando las apps estan en segundo plano. Cuando el usuario regresa, la conexion puede necesitar restablecerse.

Distancia geografica: Los servidores de API tipicamente estan en US-East o US-West. Usuarios en el sudeste asiatico, Africa o Sudamerica agregan 100-300ms de puro tiempo de transito de red.

El impacto en UX

Los spinners de carga matan el engagement

Cada spinner de carga es un momento donde el usuario puede decidir hacer otra cosa. En movil, "otra cosa" esta a un deslizamiento de distancia. El cambiador de apps siempre esta disponible.

Pruebas A/B de multiples equipos moviles han mostrado que funciones de IA con mas de 1 segundo de latencia ven tasas de completado 30-40% menores comparadas con funciones sub-segundo. La funcion opera de forma identica. La unica diferencia es la velocidad percibida.

El streaming ayuda, pero tiene limites

El streaming token por token (Server-Sent Events) reduce la latencia percibida mostrando la salida mientras se genera. El usuario ve las primeras palabras rapidamente, lo que da la impresion de capacidad de respuesta.

El streaming mejora la experiencia pero no elimina el problema:

El tiempo hasta el primer token sigue siendo 500-2,000ms
En conexiones debiles, los streams SSE se almacenan en buffer, creando tartamudeo visible
Cada chunk transmitido agrega su propia sobrecarga de red

La brecha sin conexion

La peor latencia es infinita. Cuando el usuario no tiene conexion, la API en la nube no devuelve nada. La funcion falla completamente.

Esto no es un caso extremo en movil. Los usuarios estan regularmente en metros, ascensores, aviones, areas rurales y ubicaciones internacionales sin datos. Una funcion que falla en estos momentos entrena a los usuarios para no confiar en ella.

La alternativa en el dispositivo

La inferencia en el dispositivo elimina la latencia de red por completo. El modelo se ejecuta en el telefono del usuario. La ruta desde la entrada hasta la salida nunca toca la red.

Metrica	API en la nube	En el dispositivo
Tiempo hasta primer token	500-2,000ms	50-200ms
Respuesta completa (100 tokens)	2-5 segundos	1-3 segundos
Sin conexion	Falla	Funciona
Latencia en conexion debil	3-10+ segundos	Igual que conexion fuerte
Consistencia	Variable	Consistente

La diferencia es mas dramatica en el primer token. Los usuarios perciben 50ms como instantaneo. La respuesta parece comenzar "inmediatamente" despues de tocar enviar.

Velocidad de generacion de tokens

El hardware movil moderno genera tokens suficientemente rapido para una experiencia de chat responsiva:

Dispositivo	Modelo 1B	Modelo 3B
iPhone 15 Pro	35-45 tok/s	18-25 tok/s
Galaxy S24	35-45 tok/s	18-25 tok/s
iPhone 13	20-30 tok/s	10-15 tok/s
Android gama media	18-25 tok/s	8-12 tok/s

A 20+ tokens por segundo, el texto aparece fluyendo suavemente. A 10+ tokens por segundo, es legible y usable. Ambos superan el umbral para una experiencia de chat comoda.

Midiendo el impacto

Rastrea estas metricas para cuantificar el problema de latencia en tu app:

P50/P95 de tiempo hasta primer token: La mediana te dice la experiencia tipica. El P95 te dice la experiencia del peor 5% de tus usuarios. Si el P95 excede 3 segundos, el 5% de tus usuarios esta teniendo una mala experiencia en cada interaccion.

Tasa de completado de funcion: Que porcentaje de usuarios que inician una interaccion de IA la completan (esperan y leen la respuesta)? Compara esto con funciones no-IA en tu app.

Tasa de reintentos: Con que frecuencia los usuarios tocan "enviar" otra vez porque creyeron que la primera solicitud fallo? Tasas altas de reintentos indican timeouts percibidos.

Retencion de funcion de IA (D7/D30): Los usuarios que prueban la funcion de IA vuelven a usarla? Baja retencion a pesar de alta prueba inicial sugiere un problema de UX, y la latencia es la causa mas comun.

La solucion

La solucion arquitectonica es mover la inferencia al dispositivo. Fine-tunea un modelo pequeno (1-3B parametros) en tu tarea especifica, exporta como GGUF, y ejecutalo localmente via llama.cpp.

El camino:

Mide tu latencia actual de API en la nube (P50 y P95)
Identifica que funciones de IA son sensibles a la latencia (cualquier funcion donde los usuarios esperan una respuesta)
Recopila datos de entrenamiento de tus logs de API existentes
Fine-tunea un modelo especifico de dominio usando una plataforma como Ertas
Despliega en el dispositivo y mide la mejora de latencia
Haz pruebas A/B del engagement de usuarios entre nube y dispositivo

La mejora de latencia por si sola frecuentemente impulsa un aumento medible en el engagement de la funcion. Cuando agregas soporte sin conexion y eliminacion de costos, el caso se vuelve definitivo.