Back to blog
    Por que tu app de IA se siente lenta: La latencia de red es el cuello de botella
    latencyUXmobile AIperformanceon-device AIsegment:mobile-builder

    Por que tu app de IA se siente lenta: La latencia de red es el cuello de botella

    Las llamadas a APIs de IA agregan 500-3,000ms de latencia a cada interaccion. En movil, esa es la diferencia entre una funcion que los usuarios aman y una que abandonan. Aqui es donde se va el tiempo y como solucionarlo.

    EErtas Team·

    Tu funcion de IA funciona. El modelo es bueno. Los prompts estan afinados. Pero los usuarios la describen como "lenta." Esperan 2-3 segundos mirando un spinner de carga antes de ver cualquier respuesta. En movil, eso es una eternidad.

    El problema no es el modelo. Es el viaje de red ida y vuelta entre el telefono del usuario y el servidor en la nube ejecutando la inferencia.

    Donde se va el tiempo

    Una llamada tipica a una API de IA en la nube desde un dispositivo movil involucra estos pasos:

    PasoTiempoNotas
    Resolucion DNS10-50msCacheada despues de la primera llamada
    Handshake TCP + TLS50-150msPor conexion (la reutilizacion ayuda)
    Subida de solicitud20-100msDepende del tamano del payload y ancho de banda
    Espera en cola del servidor50-500msVaria segun la carga del proveedor
    Inferencia del modelo (TTFT)200-1,500msTiempo hasta primer token, depende del modelo
    Descarga de respuesta (primer token)20-50msTransito de red
    Tiempo total hasta primer token350-2,350ms

    Con buena conexion, podrias ver 500ms. En celular, 1-2 segundos. En conexion debil (ascensor, metro, area rural), 3+ segundos o timeout.

    El efecto acumulativo

    Estas latencias impactan en cada interaccion individual. Una conversacion de 5 turnos con una API en la nube significa que el usuario espera 5 veces. Cada espera refuerza la percepcion de que la funcion es lenta. Despues de 3-4 interacciones, muchos usuarios dejan de usar la funcion por completo.

    Investigacion de Google encontro que el 53% de usuarios moviles abandonan una pagina que tarda mas de 3 segundos en cargar. Las funciones de IA enfrentan el mismo umbral, pero el estandar es aun mas alto porque los usuarios comparan los tiempos de respuesta de IA con la retroalimentacion instantanea de cada otro elemento de UI en la app.

    Por que movil es peor que escritorio

    Las apps de escritorio llamando APIs de IA tienen una ventaja estructural: tipicamente funcionan en conexiones WiFi o ethernet estables. Movil agrega varias capas de latencia:

    Variabilidad celular: La latencia 4G promedia 50-100ms pero sube a 300-500ms durante congestion. 5G es mejor en condiciones ideales pero inconsistente en la practica.

    Cambio de conexion: Moverse entre WiFi y celular (entrar/salir de un edificio) puede causar interrupciones de 1-2 segundos mientras la conexion se restablece.

    Transiciones primer plano/segundo plano: iOS y Android suspenden conexiones de red cuando las apps estan en segundo plano. Cuando el usuario regresa, la conexion puede necesitar restablecerse.

    Distancia geografica: Los servidores de API tipicamente estan en US-East o US-West. Usuarios en el sudeste asiatico, Africa o Sudamerica agregan 100-300ms de puro tiempo de transito de red.

    El impacto en UX

    Los spinners de carga matan el engagement

    Cada spinner de carga es un momento donde el usuario puede decidir hacer otra cosa. En movil, "otra cosa" esta a un deslizamiento de distancia. El cambiador de apps siempre esta disponible.

    Pruebas A/B de multiples equipos moviles han mostrado que funciones de IA con mas de 1 segundo de latencia ven tasas de completado 30-40% menores comparadas con funciones sub-segundo. La funcion opera de forma identica. La unica diferencia es la velocidad percibida.

    El streaming ayuda, pero tiene limites

    El streaming token por token (Server-Sent Events) reduce la latencia percibida mostrando la salida mientras se genera. El usuario ve las primeras palabras rapidamente, lo que da la impresion de capacidad de respuesta.

    El streaming mejora la experiencia pero no elimina el problema:

    • El tiempo hasta el primer token sigue siendo 500-2,000ms
    • En conexiones debiles, los streams SSE se almacenan en buffer, creando tartamudeo visible
    • Cada chunk transmitido agrega su propia sobrecarga de red

    La brecha sin conexion

    La peor latencia es infinita. Cuando el usuario no tiene conexion, la API en la nube no devuelve nada. La funcion falla completamente.

    Esto no es un caso extremo en movil. Los usuarios estan regularmente en metros, ascensores, aviones, areas rurales y ubicaciones internacionales sin datos. Una funcion que falla en estos momentos entrena a los usuarios para no confiar en ella.

    La alternativa en el dispositivo

    La inferencia en el dispositivo elimina la latencia de red por completo. El modelo se ejecuta en el telefono del usuario. La ruta desde la entrada hasta la salida nunca toca la red.

    MetricaAPI en la nubeEn el dispositivo
    Tiempo hasta primer token500-2,000ms50-200ms
    Respuesta completa (100 tokens)2-5 segundos1-3 segundos
    Sin conexionFallaFunciona
    Latencia en conexion debil3-10+ segundosIgual que conexion fuerte
    ConsistenciaVariableConsistente

    La diferencia es mas dramatica en el primer token. Los usuarios perciben 50ms como instantaneo. La respuesta parece comenzar "inmediatamente" despues de tocar enviar.

    Velocidad de generacion de tokens

    El hardware movil moderno genera tokens suficientemente rapido para una experiencia de chat responsiva:

    DispositivoModelo 1BModelo 3B
    iPhone 15 Pro35-45 tok/s18-25 tok/s
    Galaxy S2435-45 tok/s18-25 tok/s
    iPhone 1320-30 tok/s10-15 tok/s
    Android gama media18-25 tok/s8-12 tok/s

    A 20+ tokens por segundo, el texto aparece fluyendo suavemente. A 10+ tokens por segundo, es legible y usable. Ambos superan el umbral para una experiencia de chat comoda.

    Midiendo el impacto

    Rastrea estas metricas para cuantificar el problema de latencia en tu app:

    P50/P95 de tiempo hasta primer token: La mediana te dice la experiencia tipica. El P95 te dice la experiencia del peor 5% de tus usuarios. Si el P95 excede 3 segundos, el 5% de tus usuarios esta teniendo una mala experiencia en cada interaccion.

    Tasa de completado de funcion: Que porcentaje de usuarios que inician una interaccion de IA la completan (esperan y leen la respuesta)? Compara esto con funciones no-IA en tu app.

    Tasa de reintentos: Con que frecuencia los usuarios tocan "enviar" otra vez porque creyeron que la primera solicitud fallo? Tasas altas de reintentos indican timeouts percibidos.

    Retencion de funcion de IA (D7/D30): Los usuarios que prueban la funcion de IA vuelven a usarla? Baja retencion a pesar de alta prueba inicial sugiere un problema de UX, y la latencia es la causa mas comun.

    La solucion

    La solucion arquitectonica es mover la inferencia al dispositivo. Fine-tunea un modelo pequeno (1-3B parametros) en tu tarea especifica, exporta como GGUF, y ejecutalo localmente via llama.cpp.

    El camino:

    1. Mide tu latencia actual de API en la nube (P50 y P95)
    2. Identifica que funciones de IA son sensibles a la latencia (cualquier funcion donde los usuarios esperan una respuesta)
    3. Recopila datos de entrenamiento de tus logs de API existentes
    4. Fine-tunea un modelo especifico de dominio usando una plataforma como Ertas
    5. Despliega en el dispositivo y mide la mejora de latencia
    6. Haz pruebas A/B del engagement de usuarios entre nube y dispositivo

    La mejora de latencia por si sola frecuentemente impulsa un aumento medible en el engagement de la funcion. Cuando agregas soporte sin conexion y eliminacion de costos, el caso se vuelve definitivo.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading