Back to blog
    Pueden los LLMs ejecutarse en iPhones? Benchmarks y rendimiento real
    iPhonebenchmarkson-device AIllama.cppiOSperformancesegment:mobile-builder

    Pueden los LLMs ejecutarse en iPhones? Benchmarks y rendimiento real

    Datos reales de benchmarks para ejecutar LLMs en iPhones via llama.cpp. Velocidades de generacion de tokens, uso de memoria y comportamiento termico en modelos de iPhone desde el iPhone 12 hasta el iPhone 16 Pro.

    EErtas Team·

    Si. Los iPhones modernos ejecutan modelos de lenguaje de 1-3B parametros a velocidades conversacionales. Los chips serie A, combinados con aceleracion GPU Metal en llama.cpp, entregan 15-45 tokens por segundo dependiendo del modelo y dispositivo.

    Esto no es una demo tecnica. Es rendimiento viable para produccion en funciones reales de IA movil.

    El hardware

    Cada iPhone desde el iPhone 12 (A14, 2020) tiene suficiente computo y memoria para ejecutar modelos de lenguaje pequenos. Las especificaciones clave:

    iPhoneChipRAMNeural EngineNucleos GPU
    iPhone 12A144GB16 nucleos4 nucleos
    iPhone 13A154GB16 nucleos4/5 nucleos
    iPhone 14A15/A166GB16 nucleos5 nucleos
    iPhone 14 ProA166GB16 nucleos5 nucleos
    iPhone 15A166GB16 nucleos5 nucleos
    iPhone 15 ProA17 Pro8GB16 nucleos6 nucleos
    iPhone 16A188GB16 nucleos5 nucleos
    iPhone 16 ProA18 Pro8GB16 nucleos6 nucleos

    El numero critico es la RAM. El modelo debe caber en la memoria disponible (RAM total menos lo que usan iOS y otros procesos). En la practica:

    • Dispositivos de 4GB (iPhone 12/13): Solo modelos 1B, memoria ajustada
    • Dispositivos de 6GB (iPhone 14/15): 1B comodo, 3B posible con cuantizacion Q4
    • Dispositivos de 8GB (iPhone 15 Pro/16): 1B y 3B comodos, 7B posible con cuantizacion agresiva

    Resultados de benchmarks

    Todos los benchmarks usan llama.cpp con aceleracion GPU Metal. Los modelos estan en formato GGUF con cuantizacion Q4_K_M salvo que se indique lo contrario. Las pruebas se ejecutan con 2048 de longitud de contexto. Los tokens por segundo se miden durante la generacion (no el procesamiento del prompt).

    Modelos de 1B parametros (~600MB GGUF Q4)

    DispositivoTokens/segundoTiempo hasta primer tokenUso de memoria
    iPhone 16 Pro (A18 Pro)40-5080-120ms~800MB
    iPhone 15 Pro (A17 Pro)35-45100-150ms~800MB
    iPhone 15 (A16)28-35120-180ms~800MB
    iPhone 14 (A15)25-32130-200ms~800MB
    iPhone 13 (A15)22-28150-220ms~800MB
    iPhone 12 (A14)18-24180-250ms~800MB

    Cada iPhone de los ultimos 4+ anos ejecuta modelos 1B lo suficientemente rapido para chat en tiempo real. Incluso el iPhone 12 a 18-24 tok/s produce texto mas rapido de lo que la mayoria de personas lee.

    Modelos de 3B parametros (~1.7GB GGUF Q4)

    DispositivoTokens/segundoTiempo hasta primer tokenUso de memoria
    iPhone 16 Pro (A18 Pro)22-28150-250ms~2.2GB
    iPhone 15 Pro (A17 Pro)18-25180-300ms~2.2GB
    iPhone 15 (A16)14-18250-400ms~2.2GB
    iPhone 14 (A16)14-18250-400ms~2.2GB
    iPhone 13 (A15)10-14350-500ms~2.2GB
    iPhone 12 (A14)No recomendadoN/AExcede memoria segura

    Los modelos 3B funcionan bien en dispositivos de 6GB+. El iPhone 15 Pro y la serie 16 entregan excelente rendimiento. El iPhone 13 es usable pero en el rango inferior. Los 4GB de RAM del iPhone 12 son demasiado ajustados para modelos 3B en produccion.

    Modelos de 7B parametros (~4GB GGUF Q4)

    DispositivoTokens/segundoTiempo hasta primer tokenUso de memoria
    iPhone 16 Pro (A18 Pro)8-12500-800ms~5GB
    iPhone 15 Pro (A17 Pro)6-10600-1,000ms~5GB
    Todos los demas iPhonesNo viableN/AExcede memoria disponible

    Los modelos 7B solo son practicos en dispositivos Pro de 8GB y aun asi fuerzan los limites de memoria. Para apps moviles, 1-3B es el rango practico.

    Que significan los numeros para UX

    Mas de 20 tok/s: El texto aparece fluyendo suavemente. Los usuarios perciben la respuesta como "instantanea." Ideal para chat, autocompletado y sugerencias inteligentes.

    10-20 tok/s: El texto es legible mientras se genera. Leve percepcion de velocidad de escritura. Aceptable para la mayoria de funciones.

    5-10 tok/s: Notablemente lento. Los usuarios pueden ver palabras individuales apareciendo. Aceptable para resumen (los usuarios esperan una espera) pero no para chat.

    Menos de 5 tok/s: Demasiado lento para funciones interactivas. Los usuarios abandonaran.

    Para la mayoria de funciones de IA movil, apuntar a modelos 1B para amplio soporte de dispositivos o modelos 3B en iPhone 14+ te da el mejor balance de calidad y rendimiento.

    Comportamiento termico

    La inferencia sostenida genera calor. En iPhones, el throttling termico puede reducir el rendimiento un 20-30% durante sesiones extendidas (5+ minutos de generacion continua).

    Impacto practico:

    • Interacciones cortas (1-3 turnos): Sin impacto termico
    • Sesiones medias (5-10 turnos): Leve disminucion de rendimiento en turnos posteriores
    • Generacion extendida (resumir documentos largos): Planifica velocidades 20-30% mas lentas despues del primer minuto

    Mitigacion: Agrega pausas breves entre generaciones. Incluso 2-3 segundos de tiempo inactivo permite que el chip se enfrie ligeramente. Para tareas de procesamiento por lotes, procesa en fragmentos en lugar de una generacion continua.

    Presion de memoria

    iOS recupera agresivamente la memoria de apps en segundo plano. Cuando tu modelo esta cargado (800MB-2.2GB en RAM), iOS puede terminar apps en segundo plano o, en casos extremos, tu propia app si el sistema esta bajo presion de memoria.

    Mejores practicas:

    • Carga el modelo solo cuando la funcion de IA esta activa
    • Libera la memoria del modelo cuando el usuario navega fuera
    • Maneja didReceiveMemoryWarning descargando el modelo
    • Verifica la memoria disponible antes de cargar: os_proc_available_memory()

    Que significa esto para desarrolladores

    Los datos de benchmarks respaldan una estrategia clara:

    1. Apunta a modelos 1B para amplia compatibilidad. Cada iPhone desde el 12 en adelante los ejecuta bien. Esto cubre mas del 95% de iPhones activos.

    2. Usa modelos 3B para funciones sensibles a la calidad en dispositivos mas nuevos. El iPhone 14+ (6GB RAM) maneja modelos 3B comodamente. Detecta la RAM disponible en tiempo de ejecucion y ofrece el modelo apropiado.

    3. Omite 7B para movil. La cobertura de dispositivos es demasiado estrecha y la presion de memoria demasiado alta. Si necesitas calidad de 7B, fine-tunea un modelo 3B con tus datos de dominio. Un 3B fine-tuned tipicamente supera a un 7B de proposito general en tareas especificas.

    4. Fine-tunea para tu dominio. Un modelo 1B fine-tuned supera a un modelo 3B con prompts en tareas especificas de dominio mientras se ejecuta 2x mas rapido. Plataformas como Ertas manejan el pipeline completo: sube datos de entrenamiento, fine-tunea con LoRA, exporta GGUF, despliega en el dispositivo.

    El hardware esta listo. El motor de inferencia (llama.cpp con Metal) esta maduro. El paso restante es poner el modelo correcto en el dispositivo.

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading