Fine-Tuning para Apple Silicon: Corriendo modelos personalizados en Macs M-Series

Apple Silicon tiene una ventaja silenciosa para inferencia local de IA que la mayoría de las personas subestiman: memoria unificada. La CPU, GPU y Neural Engine comparten el mismo pool de memoria — sin copia de datos entre VRAM separada y RAM del sistema. Para inferencia de modelos de lenguaje grandes, donde el ancho de banda de memoria es el cuello de botella principal, esta arquitectura es una ventaja competitiva genuina.

Si posees un Mac M-series, ya posees hardware capaz de inferencia de IA. Esta guía cubre cómo tomar un modelo ajustado de Ertas y desplegarlo localmente en tu Mac — sin APIs en la nube, sin alquiler de GPUs, sin facturación por token.

Qué puede correr tu Mac

El factor limitante para inferencia local de LLM es la memoria. Esto es lo que soporta cada tier de M-series:

Mac	Memoria unificada	Modelos recomendados	Velocidad esperada
M1/M2/M3/M4 (base)	8-16 GB	1-3B cuantizado, 7B en Q4 (justo)	~15-25 tok/s
M1/M2/M3/M4 Pro	18-24 GB	7-8B en Q5/Q8, 13B en Q4	~25-35 tok/s
M1/M2/M3/M4 Max	32-128 GB	13B en Q8, 70B en Q4	~15-30 tok/s
M2/M4 Ultra	64-192 GB	70B en Q8, múltiples modelos simultáneamente	~20-35 tok/s

El punto ideal para la mayoría de desarrolladores: Un M4 Pro (24 GB) corriendo un modelo ajustado de 8B en Q5_K_M o Q8_0. Esto entrega ~30+ tokens por segundo — lo suficientemente rápido para uso interactivo — con espacio para ventanas de contexto generosas.

Para orientación sobre elegir entre niveles de cuantización, consulta nuestra guía de cuantización.

Por qué importa la memoria unificada

En un PC tradicional con GPU discreta, la inferencia de LLM funciona así:

Los pesos del modelo viven en VRAM de GPU (limitada a 8-24 GB en tarjetas de consumo)
Si el modelo no cabe en VRAM, partes se desbordan a RAM del sistema
Acceder a RAM del sistema desde la GPU es 10-20x más lento que VRAM
Este "offloading" mata el rendimiento

En Apple Silicon:

Todo — CPU, GPU, Neural Engine — accede al mismo pool de memoria
No hay distinción VRAM/RAM
Un Mac con 64 GB de memoria unificada le da a la GPU acceso a los 64 GB a velocidad completa
Sin penalización de offloading

Esto significa que un Mac Studio M4 Ultra con 192 GB de memoria unificada puede correr modelos que requerirían múltiples GPUs empresariales en una configuración tradicional. Para inferencia (no entrenamiento), Apple Silicon es sorprendentemente competitivo.

El stack de despliegue

Opción 1: Ollama (Más fácil)

Ollama es el camino más simple de modelo ajustado a correr inferencia en tu Mac.

Configuración:

Instala Ollama: brew install ollama
Ajusta tu modelo en Ertas y exporta como GGUF

Crea un Modelfile apuntando a tu GGUF:

FROM ./your-fine-tuned-model.Q5_K_M.gguf

Importa: ollama create my-model -f Modelfile
Ejecuta: ollama run my-model

Ollama maneja toda la optimización de Apple Silicon automáticamente — usa Metal para aceleración GPU en chips M-series. No se necesita configuración.

Cuándo usar Ollama: Cuando quieres el camino más rápido para correr un modelo ajustado localmente. Excelente para desarrollo, pruebas, e inferencia de producción detrás de un endpoint API.

Opción 2: MLX (Rendimiento nativo de Apple)

MLX es el propio framework de machine learning de Apple, diseñado específicamente para Apple Silicon. Ofrece control de más bajo nivel y frecuentemente mejor rendimiento que Ollama en hardware M-series.

Ventajas sobre Ollama:

Construido por Apple, optimizado para la jerarquía de memoria específica de chips M-series
Soporta carga de adaptadores LoRA nativamente (intercambia adaptadores sin recargar el modelo base)
Fine-tuning directamente en Mac es posible para modelos pequeños (aunque las GPUs en la nube de Ertas son más rápidas)

Cuándo usar MLX: Cuando necesitas máximo rendimiento en Apple Silicon, cuando quieres intercambiar adaptadores LoRA en caliente, o cuando estás construyendo una aplicación nativa macOS con funcionalidades de IA.

Opción 3: llama.cpp (Máximo control)

El motor subyacente que impulsa Ollama. Úsalo directamente cuando necesites tamaños de lote personalizados, configuraciones de threading específicas, o cuando integres con una aplicación personalizada vía la API de C/C++.

llama.cpp incluye soporte Metal para aceleración GPU de Apple Silicon de fábrica.

Cuándo usar llama.cpp: Cuando necesitas control granular sobre parámetros de inferencia o estás integrando inferencia en una aplicación compilada.

Core ML y adaptadores LoRA

El framework Core ML de Apple ahora soporta inferencia de adaptadores LoRA en el Neural Engine — el acelerador de IA dedicado integrado en cada chip M-series.

Esto importa por dos razones:

El intercambio de adaptadores es rápido. Carga un modelo base una vez, intercambia adaptadores LoRA para diferentes tareas sin recargar el modelo completo. Este es el mismo patrón que los fabricantes de hardware están construyendo en sus chips.
Eficiencia del Neural Engine. El ANE (Apple Neural Engine) está optimizado para niveles de cuantización y arquitecturas de modelo específicas. Correr inferencia en el ANE puede ser más eficiente energéticamente que la inferencia en GPU, extendiendo la vida de batería en MacBooks.

Apple publicó un paper de investigación demostrando Llama 3.1 8B corriendo localmente vía Core ML a ~33 tokens/seg en M1 Max. Los chips M4 series son más rápidos.

El flujo de trabajo de extremo a extremo

Este es el flujo de trabajo completo desde datos de dominio hasta correr inferencia en tu Mac:

1. Ajusta en GPUs en la nube (vía Ertas)

Fine-tuning requiere cómputo GPU que es impráctico en hardware de consumo — incluso Macs potentes. El M4 Max puede ajustar modelos 7B vía MLX, pero es lento (horas vs. minutos en GPUs en la nube) y ata tu máquina.

Usa Ertas para ajustar en GPUs en la nube: sube tu dataset, configura el entrenamiento visualmente, monitorea los resultados. El entrenamiento ocurre en minutos, no horas.

2. Exporta como GGUF

Exporta tu modelo ajustado de Ertas como GGUF en tu nivel de cuantización objetivo:

Q4_K_M para Macs con memoria limitada (8-16 GB)
Q5_K_M para calidad de producción en Macs con 24 GB+
Q8_0 para máxima calidad en Macs con 32 GB+

También puedes exportar como un adaptador LoRA separado si quieres usar intercambio de adaptadores vía MLX o Core ML.

3. Carga en Ollama

Importa tu GGUF en Ollama y comienza a servir inferencia. Ollama expone una API compatible con OpenAI por defecto, así que cualquier aplicación que hable con la API de OpenAI puede apuntar a tu modelo local con un cambio de configuración de una línea.

4. Integra con tu stack

Tu modelo ajustado corriendo en Ollama en tu Mac puede servir:

Flujos de trabajo n8n vía el nodo de Ollama (reemplaza llamadas a la API de OpenAI)
Aplicaciones web vía la API REST (localhost:11434)
Herramientas CLI vía la interfaz de línea de comandos de Ollama
Aplicaciones personalizadas vía las bibliotecas cliente de Python o JavaScript

5. Corre a cero costo marginal

Una vez que el modelo está cargado, cada consulta cuesta solo electricidad. Sin facturación por token. Sin límites de tasa de API. Sin datos saliendo de tu máquina.

Para un desarrollador independiente procesando 50,000 consultas por mes, la diferencia entre costos de API en la nube ($500-2,000/mes) e inferencia local en un Mac que ya posees ($10-15/mes de electricidad) es la diferencia entre un negocio viable y quemar dinero.

Consejos de optimización de rendimiento

Ajusta la longitud de contexto a tus necesidades

Ventanas de contexto más largas consumen más memoria (el KV cache crece linealmente con la longitud del contexto). Si tu caso de uso solo necesita 2K de contexto (muchas tareas de clasificación y extracción), establece la ventana de contexto acorde. Esto libera memoria para los pesos del modelo y mejora la velocidad.

Usa la cuantización correcta para tu memoria

No uses simplemente la cuantización más alta que tu Mac técnicamente puede cargar. Deja espacio para el KV cache, el sistema operativo y tus otras aplicaciones. Un modelo que apenas cabe será más lento debido a la presión de memoria.

Regla segura: El tamaño del archivo del modelo no debería ser más del 60-70% de tu memoria unificada total para operación cómoda.

Agrupa consultas relacionadas

Si estás procesando muchas entradas similares (clasificación de documentos, extracción de datos), agrúpalas a través de un script en lugar de chat interactivo. Esto mantiene el modelo cargado y evita overhead de arranque en frío.

Considera un Mac dedicado para inferencia

Para agencias o equipos corriendo inferencia de IA como servicio, un Mac Mini M4 Pro ($1,600-2,000) o Mac Studio M4 Max ($3,000-5,000) es un excelente servidor de inferencia dedicado. Bajo consumo de energía, operación silenciosa, y suficiente memoria para cargas de trabajo de producción.

Compara eso con una GPU en la nube a $800-1,500/mes. El Mac se paga solo en 2-4 meses.

Cuándo NO usar Apple Silicon para inferencia

Apple Silicon es excelente para inferencia pero no siempre la elección correcta:

Cargas de trabajo críticas en throughput: Si necesitas servir cientos de usuarios concurrentes, servidores GPU dedicados (o silicon dedicado como Taalas HC1) superarán a un Mac
Modelos más grandes que tu memoria: Si tu modelo requiere más memoria de la que tiene tu Mac, necesitas hardware más grande
Fine-tuning en sí: Entrenar en GPUs en la nube vía Ertas es más rápido y más costo-efectivo que entrenar en el dispositivo (excepto para experimentos pequeños)

Para todo lo demás — desarrollo, pruebas, inferencia de producción para usuario individual o equipo pequeño, despliegues sensibles a la privacidad, y apps indie conscientes del costo — Apple Silicon es una opción fuerte.

Primeros pasos

Verifica la memoria unificada de tu Mac: Menú Apple → Acerca de este Mac → Memoria
Consulta la tabla anterior para ver qué modelos puedes correr
Ajusta en Ertas — sube tus datos de dominio, entrena visualmente, exporta como GGUF
Instala Ollama: brew install ollama
Importa tu modelo y comienza a hacer consultas

Tu modelo de IA ajustado, corriendo en hardware que ya posees, a cero costo por consulta. Esa es la promesa de IA local — y en Apple Silicon, funciona bien hoy.

Referencias: Apple Core ML — On-Device Llama, SitePoint — Guide to Local LLMs in 2026, XDA — Apple's Sleeper Advantage for Local LLMs, Best Local LLMs for Apple Silicon 2026.