Fine-Tuning para Apple Silicon: Corriendo modelos personalizados en Macs M-Series
Una guía práctica para desplegar modelos de IA ajustados en Macs con Apple Silicon. Cubre capacidades de hardware M4, ventajas de memoria unificada, configuración de Ollama y MLX, opciones de cuantización y soporte de adaptadores LoRA en Core ML.
Apple Silicon tiene una ventaja silenciosa para inferencia local de IA que la mayoría de las personas subestiman: memoria unificada. La CPU, GPU y Neural Engine comparten el mismo pool de memoria — sin copia de datos entre VRAM separada y RAM del sistema. Para inferencia de modelos de lenguaje grandes, donde el ancho de banda de memoria es el cuello de botella principal, esta arquitectura es una ventaja competitiva genuina.
Si posees un Mac M-series, ya posees hardware capaz de inferencia de IA. Esta guía cubre cómo tomar un modelo ajustado de Ertas y desplegarlo localmente en tu Mac — sin APIs en la nube, sin alquiler de GPUs, sin facturación por token.
Qué puede correr tu Mac
El factor limitante para inferencia local de LLM es la memoria. Esto es lo que soporta cada tier de M-series:
| Mac | Memoria unificada | Modelos recomendados | Velocidad esperada |
|---|---|---|---|
| M1/M2/M3/M4 (base) | 8-16 GB | 1-3B cuantizado, 7B en Q4 (justo) | ~15-25 tok/s |
| M1/M2/M3/M4 Pro | 18-24 GB | 7-8B en Q5/Q8, 13B en Q4 | ~25-35 tok/s |
| M1/M2/M3/M4 Max | 32-128 GB | 13B en Q8, 70B en Q4 | ~15-30 tok/s |
| M2/M4 Ultra | 64-192 GB | 70B en Q8, múltiples modelos simultáneamente | ~20-35 tok/s |
El punto ideal para la mayoría de desarrolladores: Un M4 Pro (24 GB) corriendo un modelo ajustado de 8B en Q5_K_M o Q8_0. Esto entrega ~30+ tokens por segundo — lo suficientemente rápido para uso interactivo — con espacio para ventanas de contexto generosas.
Para orientación sobre elegir entre niveles de cuantización, consulta nuestra guía de cuantización.
Por qu é importa la memoria unificada
En un PC tradicional con GPU discreta, la inferencia de LLM funciona así:
- Los pesos del modelo viven en VRAM de GPU (limitada a 8-24 GB en tarjetas de consumo)
- Si el modelo no cabe en VRAM, partes se desbordan a RAM del sistema
- Acceder a RAM del sistema desde la GPU es 10-20x más lento que VRAM
- Este "offloading" mata el rendimiento
En Apple Silicon:
- Todo — CPU, GPU, Neural Engine — accede al mismo pool de memoria
- No hay distinción VRAM/RAM
- Un Mac con 64 GB de memoria unificada le da a la GPU acceso a los 64 GB a velocidad completa
- Sin penalización de offloading
Esto significa que un Mac Studio M4 Ultra con 192 GB de memoria unificada puede correr modelos que requerirían múltiples GPUs empresariales en una configuración tradicional. Para inferencia (no entrenamiento), Apple Silicon es sorprendentemente competitivo.
El stack de despliegue
Opción 1: Ollama (Más fácil)
Ollama es el camino más simple de modelo ajustado a correr inferencia en tu Mac.
Configuración:
- Instala Ollama:
brew install ollama - Ajusta tu modelo en Ertas y exporta como GGUF
- Crea un Modelfile apuntando a tu GGUF:
FROM ./your-fine-tuned-model.Q5_K_M.gguf - Importa:
ollama create my-model -f Modelfile - Ejecuta:
ollama run my-model
Ollama maneja toda la optimización de Apple Silicon automáticamente — usa Metal para aceleración GPU en chips M-series. No se necesita configuración.
Cuándo usar Ollama: Cuando quieres el camino más rápido para correr un modelo ajustado localmente. Excelente para desarrollo, pruebas, e inferencia de producción detrás de un endpoint API.
Opción 2: MLX (Rendimiento nativo de Apple)
MLX es el propio framework de machine learning de Apple, diseñado específicamente para Apple Silicon. Ofrece control de más bajo nivel y frecuentemente mejor rendimiento que Ollama en hardware M-series.
Ventajas sobre Ollama:
- Construido por Apple, optimizado para la jerarquía de memoria específica de chips M-series
- Soporta carga de adaptadores LoRA nativamente (intercambia adaptadores sin recargar el modelo base)
- Fine-tuning directamente en Mac es posible para modelos pequeños (aunque las GPUs en la nube de Ertas son más rápidas)
Cuándo usar MLX: Cuando necesitas máximo rendimiento en Apple Silicon, cuando quieres intercambiar adaptadores LoRA en caliente, o cuando estás construyendo una aplicación nativa macOS con funcionalidades de IA.
Opción 3: llama.cpp (Máximo control)
El motor subyacente que impulsa Ollama. Úsalo directamente cuando necesites tamaños de lote personalizados, configuraciones de threading específicas, o cuando integres con una aplicación personalizada vía la API de C/C++.
llama.cpp incluye soporte Metal para aceleración GPU de Apple Silicon de fábrica.
Cuándo usar llama.cpp: Cuando necesitas control granular sobre parámetros de inferencia o estás integrando inferencia en una aplicación compilada.
Core ML y adaptadores LoRA
El framework Core ML de Apple ahora soporta inferencia de adaptadores LoRA en el Neural Engine — el acelerador de IA dedicado integrado en cada chip M-series.
Esto importa por dos razones:
-
El intercambio de adaptadores es rápido. Carga un modelo base una vez, intercambia adaptadores LoRA para diferentes tareas sin recargar el modelo completo. Este es el mismo patrón que los fabricantes de hardware están construyendo en sus chips.
-
Eficiencia del Neural Engine. El ANE (Apple Neural Engine) está optimizado para niveles de cuantización y arquitecturas de modelo específicas. Correr inferencia en el ANE puede ser más eficiente energéticamente que la inferencia en GPU, extendiendo la vida de batería en MacBooks.
Apple publicó un paper de investigación demostrando Llama 3.1 8B corriendo localmente vía Core ML a ~33 tokens/seg en M1 Max. Los chips M4 series son más rápidos.
El flujo de trabajo de extremo a extremo
Este es el flujo de trabajo completo desde datos de dominio hasta correr inferencia en tu Mac:
1. Ajusta en GPUs en la nube (vía Ertas)
Fine-tuning requiere cómputo GPU que es impráctico en hardware de consumo — incluso Macs potentes. El M4 Max puede ajustar modelos 7B vía MLX, pero es lento (horas vs. minutos en GPUs en la nube) y ata tu máquina.
Usa Ertas para ajustar en GPUs en la nube: sube tu dataset, configura el entrenamiento visualmente, monitorea los resultados. El entrenamiento ocurre en minutos, no horas.
2. Exporta como GGUF
Exporta tu modelo ajustado de Ertas como GGUF en tu nivel de cuantización objetivo:
- Q4_K_M para Macs con memoria limitada (8-16 GB)
- Q5_K_M para calidad de producción en Macs con 24 GB+
- Q8_0 para máxima calidad en Macs con 32 GB+
También puedes exportar como un adaptador LoRA separado si quieres usar intercambio de adaptadores vía MLX o Core ML.
3. Carga en Ollama
Importa tu GGUF en Ollama y comienza a servir inferencia. Ollama expone una API compatible con OpenAI por defecto, así que cualquier aplicación que hable con la API de OpenAI puede apuntar a tu modelo local con un cambio de configuración de una línea.
4. Integra con tu stack
Tu modelo ajustado corriendo en Ollama en tu Mac puede servir:
- Flujos de trabajo n8n vía el nodo de Ollama (reemplaza llamadas a la API de OpenAI)
- Aplicaciones web vía la API REST (localhost:11434)
- Herramientas CLI vía la interfaz de línea de comandos de Ollama
- Aplicaciones personalizadas vía las bibliotecas cliente de Python o JavaScript
5. Corre a cero costo marginal
Una vez que el modelo está cargado, cada consulta cuesta solo electricidad. Sin facturación por token. Sin límites de tasa de API. Sin datos saliendo de tu máquina.
Para un desarrollador independiente procesando 50,000 consultas por mes, la diferencia entre costos de API en la nube ($500-2,000/mes) e inferencia local en un Mac que ya posees ($10-15/mes de electricidad) es la diferencia entre un negocio viable y quemar dinero.
Consejos de optimización de rendimiento
Ajusta la longitud de contexto a tus necesidades
Ventanas de contexto más largas consumen más memoria (el KV cache crece linealmente con la longitud del contexto). Si tu caso de uso solo necesita 2K de contexto (muchas tareas de clasificación y extracción), establece la ventana de contexto acorde. Esto libera memoria para los pesos del modelo y mejora la velocidad.
Usa la cuantización correcta para tu memoria
No uses simplemente la cuantización más alta que tu Mac técnicamente puede cargar. Deja espacio para el KV cache, el sistema operativo y tus otras aplicaciones. Un modelo que apenas cabe será más lento debido a la presión de memoria.
Regla segura: El tamaño del archivo del modelo no debería ser más del 60-70% de tu memoria unificada total para operación cómoda.
Agrupa consultas relacionadas
Si estás procesando muchas entradas similares (clasificación de documentos, extracción de datos), agrúpalas a través de un script en lugar de chat interactivo. Esto mantiene el modelo cargado y evita overhead de arranque en frío.
Considera un Mac dedicado para inferencia
Para agencias o equipos corriendo inferencia de IA como servicio, un Mac Mini M4 Pro ($1,600-2,000) o Mac Studio M4 Max ($3,000-5,000) es un excelente servidor de inferencia dedicado. Bajo consumo de energía, operación silenciosa, y suficiente memoria para cargas de trabajo de producción.
Compara eso con una GPU en la nube a $800-1,500/mes. El Mac se paga solo en 2-4 meses.
Cuándo NO usar Apple Silicon para inferencia
Apple Silicon es excelente para inferencia pero no siempre la elección correcta:
- Cargas de trabajo críticas en throughput: Si necesitas servir cientos de usuarios concurrentes, servidores GPU dedicados (o silicon dedicado como Taalas HC1) superarán a un Mac
- Modelos más grandes que tu memoria: Si tu modelo requiere más memoria de la que tiene tu Mac, necesitas hardware más grande
- Fine-tuning en sí: Entrenar en GPUs en la nube vía Ertas es más rápido y más costo-efectivo que entrenar en el dispositivo (excepto para experimentos pequeños)
Para todo lo demás — desarrollo, pruebas, inferencia de producción para usuario individual o equipo pequeño, despliegues sensibles a la privacidad, y apps indie conscientes del costo — Apple Silicon es una opción fuerte.
Primeros pasos
- Verifica la memoria unificada de tu Mac: Menú Apple → Acerca de este Mac → Memoria
- Consulta la tabla anterior para ver qué modelos puedes correr
- Ajusta en Ertas — sube tus datos de dominio, entrena visualmente, exporta como GGUF
- Instala Ollama:
brew install ollama - Importa tu modelo y comienza a hacer consultas
Tu modelo de IA ajustado, corriendo en hardware que ya posees, a cero costo por consulta. Esa es la promesa de IA local — y en Apple Silicon, funciona bien hoy.
Referencias: Apple Core ML — On-Device Llama, SitePoint — Guide to Local LLMs in 2026, XDA — Apple's Sleeper Advantage for Local LLMs, Best Local LLMs for Apple Silicon 2026.
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading

Running AI Models Locally: The Complete Guide to Local LLM Inference
Everything you need to know about running large language models on your own hardware — from hardware requirements and model formats to tools like Ollama, LM Studio, and llama.cpp.

Building Reliable AI Agents with Fine-Tuned Local Models: Complete Guide
Most AI agents are just GPT-4 wrappers — expensive, unreliable at scale, and dependent on cloud APIs. Fine-tuned local models hit 98%+ accuracy on your specific tools at zero per-query cost. Here's the complete architecture.

Quantization Levels Explained: Q4 vs Q5 vs Q8 and When Each Matters
A practical guide to choosing GGUF quantization levels for local AI deployment. Covers Q4_K_M, Q5_K_M, Q8_0, and how hardware constraints, fine-tuning, and use case requirements determine the right quantization for your model.