MLX + Ertas

Despliega modelos ajustados de Ertas en Macs con Apple Silicon usando MLX, el framework de machine learning de Apple diseñado para aprovechar la arquitectura de memoria unificada de los chips serie M para inferencia local rápida y eficiente.

Overview

MLX es el framework de machine learning de código abierto de Apple construido específicamente para Apple Silicon. A diferencia de los frameworks de ML de propósito general que tratan las GPUs como aceleradores discretos, MLX está diseñado en torno a la arquitectura de memoria unificada de los chips M1, M2, M3 y M4 — donde CPU, GPU y Neural Engine comparten el mismo pool de memoria. Esto elimina el cuello de botella de transferencia de datos que limita la velocidad de inferencia en hardware tradicional, permitiendo una inferencia de LLM sorprendentemente rápida en hardware Mac de consumo. Modelos que requerirían costosos servidores GPU pueden ejecutarse interactivamente en un MacBook Pro.

El ecosistema de MLX ha crecido rápidamente, con mlx-lm proporcionando un pipeline directo para cargar, cuantizar y servir modelos de lenguaje. Soporta formatos comunes de cuantización (4-bit, 8-bit), fusión de adaptadores LoRA y un modo servidor compatible con OpenAI. Para desarrolladores y equipos pequeños trabajando en Apple Silicon, MLX ofrece una alternativa convincente a la inferencia en la nube — local, privada, rápida y libre de costos por token. El framework es particularmente atractivo para desarrolladores independientes, consultores y equipos que ya trabajan en Macs y quieren desplegar modelos ajustados sin aprovisionar infraestructura GPU.

How Ertas Integrates

Ertas Studio produce modelos ajustados que pueden convertirse al formato MLX para despliegue nativo en Apple Silicon. Después de entrenar un modelo con tus datos específicos de dominio — ya sean patrones de codificación, respuestas de soporte al cliente o contenido especializado — lo exportas desde Ertas y lo conviertes usando las herramientas de conversión de mlx-lm. El modelo convertido se ejecuta directamente en la memoria unificada de tu Mac, con velocidades de inferencia que rivalizan con configuraciones de GPU dedicadas para modelos que caben en la RAM disponible.

Este flujo de trabajo es especialmente potente para desarrolladores independientes y equipos pequeños con hardware Apple. Ajusta un modelo en Ertas Studio usando los datos de tu proyecto, conviértelo al formato MLX con cuantización de 4-bit para que quepa en la memoria de tu Mac, y sírvelo localmente con el servidor integrado de mlx-lm. El servidor expone un endpoint compatible con OpenAI que se integra con asistentes de codificación, interfaces de chat y aplicaciones personalizadas. Todo el pipeline — desde la curación de datos de entrenamiento pasando por el fine-tuning hasta el despliegue local — mantiene tus datos en tu hardware y no requiere alquilar GPUs en la nube ni suscripciones a APIs.

Getting Started

1
Ajusta un modelo en Ertas Studio
Prepara tu dataset específico de dominio y ejecuta el fine-tuning en Ertas Studio. Selecciona un modelo base con un número de parámetros que quepa en la memoria unificada de tu Mac — modelos de 7B a 14B funcionan bien en máquinas con 32GB o más de RAM.
2
Exporta y convierte al formato MLX
Exporta el modelo ajustado desde Ertas en formato safetensors. Usa la herramienta de conversión de mlx-lm para transformarlo al formato nativo de MLX, aplicando cuantización de 4-bit u 8-bit para optimizar el uso de memoria y la velocidad de inferencia en tu hardware Apple Silicon.
3
Valida el modelo localmente
Carga el modelo convertido con mlx-lm y ejecuta prompts de prueba para verificar la calidad. Comprueba que las salidas del modelo reflejen tus datos de entrenamiento — convenciones correctas, terminología apropiada y conocimiento de dominio preciso.
4
Sirve mediante endpoint compatible con OpenAI
Inicia el servidor integrado de mlx-lm para exponer tu modelo ajustado como endpoint API local. Configúralo para tu caso de uso — integración con asistente de codificación, backend de aplicación o chat interactivo — con la longitud de contexto y configuración de generación apropiadas.
5
Integra con tus herramientas de desarrollo
Apunta tu asistente de codificación (Cursor, Continue.dev o Aider) o aplicación personalizada al endpoint local de MLX. Tu modelo ajustado ahora potencia funciones de IA nativamente en tu Mac sin dependencias externas.

Benefits

Rendimiento nativo en Apple Silicon aprovechando la arquitectura de memoria unificada para inferencia rápida
Sin costos de servidor GPU — ejecuta modelos ajustados en hardware que ya posees
Privacidad total de datos con un pipeline completamente local de exportación de entrenamiento e inferencia
La cuantización de 4-bit permite ejecutar modelos capaces en MacBooks con 16-32GB de RAM
Modo servidor compatible con OpenAI para integración directa con herramientas y aplicaciones existentes
Ideal para desarrolladores independientes y equipos pequeños que ya trabajan en el ecosistema Apple