MLX + Ertas

使用 Apple 专为 M 系列芯片统一内存架构设计的机器学习框架 MLX，在 Apple Silicon Mac 上部署 Ertas 微调的模型，实现快速高效的本地推理。

Overview

MLX 是 Apple 专为 Apple Silicon 构建的开源机器学习框架。与将 GPU 视为独立加速器的通用 ML 框架不同，MLX 围绕 M1、M2、M3 和 M4 芯片的统一内存架构设计——CPU、GPU 和 Neural Engine 共享同一内存池。这消除了限制传统硬件推理速度的数据传输瓶颈，使消费级 Mac 硬件上的 LLM 推理出人意料地快速。在昂贵 GPU 服务器上才能运行的模型可以在 MacBook Pro 上交互式运行。

MLX 生态系统增长迅速，mlx-lm 提供了加载、量化和提供语言模型服务的简洁管道。它支持常见的量化格式（4 位、8 位）、LoRA 适配器合并和兼容 OpenAI 的服务器模式。对于在 Apple Silicon 上工作的开发者和小型团队来说，MLX 提供了云推理的有力替代——本地、私密、快速，且没有按 token 计费。该框架对于已经在 Mac 上工作并希望无需配置 GPU 基础设施即可部署微调模型的独立开发者、顾问和团队特别有吸引力。

How Ertas Integrates

Ertas Studio 生产的微调模型可以转换为 MLX 格式，在 Apple Silicon 上原生部署。在针对领域特定数据训练模型后——无论是编码模式、客服回复还是专业内容——您从 Ertas 导出并使用 mlx-lm 的转换工具进行转换。转换后的模型直接在 Mac 的统一内存上运行，对于能放入可用 RAM 的模型来说，推理速度可与专用 GPU 设置相媲美。

这个工作流对于使用 Apple 硬件的独立开发者和小型团队特别强大。在 Ertas Studio 中使用项目数据微调模型，使用 4 位量化转换为 MLX 格式以适应 Mac 的内存，并使用 mlx-lm 的内置服务器在本地提供服务。服务器暴露兼容 OpenAI 的端点，可与编码助手、聊天界面和自定义应用集成。整个管道——从训练数据整理到微调再到本地部署——将数据保留在您的硬件上，无需云 GPU 租赁或 API 订阅。

Getting Started

1
在 Ertas Studio 中微调模型
准备领域特定数据集并在 Ertas Studio 中运行微调。选择参数数量适合 Mac 统一内存的基础模型——7B 到 14B 的模型在 32GB 或更多 RAM 的机器上运行良好。
2
导出并转换为 MLX 格式
从 Ertas 以 safetensors 格式导出微调模型。使用 mlx-lm 的 convert 工具将其转换为 MLX 原生格式，应用 4 位或 8 位量化以优化 Apple Silicon 硬件上的内存使用和推理速度。
3
在本地验证模型
使用 mlx-lm 加载转换后的模型并运行测试提示以验证质量。检查模型的输出是否反映您的训练数据——正确的规范、正确的术语和准确的领域知识。
4
通过兼容 OpenAI 的端点提供服务
启动 mlx-lm 的内置服务器，将微调模型暴露为本地 API 端点。根据您的用例进行配置——编码助手集成、应用后端或交互式聊天——设置适当的上下文长度和生成设置。
5
与您的开发工具集成
将您的编码助手（Cursor、Continue.dev 或 Aider）或自定义应用指向本地 MLX 端点。您的微调模型现在在 Mac 上原生驱动 AI 功能，零外部依赖。