MLX + Ertas
使用 Apple 专为 M 系列芯片统一内存架构设计的机器学习框架 MLX,在 Apple Silicon Mac 上部署 Ertas 微调的模型,实现快速高效的本地推理。
Overview
MLX 是 Apple 专为 Apple Silicon 构建的开源机器学习框架。与将 GPU 视为独立加速器的通用 ML 框架不同,MLX 围绕 M1、M2、M3 和 M4 芯片的统一内存架构设计——CPU、GPU 和 Neural Engine 共享同一内存池。这消除了限制传统硬件推理速度的数据传输瓶颈,使消费级 Mac 硬件上的 LLM 推理出人意料地快速。在昂贵 GPU 服务器上才能运行的模型可以在 MacBook Pro 上交互式运行。
MLX 生态系统增长迅速,mlx-lm 提供了加载、量化和提供语言模型服务的简洁管道。它支持常见的量化格式(4 位 、8 位)、LoRA 适配器合并和兼容 OpenAI 的服务器模式。对于在 Apple Silicon 上工作的开发者和小型团队来说,MLX 提供了云推理的有力替代——本地、私密、快速,且没有按 token 计费。该框架对于已经在 Mac 上工作并希望无需配置 GPU 基础设施即可部署微调模型的独立开发者、顾问和团队特别有吸引力。
How Ertas Integrates
Ertas Studio 生产的微调模型可以转换为 MLX 格式,在 Apple Silicon 上原生部署。在针对领域特定数据训练模型后——无论是编码模式、客服回复还是专业内容——您从 Ertas 导出并使用 mlx-lm 的转换工具进行转换。转换后的模型直接在 Mac 的统一内存上运行,对于能放入可用 RAM 的模型来说,推理速度可与专用 GPU 设置相媲美。
这个工作流对于使用 Apple 硬件的独立开发者和小型团队特别强大。在 Ertas Studio 中使用项目数据微调模型,使用 4 位量化转换为 MLX 格式以适应 Mac 的内存,并使用 mlx-lm 的内置服务器在本地提供服务。服务器暴露兼容 OpenAI 的端点,可与编码助手、聊天界面和自定义应用集成。整个管道——从训练数据整理到微调再到本地部署——将数据保留在您的硬件上,无需云 GPU 租赁或 API 订阅。
Getting Started
- 1
在 Ertas Studio 中微调模型
准备领域特定数据集并在 Ertas Studio 中运行微调。选择参数数量适合 Mac 统一内存的基础模型——7B 到 14B 的模型在 32GB 或更多 RAM 的机器上运行良好。
- 2
导出并转换为 MLX 格式
从 Ertas 以 safetensors 格式导出微调模型。使用 mlx-lm 的 convert 工具将其转换为 MLX 原生格式,应用 4 位或 8 位量化以优化 Apple Silicon 硬件上的内存使用和推理速度。
- 3
在本地验证模型
使用 mlx-lm 加载转换后的模型并运行测试提示以验证质量。检查模型的输出是否反映您的训练数据——正确的规范、正确的术语和准确的领域知识。
- 4
通过兼容 OpenAI 的端点提供服务
启动 mlx-lm 的内置服务器,将微调模型暴露为本地 API 端点。根据您的用例进行配置——编码助手集成、应用后端或交互式聊天——设置适当的上下文长度和生成设置。
- 5
与您的开发工具集成
将您的编码助手(Cursor、Continue.dev 或 Aider)或自定义应用指向本地 MLX 端点。您的微调模型现在在 Mac 上原生驱动 AI 功能,零外部依赖。
Benefits
- 利用统一内存架构的原生 Apple Silicon 性能实现快速推理
- 无需 GPU 服务器费用——在您已有的硬件上运行微调模型
- 完整的数据隐私,训练导出和推理管道完全本地化
- 4 位量化使 16-32GB RAM 的 MacBook 也能运行强大的模型
- 兼容 OpenAI 的服务器模式实现与现有工具和应用的即插即用集成
- 非常适合已在 Apple 生态系统中工作的独立开发者和小型团队
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.