MLX + Ertas
使用 Apple 專為利用 M 系列晶片統一記憶體架構而設計的機器學習框架 MLX,在 Apple Silicon Mac 上部署 Ertas 微調的模型,實現快速高效的本地推理。
Overview
MLX 是 Apple 專門為 Apple Silicon 建構的開源機器學習框架。與將 GPU 視為離散加速器的通用 ML 框架不同,MLX 是圍繞 M1、M2、M3 和 M4 晶片的統一記憶體架構設計的——CPU、GPU 和神經引擎共享同一記憶體池。這消除了限制傳統硬體推理速度的資料傳輸瓶頸,使消費級 Mac 硬體上的 LLM 推理速度令人驚訝。在昂貴 GPU 伺服器上才能運行的模型可以在 MacBook Pro 上互動式運行。
MLX 生態系統增長迅速,mlx-lm 提供了載入、量化和服務語言模型的直觀管線。它支援常見的量化格式(4 位元、8 位元)、LoRA 適配器合併和 OpenAI 相容伺服器模式。對於在 Apple Silicon 上工作的開發者和小型團隊,MLX 提供了雲端推理的引人注目替代方案——本地、私密、快速且無按令牌成本。該框架對於已經在 Mac 上工作且希望無需配置 GPU 基礎設施即可部署微調模型的獨立開發者、顧問和團隊特別有吸引力。
How Ertas Integrates
Ertas Studio 產生的微調模型可以轉換為 MLX 格式以在 Apple Silicon 上原生部署。在您的領域特定資料上訓練模型後——無論是程式設計模式、客戶支援回應還是專業內容——您從 Ertas 匯出並使用 mlx-lm 的轉換工具進行轉換。轉換後的模型直接在 Mac 的統一記憶體上運行,對於能放入可用 RAM 的模型,推理速度可與專用 GPU 設定媲美。
此工作流程對使用 Apple 硬體的獨立開發者和小型團隊特別強大。在 Ertas Studio 中使用您專案的資料微調模型,以 4 位元量化轉換為 MLX 格式以適應 Mac 的記憶體,並使用 mlx-lm 的內建伺服器在本地提供服務。伺服器暴露 OpenAI 相容端點,與程式設計助手、聊天介面和自訂應用程式整合。整個管線——從訓練資料策劃到微調再到本地部署——將您的資料保留在硬體上,不需要雲端 GPU 租賃或 API 訂閱。
Getting Started
- 1
在 Ertas Studio 中微調模型
準備領域特定資料集並在 Ertas Studio 中運行微調。選擇參數數量適合 Mac 統一記憶體的基礎模型——32GB 或更多 RAM 的機器上 7B 到 14B 模型效果良好。
- 2
匯出並轉換為 MLX 格式
從 Ertas 以 safetensors 格式匯出微調模型。使用 mlx-lm 的轉換工具將其轉換為 MLX 的原生格式,應用 4 位元或 8 位元量化以最佳化 Apple Silicon 硬體上的記憶體使用和推理速度。
- 3
在本地驗證模型
使用 mlx-lm 載入轉換後的模型並運行測試提示以驗證品質。檢查模型的輸出是否反映您的訓練資料——正確的慣例、適當的術語和準確的領域知識。
- 4
透過 OpenAI 相容端點提供服務
啟動 mlx-lm 的內建伺服器將微調模型暴露為本地 API 端點。根據使用場景進行設定——程式設計助手整合、應用程式後端或互動式聊天——選擇適當的上下文長度和生成設定。
- 5
與您的開發工具整合
將您的程式設計助手(Cursor、Continue.dev 或 Aider)或自訂應用程式指向本地 MLX 端點。您的微調模型現在在 Mac 上原生驅動 AI 功能,零外部依賴。
Benefits
- 原生 Apple Silicon 效能,利用統一記憶體架構實現快速推理
- 無 GPU 伺服器成本——在您已擁有的硬體上運行微調模型
- 完全本地的訓練匯出和推理管線確保完整資料隱私
- 4 位元量化使具有 16-32GB RAM 的 MacBook 也能運行有能力的模型
- OpenAI 相容伺服器模式可與現有工具和應用程式即插即用整合
- 非常適合已在 Apple 生態系統中工作的獨立開發者和小型團隊
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.