MLX + Ertas

使用 Apple 專為利用 M 系列晶片統一記憶體架構而設計的機器學習框架 MLX，在 Apple Silicon Mac 上部署 Ertas 微調的模型，實現快速高效的本地推理。

Overview

MLX 是 Apple 專門為 Apple Silicon 建構的開源機器學習框架。與將 GPU 視為離散加速器的通用 ML 框架不同，MLX 是圍繞 M1、M2、M3 和 M4 晶片的統一記憶體架構設計的——CPU、GPU 和神經引擎共享同一記憶體池。這消除了限制傳統硬體推理速度的資料傳輸瓶頸，使消費級 Mac 硬體上的 LLM 推理速度令人驚訝。在昂貴 GPU 伺服器上才能運行的模型可以在 MacBook Pro 上互動式運行。

MLX 生態系統增長迅速，mlx-lm 提供了載入、量化和服務語言模型的直觀管線。它支援常見的量化格式（4 位元、8 位元）、LoRA 適配器合併和 OpenAI 相容伺服器模式。對於在 Apple Silicon 上工作的開發者和小型團隊，MLX 提供了雲端推理的引人注目替代方案——本地、私密、快速且無按令牌成本。該框架對於已經在 Mac 上工作且希望無需配置 GPU 基礎設施即可部署微調模型的獨立開發者、顧問和團隊特別有吸引力。

How Ertas Integrates

Ertas Studio 產生的微調模型可以轉換為 MLX 格式以在 Apple Silicon 上原生部署。在您的領域特定資料上訓練模型後——無論是程式設計模式、客戶支援回應還是專業內容——您從 Ertas 匯出並使用 mlx-lm 的轉換工具進行轉換。轉換後的模型直接在 Mac 的統一記憶體上運行，對於能放入可用 RAM 的模型，推理速度可與專用 GPU 設定媲美。

此工作流程對使用 Apple 硬體的獨立開發者和小型團隊特別強大。在 Ertas Studio 中使用您專案的資料微調模型，以 4 位元量化轉換為 MLX 格式以適應 Mac 的記憶體，並使用 mlx-lm 的內建伺服器在本地提供服務。伺服器暴露 OpenAI 相容端點，與程式設計助手、聊天介面和自訂應用程式整合。整個管線——從訓練資料策劃到微調再到本地部署——將您的資料保留在硬體上，不需要雲端 GPU 租賃或 API 訂閱。

Getting Started

1
在 Ertas Studio 中微調模型
準備領域特定資料集並在 Ertas Studio 中運行微調。選擇參數數量適合 Mac 統一記憶體的基礎模型——32GB 或更多 RAM 的機器上 7B 到 14B 模型效果良好。
2
匯出並轉換為 MLX 格式
從 Ertas 以 safetensors 格式匯出微調模型。使用 mlx-lm 的轉換工具將其轉換為 MLX 的原生格式，應用 4 位元或 8 位元量化以最佳化 Apple Silicon 硬體上的記憶體使用和推理速度。
3
在本地驗證模型
使用 mlx-lm 載入轉換後的模型並運行測試提示以驗證品質。檢查模型的輸出是否反映您的訓練資料——正確的慣例、適當的術語和準確的領域知識。
4
透過 OpenAI 相容端點提供服務
啟動 mlx-lm 的內建伺服器將微調模型暴露為本地 API 端點。根據使用場景進行設定——程式設計助手整合、應用程式後端或互動式聊天——選擇適當的上下文長度和生成設定。
5
與您的開發工具整合
將您的程式設計助手（Cursor、Continue.dev 或 Aider）或自訂應用程式指向本地 MLX 端點。您的微調模型現在在 Mac 上原生驅動 AI 功能，零外部依賴。