Apple Silicon 微調：在 M 系列 Mac 上運行自訂模型

Apple Silicon 對於本地 AI 推理有一個大多數人低估的靜默優勢：統一記憶體。CPU、GPU 和神經引擎都共享同一個記憶體池——沒有在獨立的 VRAM 和系統 RAM 之間複製資料。對於大型語言模型推理（其中記憶體頻寬是主要瓶頸），這種架構是真正的競爭優勢。

如果你擁有 M 系列 Mac，你已經擁有了有能力的 AI 推理硬體。本指南介紹如何從 Ertas 獲取微調模型，並在你的 Mac 上本地部署——無雲 API、無 GPU 租賃、無按 token 計費。

你的 Mac 可以運行什麼

本地 LLM 推理的限制因素是記憶體。以下是每個 M 系列層級支援的內容：

Mac	統一記憶體	推薦模型	預期速度
M1/M2/M3/M4（基礎版）	8-16 GB	1-3B 量化，7B 在 Q4（緊張）	約 15-25 tok/s
M1/M2/M3/M4 Pro	18-24 GB	7-8B 在 Q5/Q8，13B 在 Q4	約 25-35 tok/s
M1/M2/M3/M4 Max	32-128 GB	13B 在 Q8，70B 在 Q4	約 15-30 tok/s
M2/M4 Ultra	64-192 GB	70B 在 Q8，同時多個模型	約 20-35 tok/s

大多數開發者的甜蜜點： 運行 Q5_K_M 或 Q8_0 的微調 8B 模型的 M4 Pro（24 GB）。這提供了超過 30 個 token/秒——足夠快用於互動式使用——並且有充足的上下文視窗空間。

有關選擇量化等級的指導，請參閱我們的量化指南。

為何統一記憶體很重要

在傳統帶獨立 GPU 的 PC 上，LLM 推理工作如下：

模型權重存在 GPU VRAM（消費者卡上限制在 8-24 GB）
如果模型不適合 VRAM，部分溢出到系統 RAM
從 GPU 訪問系統 RAM 比 VRAM 慢 10-20 倍
這種「卸載」會殺死性能

在 Apple Silicon 上：

一切——CPU、GPU、神經引擎——訪問同一個記憶體池
沒有 VRAM/RAM 區別
帶 64 GB 統一記憶體的 Mac 以全速給 GPU 訪問所有 64 GB
沒有卸載懲罰

這意味著帶有 192 GB 統一記憶體的 Mac Studio M4 Ultra 可以運行傳統設置上需要多個企業 GPU 的模型。對於推理（而非訓練），Apple Silicon 令人驚訝地具有競爭力。

部署堆疊

選項 1：Ollama（最簡單）

Ollama 是從微調模型到在 Mac 上運行推理的最簡單路徑。

設置：

安裝 Ollama：brew install ollama
在 Ertas 上微調你的模型並匯出為 GGUF

創建指向你的 GGUF 的 Modelfile：

FROM ./your-fine-tuned-model.Q5_K_M.gguf

導入：ollama create my-model -f Modelfile
運行：ollama run my-model

Ollama 自動處理所有 Apple Silicon 優化——它在 M 系列晶片上使用 Metal 進行 GPU 加速。不需要配置。

何時使用 Ollama： 當你想要最快的路徑在本地運行微調模型時。非常適合開發、測試和 API 端點後面的生產推理。

選項 2：MLX（Apple 原生性能）

MLX 是 Apple 自己的機器學習框架，專為 Apple Silicon 設計。它提供了更低層次的控制，通常在 M 系列硬體上比 Ollama 有更好的性能。

相比 Ollama 的優勢：

由 Apple 構建，針對 M 系列晶片的特定記憶體層次結構優化
本地支援 LoRA 適配器加載（在不重新加載基礎模型的情況下切換適配器）
可以直接在 Mac 上對小型模型進行微調（雖然 Ertas 雲 GPU 更快）

何時使用 MLX： 當你需要 Apple Silicon 上的最大性能、當你想要熱切換 LoRA 適配器，或者當你正在構建帶有 AI 功能的原生 macOS 應用程式時。

選項 3：llama.cpp（最大控制）

支撐 Ollama 的底層引擎。當你需要自訂批次大小、特定線程配置，或者通過 C/C++ API 與自訂應用程式整合時，直接使用它。

llama.cpp 開箱即用地包含對 Apple Silicon GPU 加速的 Metal 支援。

何時使用 llama.cpp： 當你需要對推理參數進行精細控制，或者將推理嵌入到已編譯的應用程式中時。

Core ML 和 LoRA 適配器

Apple 的 Core ML 框架現在支援在神經引擎上的 LoRA 適配器推理——每個 M 系列晶片中內置的專用 AI 加速器。

這對兩個原因很重要：

適配器切換速度快。 加載一次基礎模型，為不同任務切換 LoRA 適配器，無需重新加載完整模型。這是硬體供應商正在構建到他們的晶片中的相同模式。
神經引擎效率。 ANE（Apple Neural Engine）針對特定量化等級和模型架構進行了優化。在 ANE 上運行推理比 GPU 推理更節省電力，延長 MacBook 的電池壽命。

Apple 發表了一篇研究論文，展示 Llama 3.1 8B 通過 Core ML 在本地運行，在 M1 Max 上每秒約 33 個 token。M4 系列晶片更快。

端到端工作流程

以下是從領域資料到在 Mac 上運行推理的完整工作流程：

1. 在雲 GPU 上微調（通過 Ertas）

微調需要在消費者硬體上不切實際的 GPU 計算——即使是強大的 Mac 也是如此。M4 Max 可以通過 MLX 微調 7B 模型，但速度慢（幾小時 vs 雲 GPU 上的幾分鐘）並且佔用你的機器。

使用 Ertas 在雲 GPU 上微調：上傳你的資料集，視覺化配置訓練，監控結果。訓練在幾分鐘內完成，而不是幾小時。

2. 匯出為 GGUF

從 Ertas 以你的目標量化等級匯出你的微調模型：

Q4_K_M 用於記憶體受限的 Mac（8-16 GB）
Q5_K_M 用於 24 GB 以上 Mac 的生產品質
Q8_0 用於 32 GB 以上 Mac 的最高品質

你也可以匯出為獨立的 LoRA 適配器，如果你想通過 MLX 或 Core ML 使用適配器切換。

3. 加載到 Ollama

將你的 GGUF 導入 Ollama 並開始提供推理服務。Ollama 默認暴露 OpenAI 相容的 API，因此任何與 OpenAI API 通訊的應用程式都可以通過一行配置更改指向你的本地模型。

4. 與你的堆疊整合

在 Ollama 上運行在你的 Mac 上的微調模型可以服務：

n8n 工作流程通過 Ollama 節點（替換 OpenAI API 呼叫）
網路應用程式通過 REST API（localhost:11434）
CLI 工具通過 Ollama 的命令行界面
自訂應用程式通過 Python 或 JavaScript 客戶端庫

5. 以零邊際成本運行

一旦模型加載，每個查詢只花費電力。沒有按 token 計費。沒有 API 速率限制。沒有資料離開你的機器。

對於每月處理 50,000 次查詢的獨立開發者，雲 API 成本（每月 $500-2,000）和在你已經擁有的 Mac 上的本地推理（每月 $10-15 電力）之間的差異，就是可行業務和燒錢之間的差異。

性能優化技巧

將上下文長度與你的需求匹配

較長的上下文視窗消耗更多記憶體（KV 緩存隨上下文長度線性增長）。如果你的使用案例只需要 2K 上下文（許多分類和擷取任務），相應地設置上下文視窗。這釋放了模型權重的記憶體並提高了速度。

為你的記憶體使用正確的量化

不要只使用你的 Mac 技術上可以加載的最高量化。留出 KV 緩存、操作系統和其他應用程式的空間。勉強適合的模型由於記憶體壓力會更慢。

安全規則： 模型文件大小應不超過你總統一記憶體的 60-70%，以保持舒適操作。

批次相關查詢

如果你在處理許多類似的輸入（文件分類、資料擷取），通過腳本批次處理它們，而不是互動式聊天。這使模型保持加載狀態並避免冷啟動開銷。

考慮用於推理的專用 Mac

對於作為服務運行 AI 推理的代理商或團隊，Mac Mini M4 Pro（$1,600-2,000）或 Mac Studio M4 Max（$3,000-5,000）是優秀的專用推理伺服器。低功耗、靜音操作，以及足夠的記憶體用於生產工作負載。

與每月 $800-1,500 的雲 GPU 相比。Mac 在 2-4 個月內就能回收成本。

何時不使用 Apple Silicon 進行推理

Apple Silicon 對推理很好，但並不總是正確的選擇：

吞吐量關鍵的工作負載： 如果你需要服務數百個並發用戶，專用 GPU 伺服器（或像 Taalas HC1 這樣的專用矽）將超越 Mac
大於你記憶體的模型： 如果你的模型需要比你的 Mac 更多的記憶體，你需要更大的硬體
微調本身： 通過 Ertas 在雲 GPU 上訓練比在設備上訓練更快更具成本效益（除了小型實驗）

對於其他一切——開發、測試、單用戶或小型團隊生產推理、隱私敏感的部署，以及注重成本的獨立應用程式——Apple Silicon 是一個強有力的選擇。

開始

檢查你的 Mac 的統一記憶體：Apple 菜單 → 關於本機 → 記憶體
參考上表查看你可以運行哪些模型
在 Ertas 上微調——上傳你的領域資料，視覺化訓練，匯出為 GGUF
安裝 Ollama：brew install ollama
導入你的模型並開始查詢

你的微調 AI 模型，在你已經擁有的硬體上運行，零按查詢費用。這就是本地 AI 的承諾——在 Apple Silicon 上，它今天就能很好地工作。

參考資料：Apple Core ML — On-Device Llama、SitePoint — Guide to Local LLMs in 2026、XDA — Apple's Sleeper Advantage for Local LLMs、Best Local LLMs for Apple Silicon 2026。