Back to blog
    Apple Silicon 微調:在 M 系列 Mac 上運行自訂模型
    apple-siliconm-serieslocal-inferenceollamamlxfine-tuningdeploymentgguf

    Apple Silicon 微調:在 M 系列 Mac 上運行自訂模型

    在 Apple Silicon Mac 上部署微調 AI 模型的實用指南。涵蓋 M4 硬體能力、統一記憶體優勢、Ollama 和 MLX 設置、量化選擇,以及 Core ML LoRA 適配器支援。

    EErtas Team·

    Apple Silicon 對於本地 AI 推理有一個大多數人低估的靜默優勢:統一記憶體。CPU、GPU 和神經引擎都共享同一個記憶體池——沒有在獨立的 VRAM 和系統 RAM 之間複製資料。對於大型語言模型推理(其中記憶體頻寬是主要瓶頸),這種架構是真正的競爭優勢。

    如果你擁有 M 系列 Mac,你已經擁有了有能力的 AI 推理硬體。本指南介紹如何從 Ertas 獲取微調模型,並在你的 Mac 上本地部署——無雲 API、無 GPU 租賃、無按 token 計費。

    你的 Mac 可以運行什麼

    本地 LLM 推理的限制因素是記憶體。以下是每個 M 系列層級支援的內容:

    Mac統一記憶體推薦模型預期速度
    M1/M2/M3/M4(基礎版)8-16 GB1-3B 量化,7B 在 Q4(緊張)約 15-25 tok/s
    M1/M2/M3/M4 Pro18-24 GB7-8B 在 Q5/Q8,13B 在 Q4約 25-35 tok/s
    M1/M2/M3/M4 Max32-128 GB13B 在 Q8,70B 在 Q4約 15-30 tok/s
    M2/M4 Ultra64-192 GB70B 在 Q8,同時多個模型約 20-35 tok/s

    大多數開發者的甜蜜點: 運行 Q5_K_M 或 Q8_0 的微調 8B 模型的 M4 Pro(24 GB)。這提供了超過 30 個 token/秒——足夠快用於互動式使用——並且有充足的上下文視窗空間。

    有關選擇量化等級的指導,請參閱我們的量化指南

    為何統一記憶體很重要

    在傳統帶獨立 GPU 的 PC 上,LLM 推理工作如下:

    1. 模型權重存在 GPU VRAM(消費者卡上限制在 8-24 GB)
    2. 如果模型不適合 VRAM,部分溢出到系統 RAM
    3. 從 GPU 訪問系統 RAM 比 VRAM 慢 10-20 倍
    4. 這種「卸載」會殺死性能

    在 Apple Silicon 上:

    1. 一切——CPU、GPU、神經引擎——訪問同一個記憶體池
    2. 沒有 VRAM/RAM 區別
    3. 帶 64 GB 統一記憶體的 Mac 以全速給 GPU 訪問所有 64 GB
    4. 沒有卸載懲罰

    這意味著帶有 192 GB 統一記憶體的 Mac Studio M4 Ultra 可以運行傳統設置上需要多個企業 GPU 的模型。對於推理(而非訓練),Apple Silicon 令人驚訝地具有競爭力。

    部署堆疊

    選項 1:Ollama(最簡單)

    Ollama 是從微調模型到在 Mac 上運行推理的最簡單路徑。

    設置:

    1. 安裝 Ollama:brew install ollama
    2. Ertas 上微調你的模型並匯出為 GGUF
    3. 創建指向你的 GGUF 的 Modelfile:
      FROM ./your-fine-tuned-model.Q5_K_M.gguf
      
    4. 導入:ollama create my-model -f Modelfile
    5. 運行:ollama run my-model

    Ollama 自動處理所有 Apple Silicon 優化——它在 M 系列晶片上使用 Metal 進行 GPU 加速。不需要配置。

    何時使用 Ollama: 當你想要最快的路徑在本地運行微調模型時。非常適合開發、測試和 API 端點後面的生產推理。

    選項 2:MLX(Apple 原生性能)

    MLX 是 Apple 自己的機器學習框架,專為 Apple Silicon 設計。它提供了更低層次的控制,通常在 M 系列硬體上比 Ollama 有更好的性能。

    相比 Ollama 的優勢:

    • 由 Apple 構建,針對 M 系列晶片的特定記憶體層次結構優化
    • 本地支援 LoRA 適配器加載(在不重新加載基礎模型的情況下切換適配器)
    • 可以直接在 Mac 上對小型模型進行微調(雖然 Ertas 雲 GPU 更快)

    何時使用 MLX: 當你需要 Apple Silicon 上的最大性能、當你想要熱切換 LoRA 適配器,或者當你正在構建帶有 AI 功能的原生 macOS 應用程式時。

    選項 3:llama.cpp(最大控制)

    支撐 Ollama 的底層引擎。當你需要自訂批次大小、特定線程配置,或者通過 C/C++ API 與自訂應用程式整合時,直接使用它。

    llama.cpp 開箱即用地包含對 Apple Silicon GPU 加速的 Metal 支援。

    何時使用 llama.cpp: 當你需要對推理參數進行精細控制,或者將推理嵌入到已編譯的應用程式中時。

    Core ML 和 LoRA 適配器

    Apple 的 Core ML 框架現在支援在神經引擎上的 LoRA 適配器推理——每個 M 系列晶片中內置的專用 AI 加速器。

    這對兩個原因很重要:

    1. 適配器切換速度快。 加載一次基礎模型,為不同任務切換 LoRA 適配器,無需重新加載完整模型。這是硬體供應商正在構建到他們的晶片中的相同模式。

    2. 神經引擎效率。 ANE(Apple Neural Engine)針對特定量化等級和模型架構進行了優化。在 ANE 上運行推理比 GPU 推理更節省電力,延長 MacBook 的電池壽命。

    Apple 發表了一篇研究論文,展示 Llama 3.1 8B 通過 Core ML 在本地運行,在 M1 Max 上每秒約 33 個 token。M4 系列晶片更快。

    端到端工作流程

    以下是從領域資料到在 Mac 上運行推理的完整工作流程:

    1. 在雲 GPU 上微調(通過 Ertas)

    微調需要在消費者硬體上不切實際的 GPU 計算——即使是強大的 Mac 也是如此。M4 Max 可以通過 MLX 微調 7B 模型,但速度慢(幾小時 vs 雲 GPU 上的幾分鐘)並且佔用你的機器。

    使用 Ertas 在雲 GPU 上微調:上傳你的資料集,視覺化配置訓練,監控結果。訓練在幾分鐘內完成,而不是幾小時。

    2. 匯出為 GGUF

    從 Ertas 以你的目標量化等級匯出你的微調模型:

    • Q4_K_M 用於記憶體受限的 Mac(8-16 GB)
    • Q5_K_M 用於 24 GB 以上 Mac 的生產品質
    • Q8_0 用於 32 GB 以上 Mac 的最高品質

    你也可以匯出為獨立的 LoRA 適配器,如果你想通過 MLX 或 Core ML 使用適配器切換。

    3. 加載到 Ollama

    將你的 GGUF 導入 Ollama 並開始提供推理服務。Ollama 默認暴露 OpenAI 相容的 API,因此任何與 OpenAI API 通訊的應用程式都可以通過一行配置更改指向你的本地模型。

    4. 與你的堆疊整合

    在 Ollama 上運行在你的 Mac 上的微調模型可以服務:

    • n8n 工作流程通過 Ollama 節點(替換 OpenAI API 呼叫)
    • 網路應用程式通過 REST API(localhost:11434)
    • CLI 工具通過 Ollama 的命令行界面
    • 自訂應用程式通過 Python 或 JavaScript 客戶端庫

    5. 以零邊際成本運行

    一旦模型加載,每個查詢只花費電力。沒有按 token 計費。沒有 API 速率限制。沒有資料離開你的機器。

    對於每月處理 50,000 次查詢的獨立開發者,雲 API 成本(每月 $500-2,000)和在你已經擁有的 Mac 上的本地推理(每月 $10-15 電力)之間的差異,就是可行業務和燒錢之間的差異。

    性能優化技巧

    將上下文長度與你的需求匹配

    較長的上下文視窗消耗更多記憶體(KV 緩存隨上下文長度線性增長)。如果你的使用案例只需要 2K 上下文(許多分類和擷取任務),相應地設置上下文視窗。這釋放了模型權重的記憶體並提高了速度。

    為你的記憶體使用正確的量化

    不要只使用你的 Mac 技術上可以加載的最高量化。留出 KV 緩存、操作系統和其他應用程式的空間。勉強適合的模型由於記憶體壓力會更慢。

    安全規則: 模型文件大小應不超過你總統一記憶體的 60-70%,以保持舒適操作。

    批次相關查詢

    如果你在處理許多類似的輸入(文件分類、資料擷取),通過腳本批次處理它們,而不是互動式聊天。這使模型保持加載狀態並避免冷啟動開銷。

    考慮用於推理的專用 Mac

    對於作為服務運行 AI 推理的代理商或團隊,Mac Mini M4 Pro($1,600-2,000)或 Mac Studio M4 Max($3,000-5,000)是優秀的專用推理伺服器。低功耗、靜音操作,以及足夠的記憶體用於生產工作負載。

    與每月 $800-1,500 的雲 GPU 相比。Mac 在 2-4 個月內就能回收成本。

    何時不使用 Apple Silicon 進行推理

    Apple Silicon 對推理很好,但並不總是正確的選擇:

    • 吞吐量關鍵的工作負載: 如果你需要服務數百個並發用戶,專用 GPU 伺服器(或像 Taalas HC1 這樣的專用矽)將超越 Mac
    • 大於你記憶體的模型: 如果你的模型需要比你的 Mac 更多的記憶體,你需要更大的硬體
    • 微調本身: 通過 Ertas 在雲 GPU 上訓練比在設備上訓練更快更具成本效益(除了小型實驗)

    對於其他一切——開發、測試、單用戶或小型團隊生產推理、隱私敏感的部署,以及注重成本的獨立應用程式——Apple Silicon 是一個強有力的選擇。

    開始

    1. 檢查你的 Mac 的統一記憶體:Apple 菜單 → 關於本機 → 記憶體
    2. 參考上表查看你可以運行哪些模型
    3. Ertas 上微調——上傳你的領域資料,視覺化訓練,匯出為 GGUF
    4. 安裝 Ollama:brew install ollama
    5. 導入你的模型並開始查詢

    你的微調 AI 模型,在你已經擁有的硬體上運行,零按查詢費用。這就是本地 AI 的承諾——在 Apple Silicon 上,它今天就能很好地工作。


    參考資料:Apple Core ML — On-Device LlamaSitePoint — Guide to Local LLMs in 2026XDA — Apple's Sleeper Advantage for Local LLMsBest Local LLMs for Apple Silicon 2026

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading