apple-siliconm-serieslocal-inferenceollamamlxfine-tuningdeploymentgguf

Apple Silicon 微调：在 M 系列 Mac 上运行自定义模型

在 Apple Silicon Mac 上部署微调 AI 模型的实用指南。涵盖 M4 硬件能力、统一内存优势、Ollama 和 MLX 设置、量化选择以及 Core ML LoRA 适配器支持。

EErtas Team·February 22, 2026

Apple Silicon 在本地 AI 推理方面有一个被大多数人低估的优势：统一内存。CPU、GPU 和 Neural Engine 共享同一内存池——无需在独立 VRAM 和系统 RAM 之间复制数据。

如果您拥有 M 系列 Mac，您已经拥有了可用的 AI 推理硬件。

您的 Mac 能运行什么

Mac	统一内存	推荐模型	预期速度
M1/M2/M3/M4（基础）	8-16 GB	1-3B 量化，7B Q4（紧凑）	~15-25 tok/s
M1/M2/M3/M4 Pro	18-24 GB	7-8B Q5/Q8，13B Q4	~25-35 tok/s
M1/M2/M3/M4 Max	32-128 GB	13B Q8，70B Q4	~15-30 tok/s
M2/M4 Ultra	64-192 GB	70B Q8，多模型同时	~20-35 tok/s

部署方案

选项 1：Ollama（最简单）

brew install ollama
ollama create my-model -f Modelfile
ollama run my-model

选项 2：MLX（Apple 原生性能）

Apple 自家 ML 框架，支持 LoRA 适配器原生加载。

选项 3：llama.cpp（最大控制）

自定义 batch 大小、线程配置，支持 Metal GPU 加速。

端到端工作流

在 Ertas 云 GPU 上微调
导出为 GGUF（Q5_K_M 推荐 24GB+ Mac）
加载到 Ollama
集成到您的技术栈
零边际成本运行

对于独立开发者，云 API 费用（$500-2,000/月）vs 本地推理（$10-15/月电费）的差异是可行业务和烧钱之间的区别。

参考文献：Apple Core ML — On-Device Llama。

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →

Keep reading

本地运行 AI 模型：本地 LLM 推理完全指南

本地运行 AI 模型：本地 LLM 推理完全指南

关于在自己的硬件上运行大语言模型你需要知道的一切——从硬件要求和模型格式到 Ollama、LM Studio 和 llama.cpp 等工具。

使用微调本地模型构建可靠 AI Agent：完整指南

使用微调本地模型构建可靠 AI Agent：完整指南

大多数 AI Agent 只是 GPT-4 封装——在规模上昂贵、不可靠且依赖云 API。微调本地模型在你的特定工具上达到 98%+ 准确率，零查询成本。这是完整架构。

量化级别详解：Q4 vs Q5 vs Q8 及各自适用场景

量化级别详解：Q4 vs Q5 vs Q8 及各自适用场景

为本地 AI 部署选择 GGUF 量化级别的实用指南。涵盖 Q4_K_M、Q5_K_M、Q8_0，以及硬件约束、微调和用例需求如何决定正确的量化。