apple-siliconm-serieslocal-inferenceollamamlxfine-tuningdeploymentgguf
Apple Silicon 微调:在 M 系列 Mac 上运行自定义模型
在 Apple Silicon Mac 上部署微调 AI 模型的实用指南。涵盖 M4 硬件能力、统一内存优势、Ollama 和 MLX 设置、量化选择以及 Core ML LoRA 适配器支持。
EErtas Team·
Apple Silicon 在本地 AI 推理方面有一个被大多数人低估的优势:统一内存。CPU、GPU 和 Neural Engine 共享同一内存池——无需在独立 VRAM 和系统 RAM 之间复制数据。
如果您拥有 M 系列 Mac,您已经拥有了可用的 AI 推理硬件。
您的 Mac 能运行什么
| Mac | 统一内存 | 推荐模型 | 预期速度 |
|---|---|---|---|
| M1/M2/M3/M4(基础) | 8-16 GB | 1-3B 量化,7B Q4(紧凑) | ~15-25 tok/s |
| M1/M2/M3/M4 Pro | 18-24 GB | 7-8B Q5/Q8,13B Q4 | ~25-35 tok/s |
| M1/M2/M3/M4 Max | 32-128 GB | 13B Q8,70B Q4 | ~15-30 tok/s |
| M2/M4 Ultra | 64-192 GB | 70B Q8,多模型同时 | ~20-35 tok/s |
部署方案
选项 1:Ollama(最简单)
brew install ollama
ollama create my-model -f Modelfile
ollama run my-model
选项 2:MLX(Apple 原生性能)
Apple 自家 ML 框架,支持 LoRA 适配器原生加载。
选项 3:llama.cpp(最大控制)
自定义 batch 大小、线程配置,支持 Metal GPU 加速。
端到端工作流
- 在 Ertas 云 GPU 上微调
- 导出为 GGUF(Q5_K_M 推荐 24GB+ Mac)
- 加载到 Ollama
- 集成到您的技术栈
- 零边际成本运行
对于独立开发者,云 API 费用($500-2,000/月)vs 本地推理($10-15/月电费)的差异是可行业务和烧钱之间的区别。
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.
Keep reading

指南
本地运行 AI 模型:本地 LLM 推理完全指南
关于在自己的硬件上运行大语言模型你需要知道的一切——从硬件要求和模型格式到 Ollama、LM Studio 和 llama.cpp 等工具。

指南
使用微调本地模型构建可靠 AI Agent:完整指南
大多数 AI Agent 只是 GPT-4 封装——在规模上昂贵、不可靠且依赖云 API。微调本地模型在你的特定工具上达到 98%+ 准确率,零查询成本。这是完整架构。

指南
量化级别详解:Q4 vs Q5 vs Q8 及各自适用场景
为本地 AI 部署选择 GGUF 量化级别的实用指南。涵盖 Q4_K_M、Q5_K_M、Q8_0,以及硬件约束、微调和用例需求如何决定正确的量化。