
本地运行 AI 模型:本地 LLM 推理完全指南
关于在自己的硬件上运行大语言模型你需要知道的一切——从硬件要求和模型格式到 Ollama、LM Studio 和 llama.cpp 等工具。
你可以通过下载 GGUF 量化模型并使用 Ollama、LM Studio 或 llama.cpp 等工具来本地运行 AI 模型——一个 7B 参数模型可以在任何拥有 16 GB RAM 的机器上舒适运行,无需 GPU。根据 llama.cpp 项目 的基准测试,Q4_K_M 量化将模型大小减少约 70%,同时在大多数任务上保持与全精度几乎无法区分的质量。斯坦福 HAI AI 指数报告指出,自 2020 年以来,训练和推理成本下降了超过 90%,使本地部署对个人和小团队变得切实可行。
本指南涵盖了入门所需的一切:为什么本地推理很重要、需要什么硬件、使用哪种模型格式、以及哪些工具让它变得简单。
为什么要本地运行模型?
隐私和数据控制
当你向云 API 发送提示时,你的数据会传输到别人的服务器。对于许多用例——医疗记录、法律文件、财务数据、专有代码——这是不可接受的。
本地推理意味着你的数据永远不会离开你的网络。无需协商第三方处理协议,无需回答数据驻留问题,也不存在你的提示被用于训练别人模型的风险。
可预测的成本
云 LLM API 按 token 收费。低用量时这是可以承受的。但在规模化时,它会成为一笔重大开支。一个每月处理 100,000 次查询的团队很容易仅在 API 调用上花费 1,000-3,000 美元。
本地推理有固定成本:你的硬件。无论你运行 10 次查询还是 1000 万次,成本不变。对于高量应用,盈亏平衡点来得出奇地快——通常在 2-3 个月内。
无供应商锁定
如果你的应用依赖于云 API,你受制于该提供商的定价变更、速率限制、模型弃用和服务条款更新。本地运行意味着你拥有模型文件,可以随时切换推理工具。
延迟
本地推理消除了网络往返。对于需要低于 100ms 响应时间或在连接不可靠的环境中运 行的应用,本地部署是唯一可行的选择。
硬件要求
好消息是:你不需要数据中心。现代量化模型可以在消费级硬件上运行。
RAM 是瓶颈
对于 CPU 推理(大多数人用于本地部署),关键约束是系统 RAM——而非 GPU VRAM。量化模型需要完全载入内存。
| 模型大小 | 量化 | 所需 RAM | 示例硬件 |
|---|---|---|---|
| 1-3B | Q4_K_M | 2-4 GB | 任何现代笔记本 |
| 7-8B | Q4_K_M | 6-8 GB | 中端笔记本、台式机 |
| 13B | Q4_K_M | 10-12 GB | 16 GB 笔记本或台式机 |
| 34B | Q4_K_M | 24-28 GB | 32 GB 工作站 |
| 70B | Q4_K_M | 40-48 GB | 64 GB 工作站或服务器 |
GPU 加速(可选但很好)
如果你有独立 GPU,推理速度会显著提升。Apple Silicon Mac 在这方面特别出色——统一内存架构意味着 GPU 可以访问全部系统 RAM。
| GPU | VRAM | 舒适的模型大小 |
|---|---|---|
| Apple M2/M3 (16 GB unified) | 共享 | 最大 13B |
| Apple M2/M3 Pro (36 GB unified) | 共享 | 最大 34B |
| NVIDIA RTX 3060 (12 GB) | 12 GB | 最大 7B |
| NVIDIA RTX 4090 (24 GB) | 24 GB | 最大 13B |
| NVIDIA A100 (80 GB) | 80 GB | 最大 70B |
对于大多数用例,配备 16 GB RAM 的机器上的 7B-8B 量化模型是能力和性能的最佳平衡点。