Back to blog
    本地运行 AI 模型:本地 LLM 推理完全指南
    local-inferenceggufprivacyollamallmdeployment

    本地运行 AI 模型:本地 LLM 推理完全指南

    关于在自己的硬件上运行大语言模型你需要知道的一切——从硬件要求和模型格式到 Ollama、LM Studio 和 llama.cpp 等工具。

    EEdward Yang··Updated

    你可以通过下载 GGUF 量化模型并使用 Ollama、LM Studio 或 llama.cpp 等工具来本地运行 AI 模型——一个 7B 参数模型可以在任何拥有 16 GB RAM 的机器上舒适运行,无需 GPU。根据 llama.cpp 项目 的基准测试,Q4_K_M 量化将模型大小减少约 70%,同时在大多数任务上保持与全精度几乎无法区分的质量。斯坦福 HAI AI 指数报告指出,自 2020 年以来,训练和推理成本下降了超过 90%,使本地部署对个人和小团队变得切实可行。

    本指南涵盖了入门所需的一切:为什么本地推理很重要、需要什么硬件、使用哪种模型格式、以及哪些工具让它变得简单。

    为什么要本地运行模型?

    隐私和数据控制

    当你向云 API 发送提示时,你的数据会传输到别人的服务器。对于许多用例——医疗记录、法律文件、财务数据、专有代码——这是不可接受的。

    本地推理意味着你的数据永远不会离开你的网络。无需协商第三方处理协议,无需回答数据驻留问题,也不存在你的提示被用于训练别人模型的风险。

    可预测的成本

    云 LLM API 按 token 收费。低用量时这是可以承受的。但在规模化时,它会成为一笔重大开支。一个每月处理 100,000 次查询的团队很容易仅在 API 调用上花费 1,000-3,000 美元。

    本地推理有固定成本:你的硬件。无论你运行 10 次查询还是 1000 万次,成本不变。对于高量应用,盈亏平衡点来得出奇地快——通常在 2-3 个月内。

    无供应商锁定

    如果你的应用依赖于云 API,你受制于该提供商的定价变更、速率限制、模型弃用和服务条款更新。本地运行意味着你拥有模型文件,可以随时切换推理工具。

    延迟

    本地推理消除了网络往返。对于需要低于 100ms 响应时间或在连接不可靠的环境中运行的应用,本地部署是唯一可行的选择。

    硬件要求

    好消息是:你不需要数据中心。现代量化模型可以在消费级硬件上运行。

    RAM 是瓶颈

    对于 CPU 推理(大多数人用于本地部署),关键约束是系统 RAM——而非 GPU VRAM。量化模型需要完全载入内存。

    模型大小量化所需 RAM示例硬件
    1-3BQ4_K_M2-4 GB任何现代笔记本
    7-8BQ4_K_M6-8 GB中端笔记本、台式机
    13BQ4_K_M10-12 GB16 GB 笔记本或台式机
    34BQ4_K_M24-28 GB32 GB 工作站
    70BQ4_K_M40-48 GB64 GB 工作站或服务器

    GPU 加速(可选但很好)

    如果你有独立 GPU,推理速度会显著提升。Apple Silicon Mac 在这方面特别出色——统一内存架构意味着 GPU 可以访问全部系统 RAM。

    GPUVRAM舒适的模型大小
    Apple M2/M3 (16 GB unified)共享最大 13B
    Apple M2/M3 Pro (36 GB unified)共享最大 34B
    NVIDIA RTX 3060 (12 GB)12 GB最大 7B
    NVIDIA RTX 4090 (24 GB)24 GB最大 13B
    NVIDIA A100 (80 GB)80 GB最大 70B

    对于大多数用例,配备 16 GB RAM 的机器上的 7B-8B 量化模型是能力和性能的最佳平衡点。

    模型格式:为什么 GGUF 很重要

    GGUF(GPT-Generated Unified Format)是本地 LLM 推理的标准格式。它由 llama.cpp 项目设计,现在几乎所有本地推理工具都支持。

    GGUF 的特别之处

    • 内置量化 — GGUF 文件包含量化权重,因此一个正常情况下 14 GB 的 7B 模型在 Q4 量化下可以只有 4-5 GB,且质量损失极小。
    • 单文件 — 模型需要的一切(权重、分词器配置、元数据)都在一个文件中。无需依赖管理。
    • CPU 优化 — 专为使用 SIMD 指令的高效 CPU 推理设计,可选 GPU 卸载。
    • 通用兼容性 — 适用于 llama.cpp、Ollama、LM Studio、GPT4All、Jan、KoboldCpp 等众多工具。

    量化级别

    量化大小 (7B 模型)质量速度
    F16~14 GB最佳最慢
    Q8_0~7.5 GB接近无损
    Q6_K~5.5 GB优秀更快
    Q5_K_M~5 GB非常好
    Q4_K_M~4.3 GB好(推荐)
    Q3_K_M~3.3 GB可接受最快
    Q2_K~2.7 GB有明显退化最快

    Q4_K_M 是大多数用例的最佳平衡点——它将模型大小减少约 70%,同时在大多数任务上质量与全精度几乎无法区分。

    本地推理工具

    Ollama

    最容易入门的方式。Ollama 将模型和推理打包到一个 CLI 工具中,内置 API 服务器。

    # 安装 Ollama
    curl -fsSL https://ollama.com/install.sh | sh
    
    # 运行模型
    ollama run llama3
    
    # 作为 API 服务
    ollama serve
    curl http://localhost:11434/api/generate -d '{"model": "llama3", "prompt": "Hello"}'

    最适合: 需要快速 API 端点的开发者、需要 OpenAI 兼容 API 格式的团队、基于 Docker 的部署。

    LM Studio

    带有可视化界面的桌面应用程序,用于下载、管理和与本地模型聊天。

    最适合: 非技术用户、想要使用本地模型获得类似 ChatGPT 体验的团队、快速测试和评估。

    llama.cpp

    驱动大多数其他工具的基础推理引擎。最大程度的控制和性能调优选项。

    # 直接运行推理
    ./llama-cli -m model.gguf -p "Translate to French: Hello, how are you?"
    
    # 启动 API 服务器
    ./llama-server -m model.gguf --port 8080

    最适合: 需要完全控制推理参数的生产部署、自定义应用、嵌入式系统。

    Open WebUI

    自托管的 Web 界面,连接到 Ollama 或其他后端。为你的团队提供由本地模型驱动的 ChatGPT 风格体验。

    docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
      -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
      ghcr.io/open-webui/open-webui:main

    最适合: 想要共享的、基于 Web 的本地模型聊天界面的团队。

    vLLM

    专为生产工作负载设计的高吞吐量服务引擎。实现连续批处理和 PagedAttention 以最大化 GPU 利用率。

    最适合: 服务大量并发用户的生产 API、需要高吞吐量的应用。

    完整工作流:从微调到本地部署

    最强大的本地推理设置从使用你的数据微调模型开始。以下是端到端工作流:

    1. 准备训练数据,使用 JSONL 格式
    2. 微调基础模型(使用 LoRA 提高效率)
    3. 导出微调模型为 GGUF 文件
    4. 部署,使用 Ollama、LM Studio 或任何 GGUF 兼容工具
    5. 集成到你的应用中,通过本地 API

    结果:一个理解你的领域、在你的硬件上运行、每次查询零成本的模型。

    使用 Ertas Studio

    Ertas Studio 通过可视化界面处理步骤 1-3。上传你的数据集,选择基础模型,在托管云 GPU 上微调,然后下载 GGUF 文件。之后,使用上述任何工具部署。

    这给你两全其美:云端训练(快速,无需管理 GPU)加上完全本地推理(私密,无持续成本)。

    以 $14.50/月锁定早鸟价 — 终身保证。发布后增至 $34.50/月。加入等候列表 →

    常见问题

    本地运行 AI 需要什么硬件?

    对于 7B 参数模型(本地部署最常见的大小),你需要一台至少 8 GB RAM 的机器——不过推荐 16 GB 以获得舒适的性能。不需要 GPU;现代量化模型使用 llama.cpp 和 Ollama 等工具在 CPU 上运行。由于统一内存架构,Apple Silicon Mac 特别适合。对于更大的模型(13B-70B),你需要相应更多的 RAM:13B 需要 16 GB,34B 需要 32 GB,70B 模型需要 64 GB。

    本地 AI 和云 API 一样好吗?

    对于通用的、开放式的任务,像 GPT-4 这样的大型云模型仍然有优势。但对于狭窄的、定义明确的任务——这代表了大多数生产 AI 应用——一个微调的 7B 本地模型可以匹配或超过云 API 质量。根据 Hugging Face 的研究,微调的小模型在特定领域分类任务上常规达到 90-95% 的准确率,匹配 GPT-4 级别的模型。关键在于微调创造的是专家,而不是通才。

    本地运行 LLM 的最快方式是什么?

    从零到运行本地 LLM 的最快路径是 Ollama。用单条命令安装(curl -fsSL https://ollama.com/install.sh | sh),然后运行 ollama run llama3 下载并开始与模型聊天。整个过程不到 5 分钟。对于 GUI 体验,LM Studio 提供桌面应用程序,无需接触终端就可以浏览、下载和运行模型。对于需要更高吞吐量的生产用例,vLLM 或 llama.cpp 的服务器模式提供更多控制。

    可以在 Mac 上运行 AI 模型吗?

    可以——Apple Silicon Mac 实际上是本地 AI 推理最好的硬件之一。统一内存架构允许 GPU 访问全部系统 RAM,这意味着配备 16 GB 统一内存的 Mac 可以运行在 PC 上需要 16 GB VRAM 独立 GPU 的模型。配备 16 GB 的 M2/M3 Mac 可以舒适处理 7B-13B 模型,而配备 36-96 GB 的 M2/M3 Pro 或 Max 可以运行最大 70B 参数的模型。Ollama、LM Studio 和 llama.cpp 都有原生 Apple Silicon 支持和 Metal GPU 加速。

    延伸阅读

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading