
在本地運行 AI 模型:本地 LLM 推理完整指南
關於在自有硬體上運行大型語言模型的一切知識——從硬體要求和模型格式,到 Ollama、LM Studio 和 llama.cpp 等工具。
您可以通過下載 GGUF 量化模型並使用 Ollama、LM Studio 或 llama.cpp 等工具服務它來在本地運行 AI 模型——一個 7B 參數模型可以在任何擁有 16 GB RAM 的機器上舒適運行,無需 GPU。根據 llama.cpp 項目的基準測試,Q4_K_M 量化將模型大小減少約 70%,同時在大多數任務上保持與完整精度幾乎無法區分的質量。斯坦福 HAI AI 指數報告指出,自 2020 年以來訓練和推理成本下降了 90% 以上,使個人和小型團隊的本地部署變得實際可行。
本指南涵蓋您入門所需的一切:為什麼本地推理很重要、您需要什麼硬體、使用哪種模型格式,以及哪些工具使其變得簡單。
為什麼在本地運行模型?
隱私和資料控制
當您向雲端 API 發送提示時,您的資料會傳輸到別人的伺服器。對於許多用例——醫療記錄、法律文件、財務資料、專有代碼——這是不可接受的。
本地推理意味著您的資料永遠不會離開您的網絡。沒有需要協商的第三方處理協議,沒有需要回答的資料駐留問題,也沒有您的提示被用於訓練別人模型的風險。
可預測的成本
雲端 LLM API 按 token 收費。在低流量時,這是可負擔的。在規模化時,它成為一個重要的支出項目。每月處理 100,000 個查詢的團隊很容易在 API 調用上花費 $1,000–3,000。
本地推理有固定成本:您的硬體。無論您運行 10 個查詢還是 1,000 萬個,成本不會改變。對於高流量應用,盈虧平衡點來得出乎意料地快——通常在 2–3 個月內。
無供應商鎖定
如果您的應用程序依賴於雲端 API,您就受制於該供應商的定價更改、速率限制、模型棄用和服務條款更新。本地運行意味著您擁有模型文件,可以隨時切換推理工具。
延遲
本地推理消除了網絡往返。對於需要 100ms 以下響應時間或在連接不可靠環境中運行的應用程序,本地部署是唯一可行的選擇。
硬體要求
好消息:您不需要數據中心。現代量化模型可以在消費級硬體上運行。
RAM 是瓶頸
對於 CPU 推理(這是大多數人用於本地部署的),關鍵限制是系統 RAM——而不是 GPU VRAM。量化模型需要完全裝入內存。
| 模型大小 | 量化 | 所需 RAM | 示例硬體 |
|---|---|---|---|
| 1–3B | Q4_K_M | 2–4 GB | 任何現代筆記本電腦 |
| 7–8B | Q4_K_M | 6–8 GB | 中端筆記本電腦、台式機 |
| 13B | Q4_K_M | 10–12 GB | 16 GB 筆記本電腦或台式機 |
| 34B | Q4_K_M | 24–28 GB | 32 GB 工作站 |
| 70B | Q4_K_M | 40–48 GB | 64 GB 工作站或伺服器 |
GPU 加速(可選但很好)
如果您有獨立 GPU,推理速度會大幅提高。Apple Silicon Mac 在這方面特別出色——統一內存架構意味著 GPU 可以訪問完整的系統 RAM。
| GPU | VRAM | 舒適的模型大小 |
|---|---|---|
| Apple M2/M3(16 GB 統一) | 共享 | 最多 13B |
| Apple M2/M3 Pro(36 GB 統一) | 共享 | 最多 34B |
| NVIDIA RTX 3060(12 GB) | 12 GB | 最多 7B |
| NVIDIA RTX 4090(24 GB) | 24 GB | 最多 13B |
| NVIDIA A100(80 GB) | 80 GB | 最多 70B |
對於大多數用例,16 GB RAM 機器上的 7B–8B 量化模型在能力和性能之間達到最佳平衡點。
模型格式:為什麼 GGUF 很重要
GGUF(GPT-Generated Unified Format)是本地 LLM 推理的標準格式。它由 llama.cpp 項目設計,現在幾乎所有本地推理工具都支持它。
GGUF 的特別之處
- 量化內置——GGUF 文件包含量化權重,所以一個通常在完整精度下為 14 GB 的 7B 模型在 Q4 量化下可以是 4–5 GB,質量損失極小。
- 單一文件——模型需要的一切(權重、分詞器配置、元數據)都在一個文件中。沒有依賴管理。
- CPU 優化——使用 SIMD 指令設計用於高效 CPU 推理,具有可選的 GPU 卸載。
- 通用相容性——適用於 llama.cpp、Ollama、LM Studio、GPT4All、Jan、KoboldCpp 等許多工具。
量化級別
| 量化 | 大小(7B 模型) | 質量 | 速度 |
|---|---|---|---|
| F16 | 約 14 GB | 最佳 | 最慢 |
| Q8_0 | 約 7.5 GB | 接近無損 | 快 |
| Q6_K | 約 5.5 GB | 優秀 | 更快 |
| Q5_K_M | 約 5 GB | 非常好 | 快 |
| Q4_K_M | 約 4.3 GB | 好(推薦) | 快 |
| Q3_K_M | 約 3.3 GB | 可接受 | 最快 |
| Q2_K | 約 2.7 GB | 明顯退化 | 最快 |
Q4_K_M 是大多數用例的最佳選擇——它將模型大小減少約 70%,質量在大多數任務上與完整精度幾乎無法區分。
本地推理工具
Ollama
最容易入門的方式。Ollama 將模型和推理打包成一個帶有內置 API 伺服器的單一 CLI 工具。
# 安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 運行模型
ollama run llama3
# 作為 API 服務
ollama serve
curl http://localhost:11434/api/generate -d '{"model": "llama3", "prompt": "Hello"}'
最適合: 想要快速 API 端點的開發者、需要 OpenAI 相容 API 格式的團隊、基於 Docker 的部署。
LM Studio
帶有視覺界面的桌面應用程序,用於下載、管理和與本地模型聊天。
最適合: 非技術用戶、想要使用本地模型獲得類似 ChatGPT 體驗的團隊、快速測試和評估。
llama.cpp
為大多數其他工具提供動力的基礎推理引擎。最大的控制和性能調整選項。
# 直接運行推理
./llama-cli -m model.gguf -p "Translate to French: Hello, how are you?"
# 啟動 API 伺服器
./llama-server -m model.gguf --port 8080
最適合: 需要對推理參數完全控制的生產部署、自定義應用程序、嵌入式系統。
Open WebUI
連接到 Ollama 或其他後端的自托管 Web 界面。為您的團隊提供由本地模型支持的類似 ChatGPT 風格的體驗。
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
最適合: 想要本地模型共享 Web 聊天界面的團隊。
vLLM
為生產工 作負載設計的高吞吐量服務引擎。實施連續批處理和 PagedAttention 以最大化 GPU 利用率。
最適合: 為許多並發用戶提供服務的生產 API、需要高吞吐量的應用程序。
完整工作流程:從微調到本地部署
最強大的本地推理設置從在您的資料上微調的模型開始。以下是端到端工作流程:
- 以 JSONL 格式準備訓練資料
- 在您的資料上微調基礎模型(使用 LoRA 提高效率)
- 將微調模型導出為 GGUF 文件
- 使用 Ollama、LM Studio 或任何 GGUF 相容工具部署
- 通過本地 API 整合到您的應用程序中
結果:一個理解您領域的模型,在您的硬體上運行,每次查詢零成本。
使用 Ertas Studio
Ertas Studio 通過視覺界面處理步驟 1–3。上傳您的資料集,選擇基礎模型,在托管的雲端 GPU 上微調,並下載 GGUF 文件。從那裡,使用上面的任何工具部署。
這給您帶來兩全其美:雲端驅動的訓練(快速,無需管理 GPU)和完全本地推理(私密,無持續成本)。
以 $14.50/月的早鳥定價鎖定——終身保證。在發布時增加到 $34.50/月。加入等待名單 →
常見問題
在本地運行 AI 需要什麼硬體?
對於 7B 參數模型(本地部署最常見的大小),您需要至少有 8 GB RAM 的機器——雖然推薦 16 GB 以獲得舒適的性能。不需要 GPU;現代量化模型使用 llama.cpp 和 Ollama 等工具在 CPU 上運行。Apple Silicon Mac 由於其統一內存架構特別適合。對於更大的模型(13B-70B),您需要相應更多的 RAM:13B 需要 16 GB,34B 需要 32 GB,70B 模型需要 64 GB。
本地 AI 和雲端 API 一樣好嗎?
對於通用的、開放式任務,GPT-4 等大型雲端模型仍然有優勢。但對於窄範圍的、定義明確的任務——代表大多數生產 AI 應用——微調的 7B 本地模型可以匹配甚至超過雲端 API 質量。根據 Hugging Face 的研究,微調的小型模型在特定領域分類任務上常規達到 90-95% 的準確率,與 GPT-4 級別的模型相當。關鍵是微調創造了一個專家,而不是通才。
在本地運行 LLM 的最快方式是什麼?
從零到運行本地 LLM 的最快路徑是 Ollama。用單個命令安裝它(curl -fsSL https://ollama.com/install.sh | sh),然後運行 ollama run llama3 下載並開始與模型聊天。整個過程不到 5 分鐘。對於 GUI 體驗,LM Studio 提供了一個桌面應用程序,您可以在其中瀏覽、下載和運行模型,而無需接觸終端。對於需要更高吞吐量的生產用例,vLLM 或 llama.cpp 的伺服器模式提供更多控制。
我可以在 Mac 上運行 AI 模型嗎?
是的——Apple Silicon Mac 實際上是本地 AI 推理的最佳硬體之一。統一內存架構允許 GPU 訪問所有系統 RAM,這意味著擁有 16 GB 統一內存的 Mac 可以運行需要 PC 上 16 GB VRAM 的獨立 GPU 的模型。擁有 16 GB 的 M2/M3 Mac 可以舒適地處理 7B-13B 模型,而擁有 36-96 GB 的 M2/M3 Pro 或 Max 可以運行最多 70B 參數的模型。Ollama、LM Studio 和 llama.cpp 都有原生 Apple Silicon 支持和 Metal GPU 加速。
延伸閱讀
- 如何微調 LLM:完整指南 — 準備資料並訓練您自己的模型
- 微調 vs RAG:各自的適用時機 — 為您的用例決定正確的方法
- 注重隱私的 AI 開發 — 讓 AI 資料受您控制的理由
- 按 Token 計費 AI 定價的隱藏成本 — 為什麼本地推理在規模化時省錢
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.
Keep reading
Fine-Tuning for Apple Silicon: Running Custom Models on M-Series Macs
A practical guide to deploying fine-tuned AI models on Apple Silicon Macs. Covers M4 hardware capabilities, unified memory advantages, Ollama and MLX setup, quantization choices, and Core ML LoRA adapter support.

Quantization Levels Explained: Q4 vs Q5 vs Q8 and When Each Matters
A practical guide to choosing GGUF quantization levels for local AI deployment. Covers Q4_K_M, Q5_K_M, Q8_0, and how hardware constraints, fine-tuning, and use case requirements determine the right quantization for your model.

LM Studio vs Ollama for Client Deployments: Which to Use
Both LM Studio and Ollama run local AI models — but they're designed for different use cases. Here's a direct comparison for AI solutions architects deploying for clients.