Back to blog
    在本地運行 AI 模型:本地 LLM 推理完整指南
    local-inferenceggufprivacyollamallmdeployment

    在本地運行 AI 模型:本地 LLM 推理完整指南

    關於在自有硬體上運行大型語言模型的一切知識——從硬體要求和模型格式,到 Ollama、LM Studio 和 llama.cpp 等工具。

    EEdward Yang··Updated

    您可以通過下載 GGUF 量化模型並使用 Ollama、LM Studio 或 llama.cpp 等工具服務它來在本地運行 AI 模型——一個 7B 參數模型可以在任何擁有 16 GB RAM 的機器上舒適運行,無需 GPU。根據 llama.cpp 項目的基準測試,Q4_K_M 量化將模型大小減少約 70%,同時在大多數任務上保持與完整精度幾乎無法區分的質量。斯坦福 HAI AI 指數報告指出,自 2020 年以來訓練和推理成本下降了 90% 以上,使個人和小型團隊的本地部署變得實際可行。

    本指南涵蓋您入門所需的一切:為什麼本地推理很重要、您需要什麼硬體、使用哪種模型格式,以及哪些工具使其變得簡單。

    為什麼在本地運行模型?

    隱私和資料控制

    當您向雲端 API 發送提示時,您的資料會傳輸到別人的伺服器。對於許多用例——醫療記錄、法律文件、財務資料、專有代碼——這是不可接受的。

    本地推理意味著您的資料永遠不會離開您的網絡。沒有需要協商的第三方處理協議,沒有需要回答的資料駐留問題,也沒有您的提示被用於訓練別人模型的風險。

    可預測的成本

    雲端 LLM API 按 token 收費。在低流量時,這是可負擔的。在規模化時,它成為一個重要的支出項目。每月處理 100,000 個查詢的團隊很容易在 API 調用上花費 $1,000–3,000。

    本地推理有固定成本:您的硬體。無論您運行 10 個查詢還是 1,000 萬個,成本不會改變。對於高流量應用,盈虧平衡點來得出乎意料地快——通常在 2–3 個月內。

    無供應商鎖定

    如果您的應用程序依賴於雲端 API,您就受制於該供應商的定價更改、速率限制、模型棄用和服務條款更新。本地運行意味著您擁有模型文件,可以隨時切換推理工具。

    延遲

    本地推理消除了網絡往返。對於需要 100ms 以下響應時間或在連接不可靠環境中運行的應用程序,本地部署是唯一可行的選擇。

    硬體要求

    好消息:您不需要數據中心。現代量化模型可以在消費級硬體上運行。

    RAM 是瓶頸

    對於 CPU 推理(這是大多數人用於本地部署的),關鍵限制是系統 RAM——而不是 GPU VRAM。量化模型需要完全裝入內存。

    模型大小量化所需 RAM示例硬體
    1–3BQ4_K_M2–4 GB任何現代筆記本電腦
    7–8BQ4_K_M6–8 GB中端筆記本電腦、台式機
    13BQ4_K_M10–12 GB16 GB 筆記本電腦或台式機
    34BQ4_K_M24–28 GB32 GB 工作站
    70BQ4_K_M40–48 GB64 GB 工作站或伺服器

    GPU 加速(可選但很好)

    如果您有獨立 GPU,推理速度會大幅提高。Apple Silicon Mac 在這方面特別出色——統一內存架構意味著 GPU 可以訪問完整的系統 RAM。

    GPUVRAM舒適的模型大小
    Apple M2/M3(16 GB 統一)共享最多 13B
    Apple M2/M3 Pro(36 GB 統一)共享最多 34B
    NVIDIA RTX 3060(12 GB)12 GB最多 7B
    NVIDIA RTX 4090(24 GB)24 GB最多 13B
    NVIDIA A100(80 GB)80 GB最多 70B

    對於大多數用例,16 GB RAM 機器上的 7B–8B 量化模型在能力和性能之間達到最佳平衡點。

    模型格式:為什麼 GGUF 很重要

    GGUF(GPT-Generated Unified Format)是本地 LLM 推理的標準格式。它由 llama.cpp 項目設計,現在幾乎所有本地推理工具都支持它。

    GGUF 的特別之處

    • 量化內置——GGUF 文件包含量化權重,所以一個通常在完整精度下為 14 GB 的 7B 模型在 Q4 量化下可以是 4–5 GB,質量損失極小。
    • 單一文件——模型需要的一切(權重、分詞器配置、元數據)都在一個文件中。沒有依賴管理。
    • CPU 優化——使用 SIMD 指令設計用於高效 CPU 推理,具有可選的 GPU 卸載。
    • 通用相容性——適用於 llama.cpp、Ollama、LM Studio、GPT4All、Jan、KoboldCpp 等許多工具。

    量化級別

    量化大小(7B 模型)質量速度
    F16約 14 GB最佳最慢
    Q8_0約 7.5 GB接近無損
    Q6_K約 5.5 GB優秀更快
    Q5_K_M約 5 GB非常好
    Q4_K_M約 4.3 GB好(推薦)
    Q3_K_M約 3.3 GB可接受最快
    Q2_K約 2.7 GB明顯退化最快

    Q4_K_M 是大多數用例的最佳選擇——它將模型大小減少約 70%,質量在大多數任務上與完整精度幾乎無法區分。

    本地推理工具

    Ollama

    最容易入門的方式。Ollama 將模型和推理打包成一個帶有內置 API 伺服器的單一 CLI 工具。

    # 安裝 Ollama
    curl -fsSL https://ollama.com/install.sh | sh
    
    # 運行模型
    ollama run llama3
    
    # 作為 API 服務
    ollama serve
    curl http://localhost:11434/api/generate -d '{"model": "llama3", "prompt": "Hello"}'

    最適合: 想要快速 API 端點的開發者、需要 OpenAI 相容 API 格式的團隊、基於 Docker 的部署。

    LM Studio

    帶有視覺界面的桌面應用程序,用於下載、管理和與本地模型聊天。

    最適合: 非技術用戶、想要使用本地模型獲得類似 ChatGPT 體驗的團隊、快速測試和評估。

    llama.cpp

    為大多數其他工具提供動力的基礎推理引擎。最大的控制和性能調整選項。

    # 直接運行推理
    ./llama-cli -m model.gguf -p "Translate to French: Hello, how are you?"
    
    # 啟動 API 伺服器
    ./llama-server -m model.gguf --port 8080

    最適合: 需要對推理參數完全控制的生產部署、自定義應用程序、嵌入式系統。

    Open WebUI

    連接到 Ollama 或其他後端的自托管 Web 界面。為您的團隊提供由本地模型支持的類似 ChatGPT 風格的體驗。

    docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
      -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
      ghcr.io/open-webui/open-webui:main

    最適合: 想要本地模型共享 Web 聊天界面的團隊。

    vLLM

    為生產工作負載設計的高吞吐量服務引擎。實施連續批處理和 PagedAttention 以最大化 GPU 利用率。

    最適合: 為許多並發用戶提供服務的生產 API、需要高吞吐量的應用程序。

    完整工作流程:從微調到本地部署

    最強大的本地推理設置從在您的資料上微調的模型開始。以下是端到端工作流程:

    1. 以 JSONL 格式準備訓練資料
    2. 在您的資料上微調基礎模型(使用 LoRA 提高效率)
    3. 將微調模型導出為 GGUF 文件
    4. 使用 Ollama、LM Studio 或任何 GGUF 相容工具部署
    5. 通過本地 API 整合到您的應用程序中

    結果:一個理解您領域的模型,在您的硬體上運行,每次查詢零成本。

    使用 Ertas Studio

    Ertas Studio 通過視覺界面處理步驟 1–3。上傳您的資料集,選擇基礎模型,在托管的雲端 GPU 上微調,並下載 GGUF 文件。從那裡,使用上面的任何工具部署。

    這給您帶來兩全其美:雲端驅動的訓練(快速,無需管理 GPU)和完全本地推理(私密,無持續成本)。

    以 $14.50/月的早鳥定價鎖定——終身保證。在發布時增加到 $34.50/月。加入等待名單 →

    常見問題

    在本地運行 AI 需要什麼硬體?

    對於 7B 參數模型(本地部署最常見的大小),您需要至少有 8 GB RAM 的機器——雖然推薦 16 GB 以獲得舒適的性能。不需要 GPU;現代量化模型使用 llama.cpp 和 Ollama 等工具在 CPU 上運行。Apple Silicon Mac 由於其統一內存架構特別適合。對於更大的模型(13B-70B),您需要相應更多的 RAM:13B 需要 16 GB,34B 需要 32 GB,70B 模型需要 64 GB。

    本地 AI 和雲端 API 一樣好嗎?

    對於通用的、開放式任務,GPT-4 等大型雲端模型仍然有優勢。但對於窄範圍的、定義明確的任務——代表大多數生產 AI 應用——微調的 7B 本地模型可以匹配甚至超過雲端 API 質量。根據 Hugging Face 的研究,微調的小型模型在特定領域分類任務上常規達到 90-95% 的準確率,與 GPT-4 級別的模型相當。關鍵是微調創造了一個專家,而不是通才。

    在本地運行 LLM 的最快方式是什麼?

    從零到運行本地 LLM 的最快路徑是 Ollama。用單個命令安裝它(curl -fsSL https://ollama.com/install.sh | sh),然後運行 ollama run llama3 下載並開始與模型聊天。整個過程不到 5 分鐘。對於 GUI 體驗,LM Studio 提供了一個桌面應用程序,您可以在其中瀏覽、下載和運行模型,而無需接觸終端。對於需要更高吞吐量的生產用例,vLLM 或 llama.cpp 的伺服器模式提供更多控制。

    我可以在 Mac 上運行 AI 模型嗎?

    是的——Apple Silicon Mac 實際上是本地 AI 推理的最佳硬體之一。統一內存架構允許 GPU 訪問所有系統 RAM,這意味著擁有 16 GB 統一內存的 Mac 可以運行需要 PC 上 16 GB VRAM 的獨立 GPU 的模型。擁有 16 GB 的 M2/M3 Mac 可以舒適地處理 7B-13B 模型,而擁有 36-96 GB 的 M2/M3 Pro 或 Max 可以運行最多 70B 參數的模型。Ollama、LM Studio 和 llama.cpp 都有原生 Apple Silicon 支持和 Metal GPU 加速。

    延伸閱讀

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

    Keep reading