llama.cpp vs vLLM

比較 llama.cpp 和 vLLM 用於 LLM 推理。llama.cpp 在高效本地與邊緣推理上勝出；vLLM 在高吞吐量、多租戶生產服務及 multi-LoRA 上勝出。

Overview

llama.cpp 和 vLLM 在 LLM 推理領域中佔據不同的利基，各自針對不同的部署場景進行最佳化。llama.cpp 是一個為效率和可攜性構建的 C++ 推理引擎。它在從 Raspberry Pi 到多 GPU 伺服器的所有硬體上運行，支援 CPU 推理以及 CUDA、Metal 和 Vulkan GPU 後端，並開創了使大型模型在消費級硬體上可行的 GGUF 量化格式。其最小的依賴足跡和可嵌入的程式庫設計使其成為數十個本地推理工具的基礎，包括 Ollama、LM Studio 和 GPT4All。

vLLM 是一個為規模化吞吐量而設計的基於 Python 的服務引擎。llama.cpp 針對在不同硬體上高效運行單個模型進行最佳化，而 vLLM 針對在 GPU 基礎設施上向許多並發使用者提供該模型服務進行最佳化。其 PagedAttention 機制像虛擬記憶體頁面一樣管理 GPU 記憶體，支援比原始實現更長的上下文視窗和更多的並發請求。結合連續批次處理、前綴快取和推測解碼，vLLM 提供生產 API 服務所需的吞吐量特性。它還透過原生 multi-LoRA（--enable-lora）從單一基礎模型在共享 GPU 記憶體中服務許多微調的 LoRA 轉接器，這是符合成本效益的多租戶服務的基礎。這兩個引擎更多是互補而非競爭，服務於 LLM 部署的不同階段和規模。

Feature Comparison

Feature	llama.cpp	vLLM
主要使用場景	高效的本地/邊緣推理	高吞吐量生產服務
語言	C/C++	Python 含 C++/CUDA 核心
CPU 推理	高度最佳化（AVX、ARM NEON）	實驗性（x86 / ARM）
Apple Silicon（Metal）
Vulkan（AMD/Intel GPU）
CUDA 支援
連續批次處理	基本（伺服器模式）	進階含 PagedAttention
量化格式	GGUF（Q2-Q8、IQ、K-quants）	AWQ、GPTQ、FP8、FP4、BitsAndBytes
多轉接器（multi-LoRA）服務	單一轉接器，載入時套用	原生：每個基礎模型多個 LoRA 轉接器（--enable-lora）
可嵌入為程式庫
多 GPU 張量並行	有限	完整支援

Strengths

llama.cpp

在幾乎任何硬體平台上運行，包括 CPU、Apple Silicon 和透過 Vulkan 的 AMD/Intel GPU
廣泛的量化選項（超過 20 種量化類型）實現對品質 vs 記憶體取捨的精細控制
最少依賴和可嵌入的 C 程式庫用於整合到原生應用程式中
出色的單使用者推理性能，記憶體開銷低
最快的社群採用新模型架構和量化研究

vLLM

PagedAttention 和連續批次處理在並發負載下提供卓越的吞吐量
原生 multi-LoRA 服務（--enable-lora）託管單一基礎模型並從共享 GPU 記憶體服務許多微調的 LoRA 轉接器，是符合成本效益的多租戶推理的關鍵槓桿
張量並行可在多個裝置上服務對單個 GPU 來說太大的模型
推測解碼支援進一步減少自迴歸生成的延遲
與 HuggingFace 模型生態系統的原生整合實現無縫模型載入
前綴快取加速具有共享提示前綴（如系統訊息）的工作負載

Which Should You Choose?

在筆電或桌上型電腦上為個人使用運行模型llama.cpp

llama.cpp 的 CPU 推理、Metal 支援和積極的量化選項使其非常適合 VRAM 有限的消費級硬體。

構建處理 100+ 並發請求的 API 服務vLLM

vLLM 的連續批次處理和 PagedAttention 專為 llama.cpp 的伺服器模式無法匹配的高並發服務而設計。

將 LLM 推理嵌入行動或邊緣應用llama.cpp

llama.cpp 的 C 程式庫具有最少依賴，可以為 ARM 處理器編譯並直接嵌入原生應用程式。

跨 4 個 GPU 服務 70B 參數模型vLLM

vLLM 的張量並行高效地將模型層分佈到多個 GPU，具有最佳化的裝置間通訊。

向並發使用者服務單一基礎模型的許多微調變體vLLM

vLLM 的原生 multi-LoRA 服務只載入基礎模型一次，並從共享 GPU 記憶體切換許多 LoRA 轉接器，因此每個額外的微調增加的邊際成本很小。llama.cpp 每個程序只能服務一個合併的模型。

在 AMD Radeon 或 Intel Arc GPU 上運行推理llama.cpp

llama.cpp 的 Vulkan 後端在 vLLM 不支援的非 NVIDIA 硬體上提供 GPU 加速。

Verdict

llama.cpp 和 vLLM 最好理解為互補工具而非直接競爭對手。llama.cpp 是本地推理、邊緣部署、非 NVIDIA 硬體以及任何需要以最少基礎設施進行高效單使用者推理的場景的正確選擇。其硬體可攜性、廣泛的量化支援和可嵌入設計使其成為本地 LLM 生態系統的支柱。

vLLM 是當您需要同時向許多使用者提供模型服務的 GPU 基礎設施時的正確選擇。其記憶體管理、批次處理、並行功能和原生 multi-LoRA 服務專門為生產 API 服務的需求而設計，尤其是當單一基礎模型支撐許多微調轉接器時。一個常見且有效的模式是使用 llama.cpp（透過 Ollama 或直接使用）進行開發和測試，然後在需要擴展到生產流量時部署 vLLM。

How Ertas Fits In

Ertas AI 微調模型並為您部署的任何引擎匯出。對於 llama.cpp，Ertas 匯出帶有您選擇量化的 GGUF，可在 llama.cpp 支援的任何硬體上運行，從筆電到伺服器。對於 vLLM，Ertas 產生標準 safetensors LoRA 轉接器（以及合併的檢查點），可直接載入 vLLM 伺服器，包括其 multi-LoRA 池，因此您的許多微調可以在 GPU 上共享單一基礎模型。用 Ertas 微調一次，然後在合適的地方運行：llama.cpp 用於可攜的單一串流推理，vLLM 用於需要高吞吐量多租戶服務時。