llama.cpp vs vLLM

llama.cpp 与 vLLM 的 LLM 推理对比。llama.cpp 适合高效的本地和边缘推理；vLLM 适合高吞吐量、多租户的生产服务，并支持 multi-LoRA。

Overview

llama.cpp 和 vLLM 在 LLM 推理领域占据不同的生态位，各自针对不同的部署场景优化。llama.cpp 是一个为效率和可移植性构建的 C++ 推理引擎。它可以在从树莓派到多 GPU 服务器的几乎所有设备上运行，支持 CPU 推理以及 CUDA、Metal 和 Vulkan GPU 后端，并开创了使大型模型在消费级硬件上可行的 GGUF 量化格式。其最小的依赖占用和可嵌入的库设计使其成为数十种本地推理工具的基础，包括 Ollama、LM Studio 和 GPT4All。

vLLM 是一个为规模化吞吐量设计的基于 Python 的服务引擎。llama.cpp 优化在多样化硬件上高效运行单个模型，而 vLLM 优化将该模型服务给 GPU 基础设施上的许多并发用户。其 PagedAttention 机制像虚拟内存页一样管理 GPU 内存，比简单实现支持更长的上下文窗口和更多并发请求。结合连续批处理、前缀缓存和投机解码，vLLM 提供了生产 API 服务所需的吞吐量特性。它还通过原生 multi-LoRA（--enable-lora）从单个基础模型在共享 GPU 内存中服务许多微调后的 LoRA 适配器，这是经济高效的多租户服务的基础。两个引擎更多是互补而非竞争，服务于 LLM 部署的不同阶段和规模。

Feature Comparison

Feature	llama.cpp	vLLM
主要用例	高效本地/边缘推理	高吞吐量生产服务
语言	C/C++	Python + C++/CUDA 内核
CPU 推理	高度优化（AVX、ARM NEON）	实验性（x86 / ARM）
Apple Silicon (Metal)
Vulkan（AMD/Intel GPU）
CUDA 支持
连续批处理	基本（服务器模式）	高级 + PagedAttention
量化格式	GGUF（Q2-Q8、IQ、K-quants）	AWQ、GPTQ、FP8、FP4、BitsAndBytes
多适配器（multi-LoRA）服务	单个适配器，加载时应用	原生：每个基础模型多个 LoRA 适配器（--enable-lora）
可嵌入为库
多 GPU 张量并行	有限	完整支持

Strengths

llama.cpp

可在几乎任何硬件平台上运行，包括 CPU、Apple Silicon 和通过 Vulkan 的 AMD/Intel GPU
广泛的量化选项（超过 20 种量化类型）实现质量与内存权衡的细粒度控制
最小依赖和可嵌入 C 库，用于集成到原生应用中
出色的单用户推理性能和低内存开销
社区对新模型架构和量化研究的最快采用

vLLM

PagedAttention 和连续批处理在并发负载下提供卓越吞吐量
原生 multi-LoRA 服务（--enable-lora）托管一个基础模型，并从共享 GPU 内存服务许多微调后的 LoRA 适配器，是经济高效多租户推理的关键杠杆
张量并行支持跨多个 GPU 服务单个 GPU 放不下的模型
投机解码减少自回归生成的延迟
与 HuggingFace 模型生态系统原生集成，无缝加载模型
前缀缓存加速具有共享提示前缀（如系统消息）的工作负载

Which Should You Choose?

在笔记本电脑或台式机上运行模型供个人使用llama.cpp

llama.cpp 的 CPU 推理、Metal 支持和激进量化选项使其非常适合 VRAM 有限的消费级硬件。

构建处理 100+ 并发请求的 API 服务vLLM

vLLM 的连续批处理和 PagedAttention 专为 llama.cpp 服务器模式无法匹配的高并发服务设计。

将 LLM 推理嵌入移动或边缘应用llama.cpp

llama.cpp 的 C 库依赖最小，可以为 ARM 处理器编译并直接嵌入原生应用。

跨 4 个 GPU 服务 70B 参数模型vLLM

vLLM 的张量并行可以高效地将模型层分布到多个 GPU，优化设备间通信。

向并发用户服务一个基础模型的许多微调变体vLLM

vLLM 的原生 multi-LoRA 服务只加载一次基础模型，并从共享 GPU 内存交换许多 LoRA 适配器，因此每个额外的微调几乎不增加边际成本。llama.cpp 每个进程服务一个合并后的模型。

在 AMD Radeon 或 Intel Arc GPU 上运行推理llama.cpp

llama.cpp 的 Vulkan 后端在 vLLM 不支持的非 NVIDIA 硬件上提供 GPU 加速。

Verdict

llama.cpp 和 vLLM 最好理解为互补工具而非直接竞争对手。llama.cpp 是本地推理、边缘部署、非 NVIDIA 硬件以及任何需要最小基础设施的高效单用户推理场景的正确选择。其硬件可移植性、广泛的量化支持和可嵌入设计使其成为本地 LLM 生态系统的支柱。

vLLM 是当您需要在 GPU 基础设施上同时向许多用户服务模型时的正确选择。其内存管理、批处理、并行以及原生 multi-LoRA 服务专为生产 API 服务的需求设计，尤其是当一个基础模型前置许多微调适配器时。一种常见且有效的模式是使用 llama.cpp（通过 Ollama 或直接使用）进行开发和测试，然后在需要扩展到生产流量时使用 vLLM 部署。

How Ertas Fits In

Ertas AI 微调模型并为您部署的引擎导出。对于 llama.cpp，Ertas 导出可选择量化的 GGUF，可在 llama.cpp 支持的任何硬件上运行，从笔记本电脑到服务器。对于 vLLM，Ertas 生成标准的 safetensors LoRA 适配器（以及合并后的检查点），可直接加载到 vLLM 服务器，包括其 multi-LoRA 池，因此您的许多微调可以在 GPU 上共享一个基础模型。使用 Ertas 微调一次，然后在合适的地方运行：llama.cpp 用于可移植的单流推理，vLLM 用于需要高吞吐量多租户服务时。