最佳本地 LLM 推理框架

对比用于在本地运行大语言模型的顶级框架，从入门友好型到生产级方案。

Overview

在本地运行大语言模型已从小众爱好转变为许多开发者和组织的实际需求。无论是为了将敏感数据远离第三方服务器、降低 API 成本、在离线环境中运行，还是不受速率限制地自由实验，本地推理框架都让这一切成为可能。该生态已快速成熟，现在各个经验层级都有优秀的选择——从一键桌面应用到高吞吐的生产级服务。

选择合适的框架取决于你的目标。如果你只想在笔记本电脑上快速与模型对话，Ollama 或 LM Studio 等用户友好的工具几分钟即可上手。如果你需要以最大吞吐量处理数千并发请求，vLLM 和 TensorRT-LLM 等生产级框架正是为此而生。本指南从安装便捷性、原始性能、硬件需求、模型格式支持、API 兼容性和多 GPU 扩展等维度对主流本地推理框架进行比较。

What We Evaluated

安装便捷性
性能
硬件需求
模型格式支持
API 兼容性
多 GPU 支持

The Tools

Ollama

免费开源（MIT 许可证）。无使用费——你自行提供硬件。

本地 LLM 的 Docker。Ollama 将模型打包为可移植的版本化包，提供简洁的命令行和 REST API，自动处理量化、GPU 检测和模型管理。

Strengths

安装极其简便——macOS、Linux 和 Windows 上单一二进制文件安装
内置模型库，一条命令即可拉取（ollama pull llama3）
兼容 OpenAI 的 REST API，集成无障碍
自动 GPU 检测和显存管理

Weaknesses

吞吐量低于 vLLM 等优化推理框架
多 GPU 支持不如生产级工具完善
高级配置（自定义量化、张量并行）受限

Best for: 希望以最快速度从零开始运行本地模型的开发者，以及需要简单 API 进行原型开发的团队。

llama.cpp

免费开源（MIT 许可证）。

开创性的 C/C++ 推理引擎，率先实现了 LLM 的高效 CPU 和 GPU 推理。llama.cpp 是众多上层工具的运行时基础，支持极其广泛的硬件目标。

Strengths

几乎可在任何硬件上运行——CPU、NVIDIA、AMD、Apple Silicon 甚至 Raspberry Pi
GGUF 格式已成为量化模型分发的事实标准
高度优化，支持 2-bit 到 8-bit 量化
活跃开发，新模型架构通常在发布数天内即获支持

Weaknesses

命令行界面对新手不够友好
获取最新功能有时需要从源码编译
无内置模型管理——需手动下载和管理 GGUF 文件

Best for: 希望获得最大硬件灵活性和对推理栈直接控制的高级用户和研究人员。

vLLM

免费开源（Apache 2.0）。基础设施成本取决于你的 GPU 配置。

一个面向生产级部署的高吞吐推理引擎。vLLM 的 PagedAttention 算法大幅提升显存效率和批处理性能，实现远超普通实现的请求吞吐量。

Strengths

通过 PagedAttention 和连续批处理实现业界领先吞吐量
开箱即用的完整 OpenAI 兼容 API 服务
原生张量并行，支持多 GPU 推理
支持 HuggingFace 模型、AWQ、GPTQ 和 GGUF 格式

Weaknesses

需要 NVIDIA GPU——不支持 CPU 或 Apple Silicon
安装比 Ollama 或 LM Studio 更复杂
显存开销较大，不太适合单模型桌面使用

Best for: 面向多用户、吞吐量和延迟至关重要的生产级部署。

LM Studio

个人使用免费。企业部署提供商业许可。

一款精美的桌面应用，用于发现、下载和运行本地 LLM。LM Studio 提供类似 ChatGPT 的界面以及本地 API 服务，是非技术用户最易上手的入口。

Strengths

精美的 GUI，内置模型发现和一键下载
本地 API 服务兼容 OpenAI 客户端库
支持 macOS、Windows 和 Linux，自动硬件检测
非常适合需要在本地评估模型的非技术利益相关者

Weaknesses

闭源——对推理流水线的可见性有限
不适合无头或服务器部署
高级调优选项（批大小、量化参数）有限

Best for: 希望以图形化、用户友好的方式探索和运行本地模型的个人和小型团队。

LocalAI

免费开源（MIT 许可证）。

完全在本地运行的 OpenAI API 平替方案。LocalAI 支持文本生成、嵌入、图像生成、音频转录等功能——全部通过单一兼容 API 提供。

Strengths

在文本、嵌入、图像和音频方面兼容 OpenAI API
支持多个后端，包括 llama.cpp、diffusers 和 whisper.cpp
Docker 优先部署，易于自托管
单一统一服务提供多模态能力

Weaknesses

全面兼顾意味着没有单一模态做到最佳
组合多个后端时配置可能较复杂
文本生成性能不及 vLLM 等专用工具

Best for: 需要单一自托管 API 服务涵盖文本、嵌入、图像和音频的团队。

MLX

免费开源（MIT 许可证）。

Apple 针对 Apple Silicon 优化的机器学习框架。MLX 提供类 NumPy 的 API 和不断壮大的模型实现生态，充分利用 M 系列芯片的统一内存架构。

Strengths

利用统一内存和 Neural Engine，在 Apple Silicon 上实现最佳性能
对研究人员和 Python 开发者友好的 NumPy 风格 API
社区不断壮大，HuggingFace 上的 mlx-community 提供现成的模型转换
惰性求值和统一内存意味着 CPU 与 GPU 之间零拷贝

Weaknesses

仅限 Apple Silicon——不支持 NVIDIA、AMD 或 Linux
生态较 llama.cpp 或 HuggingFace 更年轻、更小
预量化模型数量少于 GGUF 格式

Best for: 希望在 Apple Silicon 硬件上获得最快原生推理的 Mac 开发者和研究人员。

ExLlamaV2

免费开源（MIT 许可证）。

一个高度优化的 CUDA 推理库，专注于从 NVIDIA GPU 中榨取最大速度。ExLlamaV2 支持 EXL2 量化格式，允许混合精度量化以在质量和大小之间实现精细权衡。

Strengths

NVIDIA GPU 上最快的推理速度之一
EXL2 格式支持逐层量化，在任意目标大小下实现最优质量
出色的显存效率，使消费级 GPU 可运行更大模型
支持推测解码以进一步提升速度

Weaknesses

仅支持 NVIDIA——不支持 CPU、AMD 或 Apple Silicon
社区较小，文档不如主流替代方案丰富
EXL2 格式的采用度不如 GGUF 广泛

Best for: 拥有 NVIDIA GPU、追求极致推理速度的爱好者和开发者。

TensorRT-LLM

免费开源（Apache 2.0）。需要 NVIDIA GPU 基础设施。

NVIDIA 官方的 LLM 优化和部署库。TensorRT-LLM 将模型编译为高度优化的 TensorRT 引擎，支持动态批处理、张量并行和 FP8 量化。

Strengths

在 NVIDIA 数据中心 GPU（A100、H100、H200）上性能最佳
原生多 GPU 和多节点张量并行
动态批处理和分页 KV 缓存实现生产级吞吐量
Hopper GPU 上的 FP8 量化在速度和质量间取得极佳平衡

Weaknesses

配置复杂，推理前需要模型编译步骤
仅支持 NVIDIA 数据中心 GPU——消费级 GPU 支持有限
学习曲线陡峭，配置选项繁多

Best for: 在 NVIDIA 数据中心硬件上追求最大吞吐量、且配置复杂度可接受的企业级生产部署。

How Ertas Fits In

微调模型只是方程式的一半——你还需要将它部署到某个地方。Ertas 通过以 GGUF 格式导出微调模型来弥补这一差距，GGUF 是本地推理生态中支持最广泛的量化模型格式。在 Ertas 上训练的模型可以直接加载到 Ollama、llama.cpp、LM Studio、LocalAI 或任何其他支持 GGUF 的框架中。

这意味着你的部署路径非常清晰：在 Ertas 上微调，下载 GGUF 文件，然后用最适合你需求的推理框架来部署。使用 Ollama 快速本地测试，用 vLLM 实现生产级吞吐量，或用 LM Studio 让非技术同事通过图形界面与模型交互。无需格式转换，无兼容性问题。

Conclusion

本地 LLM 推理生态为每种使用场景和技能水平都提供了明确的选择。Ollama 和 LM Studio 让入门变得轻而易举，llama.cpp 和 MLX 提供硬件灵活性和原生性能，而 vLLM 和 TensorRT-LLM 则提供生产级部署所需的吞吐量。ExLlamaV2 在消费级硬件上追求极致速度方面占据独特位置。

随着更好的量化和蒸馏技术不断缩小模型体积，本地推理正变得适用于越来越广泛的应用场景。将 Ertas 微调的模型与合适的推理框架相结合，让你可以构建私密、高速且低成本的 AI 功能，而无需依赖任何云端 API。