GGUF vs ONNX
2026 年 GGUF 与 ONNX:GGUF 是 Mac、CPU 和 GPU 上本地 LLM 推理的标准 ;ONNX 触及移动 NPU、原生 Windows 和浏览器。何时使用每一种。
Overview
GGUF 和 ONNX 都是为推理设计的模型格式,但它们来自不同的世界并针对不同的部署场景优化。GGUF 源自 llama.cpp 生态系统,专为在消费级硬件上运行大语言模型设计。它擅长 CPU 和混合 CPU/GPU 推理,具有广泛的量化支持,已成为使用 Ollama、LM Studio 和 GPT4All 等工具本地运行 LLM 的事实标准。
ONNX(开放神经网络交换)是一种更广泛、更通用的格式,由 Microsoft、Meta 和其他主要科技公司支持。它设计用于跨平台互操作性——在 PyTorch 中训练模型,导出为 ONNX,在任何 ONNX Runtime 兼容硬件上以平台特定优化运行。对于 LLM 而言,ONNX Runtime GenAI(ORT-GenAI)是现代路径,尽管它对全新模型架构的支持可能落后于 llama.cpp。ONNX 真正的优势在于硬件触及范围:NPU 加速的移动推理(通过 CoreML execution provider 的 Apple Neural Engine、通过 QNN 的 Qualcomm Hexagon)、原生 Windows AI(DirectML / Windows ML,Windows Copilot Runtime 的基础),以及浏览器内推理(基于 WASM / WebGPU 的 ONNX Runtime Web)。
关键区别在于硬件目标,而非哪个更新或更好。GGUF 为 Mac、CPU 和通用 GPU 上的 LLM 推理进行了窄向优化,把一件事做到极致,而且 llama.cpp 确实可以在移动 CPU/GPU 上运行。ONNX 触及 llama.cpp 未充分利用的硬件——移动 NPU、原生 Windows 和浏览器——并且也支持非 LLM 模型类型(视觉、音频、嵌入)。在笔记本电脑上本地运行 LLM,GGUF 是既定选择。对于 NPU 加速的移动端、原生 Windows、浏览器部署或跨模型流程,ONNX 提供了触及范围。
Feature Comparison
| Feature | GGUF | ONNX |
|---|---|---|
| LLM 专用优化 | 深度 | 良好(通过 ORT-GenAI) |
| 模型类型支持 | 主要 LLM | 任何神经网络 |
| 量化支持 | 广泛(Q2-Q8,k-quants) | 标准(INT8、INT4) |
| CPU 推理 | 高度优化 | 优化(ONNX Runtime) |
| 移 动 CPU/GPU | 是(llama.cpp) | 是(ONNX Runtime Mobile) |
| 移动 NPU(Apple/Qualcomm) | 未充分利用 | 是(CoreML / QNN execution provider) |
| 原生 Windows / 浏览器 | 通过 llama.cpp 构建 | DirectML / Windows ML;ORT Web(WASM/WebGPU) |
| 单文件格式 | 通常多文件 | |
| 本地 LLM 工具 | Ollama、LM Studio、llama.cpp | ONNX Runtime、ORT-GenAI |
| 生态系统成熟度 | LLM 专注,成熟 | 广泛,非常成熟 |
Strengths
GGUF
- 专为 LLM 推理构建,针对 Transformer 模型有架构特定优化
- 广泛的量化库,包括平衡不同硬件上质量和大小的 k-quant 变体
- 单文件格式包含所有元数据、分词器配置和权重——完全自包含
- 最流行本地 LLM 工具的原生格式:Ollama、LM Studio、llama.cpp 和 GPT4All
- 高度优化的 CPU 和 Metal 推理——在 Apple Silicon、现代 x86 和通用 GPU 上表现出色
- 活跃社区快速支持新模型架构和量化方法,通常领先于 ORT-GenAI
ONNX
- NPU 加速的移动推理:调用 llama.cpp 未充分利用的 Apple Neural Engine(CoreML)和 Qualcomm Hexagon(QNN),在手机上实现更低延迟和电量消耗
- 原生 Windows AI 路径:搭配 DirectML / Windows ML 的 ONNX 是 Microsoft 的设备端运行时,是 Windows Copilot Runtime 和 Phi Silica 的基础
- 通过 ONNX Runtime Web(WASM / WebGPU)实现浏览器内推理,无需服务器
- 跨平台互操作性——在任何框架中训练,在任何 ONNX Runtime 兼容硬件上部署
- 支持所有模型类型——图像分类、目标检测、语音识别、嵌入、重排器,不仅限于 LLM
- 由主要科技公司支持,提供企业支持、长期稳定性,以及融合操作的图优化传递
Which Should You Choose?
GGUF 是这些工具的原生格式。虽然 ONNX 可以通过 ORT-GenAI 运行 LLM,但本地 LLM 推理的生态系统和工具是围绕 GGUF 构建的。
ONNX Runtime 通过 CoreML 调用 Apple Neural Engine、通过 QNN 调用 Qualcomm Hexagon,并在 Windows 上使用 DirectML。GGUF/llama.cpp 可在移动 CPU/GPU 上运行,但不能充分利用 NPU。
ONNX Runtime Web 在 WASM 或 WebGPU 上于客户端执行 ONNX 模型。GGUF 没有一流的浏览器运行时。
GGUF 提供更多专为 LLM 设计的量化变体,通过 k-quant 方法对质量-大小权衡提供细粒度控制。
ONNX 支持所有神经网络类型,并为多样化部署目标提供硬件特定优化。GGUF 是 LLM 专用的。
单个 GGUF 文件包含运行模型所需的一切。无需外部配置文件、分词器设置或依赖管理。
Verdict
GGUF 和 ONNX 各自主导不同的硬件目标。在 Mac、CPU 或通用 GPU 上本地运行 LLM,GGUF 是明确的标准。其与 Ollama、LM Studio 和 llama.cpp 的集成,加上广泛的 LLM 专用量化,使其成为本地 AI 的默认格式,单文件设计让分发变得轻而易举。
ONNX 是更广泛、更多功能的格式,其决定性优势在于触及 GGUF 无法触及的硬件:移动 NPU(Apple Neural Engine、Qualcomm Hexagon)、原生 Windows(DirectML / Windows ML)和浏览器(ORT Web),以及非 LLM 模型类型。它通过 ORT-GenAI 的 LLM 支持很稳健,但在最新架构上落后于 llama.cpp。选择取决于目标:笔记本/台式机/服务器的 LLM 推理指向 GGUF;NPU 移动端、原生 Windows、浏览器或跨模型部署指向 ONNX。
How Ertas Fits In
Ertas Studio 以 GGUF 导出微调模型,这是 Mac、CPU 和通用 GPU 上本地 LLM 推理的主导标准,可直接用于 Ollama、LM Studio 和 llama.cpp。一键导出自动处理转换和量化。GGUF 覆盖了当今本地部署中最大的一块;对于 ONNX 领先的目标——NPU 加速的移动端、原生 Windows 和浏览器——ONNX Runtime 是路径。标准化 GGUF 让 Ertas 模型在最广泛使用的本地推理工具中运行,无需任何转换工作。
Related Resources
Ship AI that runs on your users' devices.
Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.