vs

    GGUF vs ONNX

    2026 年 GGUF 与 ONNX:GGUF 是 Mac、CPU 和 GPU 上本地 LLM 推理的标准;ONNX 触及移动 NPU、原生 Windows 和浏览器。何时使用每一种。

    Overview

    GGUF 和 ONNX 都是为推理设计的模型格式,但它们来自不同的世界并针对不同的部署场景优化。GGUF 源自 llama.cpp 生态系统,专为在消费级硬件上运行大语言模型设计。它擅长 CPU 和混合 CPU/GPU 推理,具有广泛的量化支持,已成为使用 Ollama、LM Studio 和 GPT4All 等工具本地运行 LLM 的事实标准。

    ONNX(开放神经网络交换)是一种更广泛、更通用的格式,由 Microsoft、Meta 和其他主要科技公司支持。它设计用于跨平台互操作性——在 PyTorch 中训练模型,导出为 ONNX,在任何 ONNX Runtime 兼容硬件上以平台特定优化运行。对于 LLM 而言,ONNX Runtime GenAI(ORT-GenAI)是现代路径,尽管它对全新模型架构的支持可能落后于 llama.cpp。ONNX 真正的优势在于硬件触及范围:NPU 加速的移动推理(通过 CoreML execution provider 的 Apple Neural Engine、通过 QNN 的 Qualcomm Hexagon)、原生 Windows AI(DirectML / Windows ML,Windows Copilot Runtime 的基础),以及浏览器内推理(基于 WASM / WebGPU 的 ONNX Runtime Web)。

    关键区别在于硬件目标,而非哪个更新或更好。GGUF 为 Mac、CPU 和通用 GPU 上的 LLM 推理进行了窄向优化,把一件事做到极致,而且 llama.cpp 确实可以在移动 CPU/GPU 上运行。ONNX 触及 llama.cpp 未充分利用的硬件——移动 NPU、原生 Windows 和浏览器——并且也支持非 LLM 模型类型(视觉、音频、嵌入)。在笔记本电脑上本地运行 LLM,GGUF 是既定选择。对于 NPU 加速的移动端、原生 Windows、浏览器部署或跨模型流程,ONNX 提供了触及范围。

    Feature Comparison

    FeatureGGUFONNX
    LLM 专用优化深度良好(通过 ORT-GenAI)
    模型类型支持主要 LLM任何神经网络
    量化支持广泛(Q2-Q8,k-quants)标准(INT8、INT4)
    CPU 推理高度优化优化(ONNX Runtime)
    移动 CPU/GPU是(llama.cpp)是(ONNX Runtime Mobile)
    移动 NPU(Apple/Qualcomm)未充分利用是(CoreML / QNN execution provider)
    原生 Windows / 浏览器通过 llama.cpp 构建DirectML / Windows ML;ORT Web(WASM/WebGPU)
    单文件格式通常多文件
    本地 LLM 工具Ollama、LM Studio、llama.cppONNX Runtime、ORT-GenAI
    生态系统成熟度LLM 专注,成熟广泛,非常成熟

    Strengths

    GGUF

    • 专为 LLM 推理构建,针对 Transformer 模型有架构特定优化
    • 广泛的量化库,包括平衡不同硬件上质量和大小的 k-quant 变体
    • 单文件格式包含所有元数据、分词器配置和权重——完全自包含
    • 最流行本地 LLM 工具的原生格式:Ollama、LM Studio、llama.cpp 和 GPT4All
    • 高度优化的 CPU 和 Metal 推理——在 Apple Silicon、现代 x86 和通用 GPU 上表现出色
    • 活跃社区快速支持新模型架构和量化方法,通常领先于 ORT-GenAI

    ONNX

    • NPU 加速的移动推理:调用 llama.cpp 未充分利用的 Apple Neural Engine(CoreML)和 Qualcomm Hexagon(QNN),在手机上实现更低延迟和电量消耗
    • 原生 Windows AI 路径:搭配 DirectML / Windows ML 的 ONNX 是 Microsoft 的设备端运行时,是 Windows Copilot Runtime 和 Phi Silica 的基础
    • 通过 ONNX Runtime Web(WASM / WebGPU)实现浏览器内推理,无需服务器
    • 跨平台互操作性——在任何框架中训练,在任何 ONNX Runtime 兼容硬件上部署
    • 支持所有模型类型——图像分类、目标检测、语音识别、嵌入、重排器,不仅限于 LLM
    • 由主要科技公司支持,提供企业支持、长期稳定性,以及融合操作的图优化传递

    Which Should You Choose?

    您想使用 Ollama 或 LM Studio 在笔记本电脑上本地运行 LLMGGUF

    GGUF 是这些工具的原生格式。虽然 ONNX 可以通过 ORT-GenAI 运行 LLM,但本地 LLM 推理的生态系统和工具是围绕 GGUF 构建的。

    您需要在 iPhone 或 Android 上进行 NPU 加速推理,或原生 Windows AIONNX

    ONNX Runtime 通过 CoreML 调用 Apple Neural Engine、通过 QNN 调用 Qualcomm Hexagon,并在 Windows 上使用 DirectML。GGUF/llama.cpp 可在移动 CPU/GPU 上运行,但不能充分利用 NPU。

    您想在浏览器中无后端运行模型ONNX

    ONNX Runtime Web 在 WASM 或 WebGPU 上于客户端执行 ONNX 模型。GGUF 没有一流的浏览器运行时。

    您需要在资源受限硬件上部署 LLM 时获得最大量化灵活性GGUF

    GGUF 提供更多专为 LLM 设计的量化变体,通过 k-quant 方法对质量-大小权衡提供细粒度控制。

    您需要跨不同硬件部署非 LLM 模型(视觉、音频、嵌入)ONNX

    ONNX 支持所有神经网络类型,并为多样化部署目标提供硬件特定优化。GGUF 是 LLM 专用的。

    您正在构建 LLM 推理流程并需要最简单的部署方式GGUF

    单个 GGUF 文件包含运行模型所需的一切。无需外部配置文件、分词器设置或依赖管理。

    Verdict

    GGUF 和 ONNX 各自主导不同的硬件目标。在 Mac、CPU 或通用 GPU 上本地运行 LLM,GGUF 是明确的标准。其与 Ollama、LM Studio 和 llama.cpp 的集成,加上广泛的 LLM 专用量化,使其成为本地 AI 的默认格式,单文件设计让分发变得轻而易举。

    ONNX 是更广泛、更多功能的格式,其决定性优势在于触及 GGUF 无法触及的硬件:移动 NPU(Apple Neural Engine、Qualcomm Hexagon)、原生 Windows(DirectML / Windows ML)和浏览器(ORT Web),以及非 LLM 模型类型。它通过 ORT-GenAI 的 LLM 支持很稳健,但在最新架构上落后于 llama.cpp。选择取决于目标:笔记本/台式机/服务器的 LLM 推理指向 GGUF;NPU 移动端、原生 Windows、浏览器或跨模型部署指向 ONNX。

    How Ertas Fits In

    Ertas Studio 以 GGUF 导出微调模型,这是 Mac、CPU 和通用 GPU 上本地 LLM 推理的主导标准,可直接用于 Ollama、LM Studio 和 llama.cpp。一键导出自动处理转换和量化。GGUF 覆盖了当今本地部署中最大的一块;对于 ONNX 领先的目标——NPU 加速的移动端、原生 Windows 和浏览器——ONNX Runtime 是路径。标准化 GGUF 让 Ertas 模型在最广泛使用的本地推理工具中运行,无需任何转换工作。

    Related Resources

    Ship AI that runs on your users' devices.

    Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.