llama.cpp + Ertas

    从 Ertas 导出 GGUF 模型,使用 llama.cpp 在 CPU、GPU 或 Apple Silicon 上运行高性能推理,无需沉重的框架依赖。

    Overview

    llama.cpp 是纯 C/C++ 实现的高效 LLM 推理参考实现,支持从消费级笔记本电脑到多 GPU 服务器的各种硬件。通过消除对 Python 运行时和沉重 ML 框架的需求,llama.cpp 提供了本地推理中最快的 token/秒速率之一。它支持高级量化方案(从 2 位到 8 位)、KV 缓存优化、推测解码和批量推理,使其成为许多生产级本地 AI 部署的骨干。

    对于使用 Ertas 微调领域特定模型的团队,llama.cpp 提供了将训练权重转化为生产就绪推理端点的性能层。无论您是将模型嵌入桌面应用、在边缘设备上运行推理,还是构建高吞吐量 API 服务器,llama.cpp 都能提供托管运行时无法匹配的对内存使用、线程和 GPU 卸载的精细控制。

    How Ertas Integrates

    在 Ertas Studio 中微调后,您可以直接以 llama.cpp 使用的 GGUF 格式下载模型。下载时,您可以从十多种量化选项中选择,Ertas 会显示针对您验证集的困惑度基准测试,帮助您在模型大小和输出质量之间选择正确的权衡。下载的 GGUF 文件包含嵌入的聊天模板、分词器配置和元数据,因此 llama.cpp 可以在无需额外配置文件的情况下加载和提供模型服务。

    Ertas Studio 还会在您下载时提供推荐的 llama-server 启动参数,基于您选择的模型大小和量化级别。这些建议涵盖上下文大小、批量大小和层卸载策略,消除了性能调优的猜测工作,帮助您的微调模型在特定硬件上以最佳效率运行。

    Getting Started

    1. 1

      在 Ertas Studio 中完成微调

      在 Ertas Studio 中使用 LoRA 或全参数方法训练模型。在导出前针对测试集验证以确认质量。

    2. 2

      选择量化策略

      根据您的部署约束选择 GGUF 量化级别。Ertas 显示每个选项的估计文件大小和困惑度影响。

    3. 3

      下载 GGUF 模型

      从 Ertas Studio 以 GGUF 格式下载微调模型,包含嵌入的分词器、聊天模板和元数据。文件是自包含的,可直接用于 llama.cpp。

    4. 4

      查看推荐的服务器设置

      Ertas Studio 在您下载时显示推荐的 llama-server 启动参数,包括上下文大小、GPU 层卸载和线程数。

    5. 5

      启动 llama-server

      使用导出的模型启动 llama.cpp HTTP 服务器。服务器提供兼容 OpenAI 的 API 端点,用于聊天补全和嵌入。

    6. 6

      基准测试并迭代

      运行内置基准测试套件,衡量每秒 token 数、首个 token 时间和内存使用。将结果反馈到 Ertas 用于下一次训练迭代。

    bash
    # After downloading the Q4_K_M GGUF file from Ertas Studio,
    # launch llama-server with the recommended settings
    llama-server \
      --model ./models/my-model.gguf \
      --ctx-size 4096 \
      --n-gpu-layers 35 \
      --threads 8 \
      --port 8080
    
    # Test the endpoint
    curl http://localhost:8080/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{"messages": [{"role": "user", "content": "Hello"}]}'
    从 Ertas Studio 下载 GGUF 模型后,使用 llama.cpp 提供高性能本地推理服务。

    Benefits

    • 推理无需 Python 运行时或 ML 框架依赖
    • 在 CPU、GPU 和 Apple Silicon 上实现业界领先的推理速度
    • 十多种量化选项并提供困惑度影响预览
    • 自包含的 GGUF 文件,内嵌分词器和聊天模板
    • 在 GGUF 下载旁提供推荐的服务器设置
    • 适用于边缘部署、桌面应用和高吞吐量服务器

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.