Text Generation Web UI + Ertas

    将 Ertas 训练的 GGUF 模型加载到 oobabooga 的 Text Generation Web UI 中,进行多后端高级推理,配备角色预设、扩展支持和基于 Gradio 的界面。

    Overview

    Text Generation Web UI(通常称为 oobabooga)是功能最丰富的开源本地大语言模型运行界面之一。基于 Gradio 构建,它提供基于浏览器的 UI,支持多种推理后端,包括 llama.cpp、ExLlamaV2、Transformers 和 AutoGPTQ。该界面提供聊天模式、指令模式、笔记本模式和一套全面的生成参数,使其成为模型评估、提示工程和创意文本生成的强大工作台。

    该工具的扩展系统增加了长期记忆、网络搜索、语音输入/输出、多模态视觉和 API 端点等功能。对于评估微调模型的团队,Text Generation Web UI 能在同一会话中加载多个模型并在它们之间切换的能力使其在 A/B 测试和质量比较方面极具价值。其丰富的参数控制——包括采样器、重复惩罚和语法约束——允许在不同生成配置下对模型行为进行彻底测试。

    How Ertas Integrates

    在 Ertas Studio 中完成微调作业后,您可以以 GGUF 格式下载模型并直接加载到 Text Generation Web UI 的 llama.cpp 后端中。将 GGUF 文件放入工具的模型目录,从 Model 选项卡中选择它,并配置推理参数。UI 根据 Ertas 在导出时嵌入的 GGUF 元数据自动检测模型架构,并为上下文长度、GPU 层卸载和线程分配提供合理的默认值。

    Text Generation Web UI 在与 Ertas 的微调迭代周期中特别有价值。其并排比较功能让您同时加载基础模型和微调版本,通过相同的提示运行两者,直接观察训练的影响。笔记本模式提供了测试复杂提示的草稿本,而 API 扩展暴露了兼容 OpenAI 的端点用于自动化评估脚本。这使该工具成为需要在生产部署前进行彻底模型评估的团队的理想 Ertas 补充。

    Getting Started

    1. 1

      在 Ertas Studio 中微调您的模型

      在 Ertas 画布上使用 JSONL 数据集配置并运行训练作业。在整个训练过程中监控损失曲线和验证指标。

    2. 2

      导出为 GGUF

      从 Ertas Studio 以 GGUF 格式下载微调模型。选择与您评估硬件匹配的量化级别。

    3. 3

      将模型放入模型目录

      将下载的 GGUF 文件复制到 Text Generation Web UI 的 models/ 目录。该工具在启动时和在 Model 选项卡中点击刷新时会扫描此目录。

    4. 4

      使用 llama.cpp 后端加载模型

      在 Model 选项卡中,从下拉菜单选择您的模型并选择 llama.cpp 加载器。配置 GPU 层数、上下文大小和线程数,然后点击加载。

    5. 5

      在聊天和笔记本模式中评估

      在聊天模式(用于对话测试)和笔记本模式(用于自由形式提示实验)之间切换。调整采样参数以探索不同生成设置下的模型行为。

    6. 6

      启用 API 扩展

      激活兼容 OpenAI 的 API 扩展以通过 HTTP 提供模型服务。使用此端点运行自动化评估脚本或与其他开发工具集成。

    bash
    # After downloading the GGUF model from Ertas Studio,
    # copy it to the text-generation-webui models directory
    cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/
    
    # Launch Text Generation Web UI with the API extension enabled
    cd text-generation-webui
    python server.py --model my-model-Q4_K_M.gguf \
      --loader llama.cpp \
      --n-gpu-layers 35 \
      --api \
      --listen
    
    # The web UI is available at http://localhost:7860
    # The API endpoint is available at http://localhost:5000
    在 Text Generation Web UI 中使用 llama.cpp 后端和 API 扩展加载 Ertas 导出的 GGUF 模型,用于评估和服务。

    Benefits

    • 多种推理后端(llama.cpp、ExLlamaV2、Transformers)提供灵活性
    • 并排模型比较用于评估微调改进效果
    • 丰富的采样参数控制用于彻底的模型行为测试
    • 扩展生态系统支持长期记忆、网络搜索和视觉功能
    • 笔记本模式用于自由形式的提示工程和实验
    • 基于浏览器的 UI,可从本地网络上的任何设备访问

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.