Text Generation Web UI + Ertas

将 Ertas 训练的 GGUF 模型加载到 oobabooga 的 Text Generation Web UI 中，进行多后端高级推理，配备角色预设、扩展支持和基于 Gradio 的界面。

Overview

Text Generation Web UI（通常称为 oobabooga）是功能最丰富的开源本地大语言模型运行界面之一。基于 Gradio 构建，它提供基于浏览器的 UI，支持多种推理后端，包括 llama.cpp、ExLlamaV2、Transformers 和 AutoGPTQ。该界面提供聊天模式、指令模式、笔记本模式和一套全面的生成参数，使其成为模型评估、提示工程和创意文本生成的强大工作台。

该工具的扩展系统增加了长期记忆、网络搜索、语音输入/输出、多模态视觉和 API 端点等功能。对于评估微调模型的团队，Text Generation Web UI 能在同一会话中加载多个模型并在它们之间切换的能力使其在 A/B 测试和质量比较方面极具价值。其丰富的参数控制——包括采样器、重复惩罚和语法约束——允许在不同生成配置下对模型行为进行彻底测试。

How Ertas Integrates

在 Ertas Studio 中完成微调作业后，您可以以 GGUF 格式下载模型并直接加载到 Text Generation Web UI 的 llama.cpp 后端中。将 GGUF 文件放入工具的模型目录，从 Model 选项卡中选择它，并配置推理参数。UI 根据 Ertas 在导出时嵌入的 GGUF 元数据自动检测模型架构，并为上下文长度、GPU 层卸载和线程分配提供合理的默认值。

Text Generation Web UI 在与 Ertas 的微调迭代周期中特别有价值。其并排比较功能让您同时加载基础模型和微调版本，通过相同的提示运行两者，直接观察训练的影响。笔记本模式提供了测试复杂提示的草稿本，而 API 扩展暴露了兼容 OpenAI 的端点用于自动化评估脚本。这使该工具成为需要在生产部署前进行彻底模型评估的团队的理想 Ertas 补充。

Getting Started

1
在 Ertas Studio 中微调您的模型
在 Ertas 画布上使用 JSONL 数据集配置并运行训练作业。在整个训练过程中监控损失曲线和验证指标。
2
导出为 GGUF
从 Ertas Studio 以 GGUF 格式下载微调模型。选择与您评估硬件匹配的量化级别。
3
将模型放入模型目录
将下载的 GGUF 文件复制到 Text Generation Web UI 的 models/ 目录。该工具在启动时和在 Model 选项卡中点击刷新时会扫描此目录。
4
使用 llama.cpp 后端加载模型
在 Model 选项卡中，从下拉菜单选择您的模型并选择 llama.cpp 加载器。配置 GPU 层数、上下文大小和线程数，然后点击加载。
5
在聊天和笔记本模式中评估
在聊天模式（用于对话测试）和笔记本模式（用于自由形式提示实验）之间切换。调整采样参数以探索不同生成设置下的模型行为。
6
启用 API 扩展
激活兼容 OpenAI 的 API 扩展以通过 HTTP 提供模型服务。使用此端点运行自动化评估脚本或与其他开发工具集成。

bash

# After downloading the GGUF model from Ertas Studio,
# copy it to the text-generation-webui models directory
cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/

# Launch Text Generation Web UI with the API extension enabled
cd text-generation-webui
python server.py --model my-model-Q4_K_M.gguf \
  --loader llama.cpp \
  --n-gpu-layers 35 \
  --api \
  --listen

# The web UI is available at http://localhost:7860
# The API endpoint is available at http://localhost:5000

在 Text Generation Web UI 中使用 llama.cpp 后端和 API 扩展加载 Ertas 导出的 GGUF 模型，用于评估和服务。