Text Generation Web UI + Ertas
将 Ertas 训练的 GGUF 模型加载到 oobabooga 的 Text Generation Web UI 中,进行多后端高级推理,配备角色预设、扩展支持和基于 Gradio 的界面。
Overview
Text Generation Web UI(通常称为 oobabooga)是功能最丰富的开源本地大语言模型运行界面之一。基于 Gradio 构建,它提供基于浏览器的 UI,支持多种推理后端,包括 llama.cpp、ExLlamaV2、Transformers 和 AutoGPTQ。该界面提供聊天模式、指令模式、笔记本模式和一套全面的生成参数,使其成为模型评估、提示工程和创意文本生成的强大工作台。
该工具的扩展系统增加了长期记忆、网络搜索、语音输入/输出、多模态视觉和 API 端点等功能。对于评估微调模型的团队,Text Generation Web UI 能在同一会话中加载多个模型并在它们之间切换的能力使其在 A/B 测试和质量比较方面极具价值。其丰富的参数控制——包括采样器、重复惩罚和语法约束——允许在不同生成配置下对模型行为进行彻底测试。
How Ertas Integrates
在 Ertas Studio 中完成微调作业后,您可以以 GGUF 格式下载模型并直接加载到 Text Generation Web UI 的 llama.cpp 后端中。将 GGUF 文件放入工具的模型目录,从 Model 选项卡中选择它,并配置推理参数。UI 根据 Ertas 在导出时嵌入的 GGUF 元数据自动检测模型架构,并为上下文长度、GPU 层卸载和线程分配提供合理的默认值。
Text Generation Web UI 在与 Ertas 的微调迭代周期中特别有价值。其并排比较功能让您同时加载基础模型和微调版本,通过相同的提示运行两者,直接观察训练的影响。笔记本模式提供了测试复杂提示的草稿本,而 API 扩展暴露了兼容 OpenAI 的端点用于自动化评估脚本。这使该工具成为需要在生产部署前进行彻底模型评估的团队的理想 Ertas 补充。
Getting Started
- 1
在 Ertas Studio 中微调您的模型
在 Ertas 画布上使用 JSONL 数据集配置并运行训练作业。在整个训练过程中监控损失曲线和验证指标 。
- 2
导出为 GGUF
从 Ertas Studio 以 GGUF 格式下载微调模型。选择与您评估硬件匹配的量化级别。
- 3
将模型放入模型目录
将下载的 GGUF 文件复制到 Text Generation Web UI 的 models/ 目录。该工具在启动时和在 Model 选项卡中点击刷新时会扫描此目录。
- 4
使用 llama.cpp 后端加载模型
在 Model 选项卡中,从下拉菜单选择您的模型并选择 llama.cpp 加载器。配置 GPU 层数、上下文大小和线程数,然后点击加载。
- 5
在聊天和笔记本模式中评估
在聊天模式(用于对话测试)和笔记本模式(用于自由形式提示实验)之间切换。调整采样参数以探索不同生成设置下的模型行为。
- 6
启用 API 扩展
激活兼容 OpenAI 的 API 扩展以通过 HTTP 提供模型服务。使用此端点运行自动化评估脚本或与其他开发工具集成。
# After downloading the GGUF model from Ertas Studio,
# copy it to the text-generation-webui models directory
cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/
# Launch Text Generation Web UI with the API extension enabled
cd text-generation-webui
python server.py --model my-model-Q4_K_M.gguf \
--loader llama.cpp \
--n-gpu-layers 35 \
--api \
--listen
# The web UI is available at http://localhost:7860
# The API endpoint is available at http://localhost:5000Benefits
- 多种推理后端(llama.cpp、ExLlamaV2、Transformers)提供灵活性
- 并排模型比较用于评估微调改进效果
- 丰富的采样参数控制用于彻底的模型行为测试
- 扩展生态系统支持长期记忆、网络搜索和视觉功能
- 笔记本模式用于自由形式的提示工程和实验
- 基于浏览器的 UI,可从本地网络上的任何设备访问
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Quantization
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Introducing Ertas Studio: A Visual Canvas for Fine-Tuning AI Models
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
KoboldCpp
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for ML Engineers & Fine-Tuning Practitioners
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.