Text Generation Web UI + Ertas

將 Ertas 訓練的 GGUF 模型載入 oobabooga 的 Text Generation Web UI，實現具有多後端、角色預設、擴充支援和基於 Gradio 介面的進階推理。

Overview

Text Generation Web UI（通常稱為 oobabooga）是功能最豐富的開源本地大型語言模型運行介面之一。基於 Gradio 建構，它提供基於瀏覽器的 UI，支援多個推理後端，包括 llama.cpp、ExLlamaV2、Transformers 和 AutoGPTQ。介面提供聊天模式、指令模式、筆記本模式和全面的生成參數集，使其成為模型評估、提示工程和創意文字生成的強大工作台。

該工具的擴充系統新增了長期記憶、網頁搜尋、語音輸入/輸出、多模態視覺和 API 端點等功能。對於評估微調模型的團隊，Text Generation Web UI 能在同一工作階段中載入多個模型並在它們之間切換的能力使其在 A/B 測試和品質比較中非常有價值。其豐富的參數控制——包括取樣器、重複懲罰和語法約束——允許在不同生成設定下徹底測試模型行為。

How Ertas Integrates

在 Ertas Studio 中完成微調作業後，您可以以 GGUF 格式下載模型並直接載入 Text Generation Web UI 的 llama.cpp 後端。將 GGUF 檔案放在工具的模型目錄中，從 Model 標籤中選擇它，並設定推理參數。UI 自動偵測模型架構，並根據 Ertas 在匯出時嵌入的 GGUF 元資料提供合理的上下文長度、GPU 層卸載和執行緒分配預設值。

Text Generation Web UI 在與 Ertas 的微調迭代週期中特別有價值。其並排比較功能讓您同時載入基礎模型和微調版本，透過兩者運行相同的提示以直接觀察訓練的影響。筆記本模式提供測試複雜提示的草稿本，API 擴充暴露 OpenAI 相容端點用於自動化評估腳本。這使該工具成為需要在生產部署前進行徹底模型評估的團隊的 Ertas 理想補充。

Getting Started

1
在 Ertas Studio 中微調您的模型
在 Ertas 畫布上使用 JSONL 資料集設定並運行訓練作業。在整個訓練過程中監控損失曲線和驗證指標。
2
匯出為 GGUF
從 Ertas Studio 以 GGUF 格式下載微調模型。選擇匹配評估硬體的量化級別。
3
將模型放在模型目錄中
將下載的 GGUF 檔案複製到 Text Generation Web UI 的 models/ 目錄。工具在啟動時和點擊 Model 標籤中的「刷新」時會掃描此目錄。
4
使用 llama.cpp 後端載入模型
在 Model 標籤中，從下拉選單選擇您的模型並選擇 llama.cpp 載入器。設定 GPU 層、上下文大小和執行緒數，然後點擊載入。
5
在聊天和筆記本模式中評估
在聊天模式（用於對話測試）和筆記本模式（用於自由形式提示實驗）之間切換。調整取樣參數以在不同生成設定下探索模型行為。
6
啟用 API 擴充
啟用 OpenAI 相容 API 擴充以透過 HTTP 服務您的模型。使用此端點進行自動化評估腳本或與其他開發工具整合。

bash

# After downloading the GGUF model from Ertas Studio,
# copy it to the text-generation-webui models directory
cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/

# Launch Text Generation Web UI with the API extension enabled
cd text-generation-webui
python server.py --model my-model-Q4_K_M.gguf \
  --loader llama.cpp \
  --n-gpu-layers 35 \
  --api \
  --listen

# The web UI is available at http://localhost:7860
# The API endpoint is available at http://localhost:5000

在 Text Generation Web UI 中使用 llama.cpp 後端和 API 擴充載入 Ertas 匯出的 GGUF 模型，用於評估和服務。