Text Generation Web UI + Ertas

    將 Ertas 訓練的 GGUF 模型載入 oobabooga 的 Text Generation Web UI,實現具有多後端、角色預設、擴充支援和基於 Gradio 介面的進階推理。

    Overview

    Text Generation Web UI(通常稱為 oobabooga)是功能最豐富的開源本地大型語言模型運行介面之一。基於 Gradio 建構,它提供基於瀏覽器的 UI,支援多個推理後端,包括 llama.cpp、ExLlamaV2、Transformers 和 AutoGPTQ。介面提供聊天模式、指令模式、筆記本模式和全面的生成參數集,使其成為模型評估、提示工程和創意文字生成的強大工作台。

    該工具的擴充系統新增了長期記憶、網頁搜尋、語音輸入/輸出、多模態視覺和 API 端點等功能。對於評估微調模型的團隊,Text Generation Web UI 能在同一工作階段中載入多個模型並在它們之間切換的能力使其在 A/B 測試和品質比較中非常有價值。其豐富的參數控制——包括取樣器、重複懲罰和語法約束——允許在不同生成設定下徹底測試模型行為。

    How Ertas Integrates

    在 Ertas Studio 中完成微調作業後,您可以以 GGUF 格式下載模型並直接載入 Text Generation Web UI 的 llama.cpp 後端。將 GGUF 檔案放在工具的模型目錄中,從 Model 標籤中選擇它,並設定推理參數。UI 自動偵測模型架構,並根據 Ertas 在匯出時嵌入的 GGUF 元資料提供合理的上下文長度、GPU 層卸載和執行緒分配預設值。

    Text Generation Web UI 在與 Ertas 的微調迭代週期中特別有價值。其並排比較功能讓您同時載入基礎模型和微調版本,透過兩者運行相同的提示以直接觀察訓練的影響。筆記本模式提供測試複雜提示的草稿本,API 擴充暴露 OpenAI 相容端點用於自動化評估腳本。這使該工具成為需要在生產部署前進行徹底模型評估的團隊的 Ertas 理想補充。

    Getting Started

    1. 1

      在 Ertas Studio 中微調您的模型

      在 Ertas 畫布上使用 JSONL 資料集設定並運行訓練作業。在整個訓練過程中監控損失曲線和驗證指標。

    2. 2

      匯出為 GGUF

      從 Ertas Studio 以 GGUF 格式下載微調模型。選擇匹配評估硬體的量化級別。

    3. 3

      將模型放在模型目錄中

      將下載的 GGUF 檔案複製到 Text Generation Web UI 的 models/ 目錄。工具在啟動時和點擊 Model 標籤中的「刷新」時會掃描此目錄。

    4. 4

      使用 llama.cpp 後端載入模型

      在 Model 標籤中,從下拉選單選擇您的模型並選擇 llama.cpp 載入器。設定 GPU 層、上下文大小和執行緒數,然後點擊載入。

    5. 5

      在聊天和筆記本模式中評估

      在聊天模式(用於對話測試)和筆記本模式(用於自由形式提示實驗)之間切換。調整取樣參數以在不同生成設定下探索模型行為。

    6. 6

      啟用 API 擴充

      啟用 OpenAI 相容 API 擴充以透過 HTTP 服務您的模型。使用此端點進行自動化評估腳本或與其他開發工具整合。

    bash
    # After downloading the GGUF model from Ertas Studio,
    # copy it to the text-generation-webui models directory
    cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/
    
    # Launch Text Generation Web UI with the API extension enabled
    cd text-generation-webui
    python server.py --model my-model-Q4_K_M.gguf \
      --loader llama.cpp \
      --n-gpu-layers 35 \
      --api \
      --listen
    
    # The web UI is available at http://localhost:7860
    # The API endpoint is available at http://localhost:5000
    在 Text Generation Web UI 中使用 llama.cpp 後端和 API 擴充載入 Ertas 匯出的 GGUF 模型,用於評估和服務。

    Benefits

    • 多個推理後端(llama.cpp、ExLlamaV2、Transformers)提供靈活性
    • 並排模型比較用於評估微調改善
    • 豐富的取樣參數控制用於徹底的模型行為測試
    • 擴充生態系統具有長期記憶、網頁搜尋和視覺支援
    • 筆記本模式用於自由形式提示工程和實驗
    • 基於瀏覽器的 UI 可從本地網路上的任何裝置存取

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.