Text Generation Web UI + Ertas
Carga modelos GGUF entrenados con Ertas en text-generation-webui de oobabooga para inferencia avanzada con múltiples backends, presets de personajes, soporte de extensiones y una interfaz basada en Gradio.
Overview
Text Generation Web UI (comúnmente conocido como oobabooga) es una de las interfaces de código abierto más ricas en funciones para ejecutar modelos de lenguaje grandes localmente. Construida sobre Gradio, proporciona una interfaz basada en navegador con soporte para múltiples backends de inferencia incluyendo llama.cpp, ExLlamaV2, Transformers y AutoGPTQ. La interfaz ofrece modo chat, modo instrucción, modo notebook y un conjunto completo de parámetros de generación, haciéndola un potente banco de trabajo para evaluación de modelos, ingeniería de prompts y generación creativa de texto.
El sistema de extensiones de la herramienta agrega capacidades como memoria a largo plazo, búsqueda web, entrada/salida de voz, visión multimodal y endpoints API. Para equipos que evalúan modelos ajustados, la capacidad de Text Generation Web UI de cargar múltiples modelos y cambiar entre ellos en la misma sesión lo hace invaluable para pruebas A/B y comparación de calidad. Sus ricos controles de parámetros — incluyendo samplers, penalizaciones de repetición y restricciones gramaticales — permiten pruebas exhaustivas del comportamiento del modelo bajo diferentes configuraciones de generación.
How Ertas Integrates
Después de completar un trabajo de fine-tuning en Ertas Studio, puedes descargar el modelo en formato GGUF y cargarlo directamente en el backend llama.cpp de Text Generation Web UI. Coloca el archivo GGUF en el directorio de modelos de la herramienta, selecciónalo desde la pestaña Model y configura los parámetros de inferencia. La interfaz detecta automáticamente la arquitectura del modelo y proporciona valores predeterminados sensatos para la longitud de contexto, la descarga de capas a GPU y la asignación de hilos basados en los metadatos GGUF incorporados por Ertas durante la exportación.
Text Generation Web UI es particularmente valioso durante el ciclo de iteración de fine-tuning con Ertas. Sus funciones de comparación lado a lado te permiten cargar un modelo base y tu versión ajustada simultáneamente, ejecutando los mismos prompts a través de ambos para observar directamente el impacto del entrenamiento. El modo notebook proporciona un bloc de notas para probar prompts complejos, mientras que la extensión API expone un endpoint compatible con OpenAI para scripts de evaluación automatizada. Esto hace de la herramienta un complemento ideal para Ertas para equipos que necesitan una evaluación exhaustiva del modelo antes del despliegue en producción.
Getting Started
- 1
Ajusta tu modelo en Ertas Studio
Configura y ejecuta tu trabajo de entrenamiento en el canvas de Ertas con tu dataset JSONL. Monitorea las curvas de pérdida y las métricas de validación a lo largo del proceso de entrenamiento.
- 2
Exporta como GGUF
Descarga tu modelo ajustado en formato GGUF desde Ertas Studio. Elige un nivel de cuantización que coincida con tu hardware de evaluación.
- 3
Coloca el modelo en el directorio de modelos
Copia el archivo GGUF descargado en el directorio models/ de Text Generation Web UI. La herramienta escanea este directorio al iniciar y cuando haces clic en Refresh en la pestaña Model.
- 4
Carga el modelo con el backend llama.cpp
En la pestaña Model, selecciona tu modelo del menú desplegable y elige el cargador llama.cpp. Configura las capas de GPU, el tamaño de contexto y el número de hilos, luego haz clic en Load.
- 5
Evalúa en modos chat y notebook
Alterna entre el modo chat para pruebas conversacionales y el modo notebook para experimentación libre con prompts. Ajusta los parámetros de muestreo para explorar el comportamiento del modelo bajo diferentes configuraciones de generación.
- 6
Activa la extensión API
Activa la extensión API compatible con OpenAI para servir tu modelo por HTTP. Usa este endpoint para scripts de evaluación automatizada o para integrarte con otras herramientas de desarrollo.
# After downloading the GGUF model from Ertas Studio,
# copy it to the text-generation-webui models directory
cp ./my-model-Q4_K_M.gguf ./text-generation-webui/models/
# Launch Text Generation Web UI with the API extension enabled
cd text-generation-webui
python server.py --model my-model-Q4_K_M.gguf \
--loader llama.cpp \
--n-gpu-layers 35 \
--api \
--listen
# The web UI is available at http://localhost:7860
# The API endpoint is available at http://localhost:5000Benefits
- Múltiples backends de inferencia (llama.cpp, ExLlamaV2, Transformers) para flexibilidad
- Comparación de modelos lado a lado para evaluar mejoras del fine-tuning
- Ricos controles de parámetros de muestreo para pruebas exhaustivas del comportamiento del modelo
- Ecosistema de extensiones con memoria a largo plazo, búsqueda web y soporte de visión
- Modo notebook para ingeniería de prompts y experimentación libre
- Interfaz basada en navegador accesible desde cualquier dispositivo en la red local
Related Resources
Fine-Tuning
GGUF
Inference
LoRA
Quantization
Getting Started with Ertas: Fine-Tune and Deploy Custom AI Models
Introducing Ertas Studio: A Visual Canvas for Fine-Tuning AI Models
Self-Hosted AI for Indie Apps: Replace GPT-4 with Your Own Model
KoboldCpp
llama.cpp
Ollama
Ertas for SaaS Product Teams
Ertas for Customer Support
Ertas for ML Engineers & Fine-Tuning Practitioners
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.