Fine-Tune Vicuna with Ertas

Familia de modelos ajustados con instrucciones de LMSYS en tamaños de 7B, 13B y 33B, ajustados desde Llama con conversaciones de ShareGPT y ampliamente reconocidos por ser pioneros en la metodología de evaluación de chatbots de código abierto.

7B13B33BLMSYS

Overview

Vicuna es una familia de modelos de chatbot de código abierto desarrollados por LMSYS (Large Model Systems Organization), un grupo de investigación de UC Berkeley, CMU, Stanford y UCSD. Lanzado en marzo de 2023, Vicuna fue creado ajustando modelos Llama con aproximadamente 125,000 conversaciones compartidas por usuarios recopiladas de ShareGPT.com. Los modelos resultantes demostraron una calidad conversacional que las evaluaciones tempranas estimaron en aproximadamente el 90% de la capacidad de ChatGPT.

Vicuna jugó un papel fundamental en el ecosistema de LLMs de código abierto al demostrar que un fine-tuning relativamente simple con datos conversacionales de alta calidad podía mejorar dramáticamente la capacidad de chat de un modelo base. El proyecto también introdujo innovaciones en metodología de evaluación — LMSYS desarrolló el Chatbot Arena, una plataforma colaborativa para comparar respuestas de LLMs cara a cara, que desde entonces se ha convertido en el benchmark independiente más citado para calidad de IA conversacional.

La familia Vicuna incluye variantes de 7B, 13B y 33B parámetros, todas derivadas de modelos base Llama. Vicuna v1.5, la versión más ampliamente usada, está construida sobre Llama 2 y soporta una ventana de contexto de 16K tokens. Los modelos usan la arquitectura estándar de Llama con atención de consultas agrupadas y embeddings posicionales RoPE.

Los modelos Vicuna se publican bajo la Licencia Comunitaria de Llama 2 (para v1.5). Aunque modelos más nuevos han superado a Vicuna en benchmarks, las contribuciones del proyecto a la metodología de evaluación y su demostración del poder del fine-tuning con datos conversacionales siguen siendo influyentes.

Key Features

El entrenamiento de Vicuna con conversaciones de ShareGPT le da un estilo conversacional distintivo. Los datos de entrenamiento consisten en conversaciones reales de múltiples turnos entre usuarios y ChatGPT, capturando el flujo natural del diálogo humano-IA incluyendo preguntas de seguimiento, aclaraciones, cambios de tema e instrucciones matizadas. Esto produce un modelo que se siente más naturalmente conversacional que los modelos ajustados con datasets sintéticos de seguimiento de instrucciones.

La plataforma de evaluación Chatbot Arena, desarrollada junto con Vicuna, introdujo la evaluación por comparación por pares a la comunidad de LLMs. Los usuarios envían prompts y califican dos respuestas anónimas de modelos lado a lado, generando calificaciones Elo que reflejan las preferencias de usuarios reales. Esta metodología se ha convertido en el estándar de oro para evaluar IA conversacional y ahora se usa para medir prácticamente cada lanzamiento importante de modelo de lenguaje.

Vicuna v1.5 incluye entrenamiento con soporte de contexto de 16K, habilitando conversaciones más largas y procesamiento de documentos que la versión original de contexto de 2K. El modelo maneja conversaciones de múltiples turnos bien, manteniendo contexto y coherencia a lo largo de sesiones de diálogo extendidas — un beneficio directo de entrenar con datos conversacionales reales en lugar de pares de instrucciones de un solo turno.

Fine-Tuning with Ertas

Los modelos Vicuna son sencillos de ajustar en Ertas Studio, siguiendo el mismo flujo de trabajo que otros modelos basados en Llama. La variante de 7B requiere 8-12GB de VRAM con QLoRA, la de 13B necesita 10-14GB, y la de 33B necesita 20-24GB. Dado que Vicuna ya está ajustado con instrucciones, el fine-tuning adicional adapta su estilo conversacional y conocimiento a tu dominio específico.

El entrenamiento conversacional de Vicuna lo hace un fuerte punto de partida para aplicaciones de chatbot y orientadas al cliente. Ajusta con los registros de conversaciones de tu organización, bases de datos de preguntas frecuentes o registros de tickets de soporte para crear un asistente conversacional específico de dominio. El estilo natural de diálogo del modelo significa que se necesitan menos datos de fine-tuning para lograr un tono conversacional comparado con modelos base.

Después del fine-tuning en Ertas Studio, exporta a GGUF para despliegue. Los modelos Vicuna son compatibles con todos los backends de inferencia estándar. Un Vicuna 13B cuantizado en Q4_K_M de aproximadamente 7.8GB proporciona un buen equilibrio entre calidad conversacional y eficiencia de recursos para despliegues de chatbot en producción. Ollama y LM Studio soportan la plantilla de chat de Vicuna de forma nativa.

Use Cases

La principal fortaleza de Vicuna es la IA conversacional. Su entrenamiento con conversaciones reales humano-IA lo hace natural y atractivo en diálogo de múltiples turnos, adecuado para chatbots de soporte al cliente, asistentes internos de conocimiento y sistemas de ayuda interactivos. El modelo maneja bien el flujo de conversación, seguimiento de contexto y gestión de temas.

El modelo también es valioso para organizaciones que evalúan y comparan modelos de lenguaje. La metodología de Chatbot Arena pionera con Vicuna proporciona un marco práctico para evaluación, y ejecutar Vicuna junto a modelos más nuevos proporciona una línea base de calidad útil. Muchas organizaciones incluyen a Vicuna en sus suites de evaluación como punto de referencia.

Los modelos Vicuna ajustados sirven bien como interfaces conversacionales para bases de conocimiento específicas de dominio. La capacidad de diálogo natural del modelo, combinada con fine-tuning específico de dominio, crea asistentes que pueden discutir temas técnicos de manera accesible y conversacional — útil para plataformas educativas, navegación de documentación técnica y sistemas de consulta experta.

Hardware Requirements

Vicuna 7B en Q4_K_M requiere aproximadamente 4.4GB de RAM, el de 13B necesita unos 7.8GB, y el de 33B necesita unos 19GB. Estos requisitos reflejan la arquitectura subyacente de Llama. Los modelos de 7B y 13B funcionan cómodamente en hardware de consumo con 8-16GB de RAM o GPUs con 8-12GB de VRAM.

En Q8_0, los requisitos son aproximadamente 7.7GB (7B), 13.8GB (13B) y 35GB (33B). La inferencia completa en FP16 requiere aproximadamente 14.5GB (7B), 26GB (13B) y 66GB (33B). El modelo de 13B en una RTX 4090 en Q4_K_M típicamente logra 35-50 tokens por segundo, proporcionando una experiencia conversacional responsiva.

Para fine-tuning en Ertas Studio, el de 7B necesita 8-12GB de VRAM, el de 13B necesita 10-14GB, y el de 33B necesita 20-24GB con QLoRA. La variante de 13B ofrece la mejor relación calidad-recursos para la mayoría de tareas de fine-tuning conversacional, proporcionando una coherencia notablemente mejor en múltiples turnos que el de 7B a costos de entrenamiento manejables.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →