ExLlamaV2 + Ertas

Despliega modelos ajustados de Ertas usando el motor de inferencia cuantizada altamente optimizado de ExLlamaV2, logrando velocidad de generacion excepcional y eficiencia de memoria en GPUs NVIDIA tanto de consumo como de centro de datos.

Overview

ExLlamaV2 es una biblioteca de inferencia de alto rendimiento enfocada en extraer la maxima velocidad de modelos de lenguaje cuantizados en GPUs NVIDIA. Implementa kernels CUDA personalizados especificamente optimizados para multiplicacion de matrices cuantizadas, logrando velocidades de generacion que consistentemente se ubican entre las mas rapidas en benchmarks independientes. ExLlamaV2 soporta GPTQ, EXL2 y otros formatos de cuantizacion, con EXL2 ofreciendo control particularmente fino sobre los niveles de cuantizacion por capa para equilibrar calidad contra uso de memoria.

Lo que distingue a ExLlamaV2 es su enfoque en eficiencia practica para configuraciones de una o dos GPUs. Mientras otros motores de inferencia apuntan a clusters multi-GPU a gran escala, ExLlamaV2 destaca en hacer que modelos grandes se ejecuten rapido en el hardware que la mayoria de los desarrolladores realmente tienen — una sola RTX 4090, una 3090 usada o un par de GPUs de consumo. Su implementacion de atencion paginada, soporte de decodificacion especulativa y cuantizacion de cache le permiten servir modelos que de otra manera requeririan hardware mas costoso. Para desarrolladores y equipos pequenos desplegando modelos ajustados localmente, ExLlamaV2 ofrece velocidad de calidad de produccion sin infraestructura a escala de produccion.

How Ertas Integrates

Ertas Studio produce modelos ajustados que pueden cuantizarse al formato EXL2 de ExLlamaV2 para despliegue optimizado. Despues de completar un trabajo de fine-tuning en Ertas — entrenando con tus datos especificos del dominio con LoRA y fusionando los adaptadores — exportas el modelo completo y lo pasas por el pipeline de cuantizacion de ExLlamaV2. El formato EXL2 te permite apuntar a una relacion especifica de bits-por-peso (tipicamente 3.0 a 6.0 bpp), dando control preciso sobre el equilibrio entre calidad del modelo y requisitos de memoria GPU.

Una vez cuantizado, el modelo se ejecuta a traves del servidor de inferencia de ExLlamaV2, que expone un endpoint de API OpenAI-compatible para integracion con cualquier aplicacion cliente. La combinacion es particularmente efectiva para desplegar modelos especificos del dominio en hardware de consumo: Ertas maneja la inyeccion de conocimiento a traves del fine-tuning, y ExLlamaV2 maneja la optimizacion de rendimiento a traves de cuantizacion y kernels personalizados. Un modelo de 13B parametros ajustado para tu caso de uso puede servir solicitudes a mas de 80 tokens por segundo en una sola RTX 4090 — suficientemente rapido para aplicaciones interactivas y usuarios concurrentes.

Getting Started

1
Ajusta y exporta desde Ertas Studio
Entrena tu modelo especifico del dominio en Ertas Studio usando fine-tuning con LoRA. Una vez satisfecho con la calidad, fusiona los adaptadores LoRA en el modelo base y exporta el modelo completo fusionado en formato safetensors.
2
Cuantiza a formato EXL2
Usa la herramienta de conversion de ExLlamaV2 para cuantizar el modelo fusionado en formato EXL2. Elige un objetivo de bits-por-peso que equilibre calidad y memoria — 4.0 bpp es un punto optimo comun para GPUs de consumo, mientras 5.0-6.0 bpp preserva mas calidad para presupuestos de VRAM mayores.
3
Evalua el rendimiento de inferencia
Ejecuta el benchmark integrado de ExLlamaV2 para medir velocidad de generacion, rendimiento de procesamiento de prompts y uso de memoria en tu GPU objetivo. Verifica que el rendimiento cumpla tus requisitos de latencia para uso interactivo.
4
Inicia el servidor de inferencia
Inicia TabbyAPI de ExLlamaV2 o un servidor compatible para exponer tu modelo cuantizado como un endpoint OpenAI-compatible. Configura longitud de contexto, manejo de solicitudes concurrentes y decodificacion especulativa si usas un modelo borrador.
5
Conecta aplicaciones cliente
Apunta tu asistente de codificacion, interfaz de chat o aplicacion personalizada al endpoint de ExLlamaV2. Monitorea la calidad de generacion en uso real y reajusta en Ertas si el modelo necesita mejora en tareas especificas.

Benefits

Velocidad de generacion lider en la industria en configuraciones de una sola GPU a traves de kernels CUDA optimizados
Cuantizacion EXL2 de grano fino para control preciso del equilibrio calidad-versus-memoria
Suficientemente eficiente para servir modelos ajustados de 13B+ interactivamente en tarjetas RTX de consumo
Soporte de decodificacion especulativa para generacion aun mas rapida con modelos borrador compatibles
API OpenAI-compatible para integracion perfecta con herramientas de codificacion y aplicaciones personalizadas
Cuantizacion de cache y atencion paginada para maximizar usuarios concurrentes en VRAM limitada