Fine-Tune Mixtral with Ertas

Modelos de mezcla de expertos de Mistral AI que enrutan cada token a través de 2 de 8 redes de expertos, entregando rendimiento de clase 70B al costo de un modelo denso de 13B en la variante 8x7B.

8x7B8x22BMistral AI

Overview

Mixtral, lanzado por Mistral AI en diciembre de 2023 (8x7B) y abril de 2024 (8x22B), llevó la arquitectura de mezcla de expertos (MoE) al ecosistema principal de modelos de pesos abiertos. La variante 8x7B contiene 46.7B de parámetros totales pero activa solo 12.9B por paso de inferencia al enrutar cada token a través de 2 de 8 redes feed-forward de expertos. El resultado es un modelo que iguala o supera a Llama 2 70B en la mayoría de benchmarks mientras funciona aproximadamente a la velocidad de un modelo denso de 13B.

La variante 8x22B escala este enfoque dramáticamente, con 141B de parámetros totales y aproximadamente 39B activos por token. Este modelo compite con los mejores modelos de pesos abiertos disponibles, entregando fuerte rendimiento en razonamiento, código, matemáticas y tareas multilingües. Ambas variantes usan el mismo mecanismo de atención de ventana deslizante introducido en Mistral 7B.

La arquitectura MoE usa una red de enrutamiento aprendida que asigna cada token a sus dos expertos más relevantes. Diferentes expertos tienden a especializarse en diferentes tipos de contenido — algunos pueden enfocarse en código, otros en razonamiento matemático, y otros en lenguaje natural — aunque esta especialización emerge naturalmente durante el entrenamiento en lugar de ser programada explícitamente.

Ambos modelos se publican bajo la licencia Apache 2.0 y se han convertido en opciones populares para despliegues en producción donde la calidad necesita ser alta pero los presupuestos computacionales son limitados.

Key Features

La arquitectura dispersa de mezcla de expertos es la innovación central de Mixtral para el ecosistema de pesos abiertos. La red de enrutamiento añade sobrecarga despreciable, mientras que el mecanismo de selección de expertos asegura que el costo computacional escale con el número de parámetros activos en lugar de los parámetros totales. Esto significa que Mixtral 8x7B procesa tokens a casi la misma velocidad que un modelo denso de 13B a pesar de tener la capacidad de conocimiento de un modelo mucho más grande.

Mixtral 8x7B soporta una ventana de contexto de 32K tokens, haciéndolo adecuado para procesar documentos más largos, conversaciones extendidas y análisis de código multi-archivo. La variante 8x22B también soporta contexto de 65K. Ambos usan atención de consultas agrupadas para gestión eficiente del KV-cache durante la inferencia.

Las variantes instruct de ambos modelos demuestran fuertes capacidades de seguimiento de instrucciones, uso de herramientas y generación de salida estructurada. Mixtral 8x7B Instruct fue uno de los primeros modelos de pesos abiertos en lograr rendimiento de nivel GPT-3.5 en el leaderboard de Chatbot Arena, validando el enfoque MoE para aplicaciones prácticas de asistente.

Fine-Tuning with Ertas

El fine-tuning de Mixtral 8x7B en Ertas Studio requiere consideración cuidadosa de la arquitectura MoE. Aunque el modelo activa solo 12.9B de parámetros por token, los 46.7B de parámetros deben cargarse en memoria. Con QLoRA y cuantización de 4 bits, el fine-tuning requiere aproximadamente 28-32GB de VRAM — alcanzable en una sola GPU A100 de 40GB o GPUs duales RTX 4090. Ertas Studio maneja la colocación de adaptadores LoRA compatible con MoE automáticamente, apuntando a las capas de expertos activos y componentes de atención compartidos.

Para Mixtral 8x22B, el fine-tuning con QLoRA requiere aproximadamente 80-90GB de VRAM, necesitando una A100 de 80GB o configuración multi-GPU. A pesar de los mayores requisitos de memoria, el rendimiento de entrenamiento es bueno porque el cálculo de gradientes solo fluye a través de los expertos activos para cada token.

La interfaz visual de Ertas Studio hace que configurar el fine-tuning MoE sea sencillo. Selecciona Mixtral como tu modelo base, sube tu dataset, y la plataforma recomienda rango LoRA y módulos objetivo apropiados. Después del entrenamiento, exporta a formato GGUF y despliega a través de Ollama o llama.cpp, que ambos soportan inferencia MoE de forma nativa.

Use Cases

Mixtral 8x7B es una excelente opción para despliegues en producción donde necesitas calidad significativamente mejor que modelos de 7B pero no puedes permitir el costo de inferencia de modelos densos de 70B. Destaca en seguimiento de instrucciones complejas, razonamiento de múltiples pasos y generación de código mientras mantiene velocidad de inferencia rápida. Despliegues comunes incluyen escenarios de servicio de API, chatbots empresariales y sistemas de conocimiento aumentados con RAG.

La variante 8x22B apunta a aplicaciones de alta capacidad: generación y revisión avanzada de código, escritura técnica, análisis de investigación y resolución de problemas compleja multi-turno. Organizaciones que necesitan calidad cercana a modelo frontera mientras mantienen datos en sus instalaciones frecuentemente eligen Mixtral 8x22B como su modelo principal.

Ambas variantes funcionan bien en tareas multilingües, soportando generación fluida en inglés, francés, italiano, alemán y español. Esto hace de Mixtral una fuerte opción para organizaciones internacionales que necesitan un solo modelo sirviendo múltiples mercados lingüísticos.

Hardware Requirements

Mixtral 8x7B con cuantización Q4_K_M requiere aproximadamente 26GB de RAM. A pesar de activar solo 13B de parámetros por token, los 47B de parámetros deben residir en memoria ya que diferentes tokens pueden enrutarse a diferentes expertos. Esto lo hace ejecutable en sistemas con 32GB+ de RAM para inferencia CPU, o en GPUs como la RTX 4090 de 24GB (ajustado) o A6000 de 48GB. En Q8_0, se esperan aproximadamente 50GB.

Mixtral 8x22B en Q4_K_M requiere aproximadamente 80GB, adecuado para A100 de 80GB o configuraciones multi-GPU. En Q8_0, el requisito crece a aproximadamente 150GB, típicamente requiriendo 2-4 GPUs de alta VRAM o inferencia CPU con gran memoria.

La velocidad de inferencia de Mixtral es excelente relativa a la calidad del modelo porque solo se computan los pesos de expertos activos por token. En una A100 de 80GB, Mixtral 8x7B típicamente logra 40-60 tokens por segundo para generación, comparable a ejecutar un modelo denso de 13B. La inferencia CPU en hardware moderno (por ejemplo, M2 Ultra o Threadripper) con Q4_K_M típicamente produce 15-25 tokens por segundo.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →