What is Mixture of Experts?

Una arquitectura de red neuronal que enruta cada entrada a un subconjunto de sub-redes especializadas (expertos), permitiendo mayor capacidad del modelo sin aumentar proporcionalmente el costo de cómputo.

Definition

Mixture of Experts (MoE) es una arquitectura de modelo donde la red se divide en múltiples sub-redes especializadas, llamadas expertos, junto con un mecanismo de compuerta (enrutador) que selecciona qué expertos procesan cada token de entrada. En lugar de que cada parámetro esté activo para cada entrada, los modelos MoE activan solo una fracción de sus parámetros totales por pase forward — típicamente 2 de 8 o 16 expertos. Este patrón de activación dispersa permite a los modelos MoE tener conteos de parámetros totales mucho mayores (y por tanto mayor capacidad de conocimiento) mientras mantienen el costo de cómputo por token comparable a un modelo denso mucho más pequeño.

El modelo de lenguaje MoE más prominente es Mixtral 8x7B de Mistral AI, que contiene 8 redes feed-forward expertas en cada capa transformer. Para cada token, el enrutador selecciona los 2 mejores expertos, lo que significa que solo aproximadamente 13B de los 47B de parámetros totales del modelo están activos por token. Esto le da a Mixtral la capacidad de conocimiento de un modelo de 47B con la velocidad de inferencia de un modelo de 13B — un compromiso atractivo.

Las arquitecturas MoE se han explorado desde la década de 1990 pero ganaron importancia práctica con la escala de los LLM modernos. Los modelos Switch Transformer y GLaM de Google demostraron que MoE podía escalar a billones de parámetros, y las implementaciones open-source como Mixtral probaron que los modelos MoE podían igualar o superar a los modelos densos de costo de cómputo similar. La arquitectura ahora es ampliamente adoptada en los laboratorios de frontera, con GPT-4 presuntamente usando un diseño MoE.

Why It Matters

A medida que los modelos de lenguaje escalan, el costo de cómputo de las arquitecturas densas se vuelve prohibitivo. Duplicar los parámetros de un modelo denso aproximadamente duplica tanto el costo de entrenamiento como el de inferencia. MoE rompe esta relación al permitir que el conteo de parámetros escale independientemente del costo de cómputo. Esto hace posible construir modelos con enorme capacidad de conocimiento — importante para aplicaciones multilingües y multi-dominio — sin requerir clústeres de GPU proporcionalmente enormes para la inferencia.

Para los profesionales, los modelos MoE ofrecen mejor calidad por dólar en tiempo de inferencia. Un modelo Mixtral 8x7B supera a Llama 2 70B en muchos benchmarks mientras es significativamente más barato de ejecutar. Esta ventaja de costo-rendimiento hace que los modelos MoE sean particularmente atractivos para despliegues en producción donde el costo de inferencia impacta directamente la rentabilidad.

How It Works

En cada capa transformer MoE, la red feed-forward estándar (FFN) se reemplaza por N FFN expertas paralelas y una red de compuerta. La red de compuerta toma el estado oculto de cada token como entrada y produce una distribución de probabilidad sobre los N expertos. Los k expertos principales (usualmente k=2) con las puntuaciones de compuerta más altas son seleccionados, y sus salidas se combinan como una suma ponderada según las puntuaciones de compuerta.

Entrenar modelos MoE requiere un balanceo de carga cuidadoso para prevenir el colapso de expertos — un modo de falla donde el enrutador aprende a enviar todos los tokens a un pequeño número de expertos mientras el resto permanece sin entrenar. Las pérdidas auxiliares de balanceo de carga incentivan al enrutador a distribuir tokens uniformemente entre los expertos. Durante la inferencia, las implementaciones eficientes de MoE usan kernels especializados que enrutan tokens a los expertos seleccionados sin desperdiciar cómputo en expertos inactivos, logrando aceleraciones casi lineales respecto a modelos densos de tamaño equivalente.

Example Use Case

Una plataforma de contenido multilingüe despliega Mixtral 8x7B para manejar consultas de clientes en 12 idiomas. La arquitectura MoE naturalmente desarrolla expertos especializados por idioma durante el entrenamiento — algunos expertos se activan principalmente para idiomas romances, otros para idiomas germánicos o asiáticos. Esta especialización implícita ofrece mejor rendimiento multilingüe que un modelo denso de 13B mientras mantiene costos de inferencia comparables, y el conteo total de 47B parámetros asegura suficiente capacidad de conocimiento en todos los idiomas soportados.

Key Takeaways

Los modelos MoE usan un enrutador para activar solo un subconjunto de sub-redes expertas por entrada, reduciendo el costo de cómputo.
El conteo total de parámetros puede ser de 3 a 8 veces mayor que el conteo de parámetros activos por token.
MoE logra mejor calidad por dólar que los modelos densos con presupuestos de cómputo equivalentes.
El balanceo de carga durante el entrenamiento previene el colapso de expertos donde algunos expertos quedan sin usar.
Modelos como Mixtral 8x7B demuestran la viabilidad de MoE para el despliegue de LLM open-source.

How Ertas Helps

Ertas Studio soporta el fine-tuning de modelos con arquitectura MoE como Mixtral, con gestión de memoria optimizada para los conteos de parámetros totales más grandes. Los archivos GGUF exportados de ejecuciones de fine-tuning de MoE mantienen la estructura de enrutamiento disperso para una inferencia local eficiente.