Mezcla de expertos en 2026: de Mixtral a DeepSeek V4

Hace dos años, la mezcla de expertos (MoE) era una elección arquitectónica experimental que un puñado de laboratorios de frontera exploraban tentativamente. Mixtral 8x7B fue noticia precisamente porque era inusual. Para abril de 2026, MoE se ha convertido en la arquitectura por defecto para los modelos insignia de pesos abiertos. Cada modelo del nivel superior actual de pesos abiertos —DeepSeek V4, Kimi K2.6, MiMo V2.5 Pro, GPT-OSS-120B, Mistral Small 4, Qwen 3.5-397B-A17B— usa una arquitectura MoE. Los modelos puramente densos por encima de 70B son cada vez más la excepción y no la norma.

Este artículo cubre qué cambió, cómo han evolucionado las decisiones arquitectónicas y qué significa el cambio para los equipos que toman decisiones de despliegue en producción en 2026.

La idea básica (para quienes son nuevos en MoE)

Una capa estándar de transformer aplica el mismo cómputo feedforward a cada token. Un modelo denso de 70B parámetros usa los 70B parámetros para cada token que procesa: la mayoría son irrelevantes para cualquier token dado, pero la arquitectura los activa todos de todos modos.

Una capa de mezcla de expertos reemplaza el bloque feedforward único con múltiples "expertos" paralelos más una pequeña red de enrutamiento. Para cada token, el enrutador decide qué expertos (típicamente entre 1 y 8 de entre docenas o cientos) deben procesarlo, y solo esos expertos se activan. El conteo total de parámetros de la capa es la suma de todos los expertos, pero el conteo de parámetros activos para un único token es mucho menor.

El efecto práctico: un modelo MoE de 1T parámetros con 32B parámetros activos tiene el coste de inferencia de un modelo denso de 32B —el rendimiento de generación de tokens, la utilización de GPU y la latencia son todos aproximadamente lo que esperarías de un modelo denso de 32B—. Pero el modelo tiene 1T parámetros de capacidad disponibles, y el enrutador aprende a enrutar distintos tipos de tokens a distintos expertos especializados. El resultado, cuando el entrenamiento funciona bien, es un modelo que entrega calidad comparable a un modelo denso mucho más grande con una economía de inferencia sustancialmente mejor.

La contrapartida: la huella total de memoria escala con el conteo total de parámetros, no con el conteo de parámetros activos. Aún tienes que cargar todos los pesos de los expertos en memoria aunque solo un subconjunto esté activo por token. Esto suele significar que los modelos MoE requieren más VRAM que los modelos densos de coste de inferencia equivalente.

La era Mixtral (finales de 2023 – principios de 2025)

Mixtral 8x7B (diciembre de 2023) y Mixtral 8x22B (abril de 2024) de Mistral establecieron el patrón MoE en el ecosistema de pesos abiertos. Ambos usaron una estrategia de enrutamiento top-2 entre 8 expertos, con conteos de parámetros activos de aproximadamente 12,9B y 39B respectivamente, frente a totales de 46,7B y 141B.

Los modelos Mixtral establecieron varias convenciones importantes:

Enrutamiento top-K. Cada token se enruta a un K fijo de expertos (top-2 en el caso de Mixtral). Esto equilibra el paralelismo (puedes calcular múltiples expertos en paralelo) frente a la eficiencia (más expertos significa más cómputo por token).

Balanceo de carga. El enrutador aprende a distribuir los tokens de forma aproximadamente uniforme entre los expertos. Sin presión explícita de balanceo de carga, el entrenamiento de MoE tiende a colapsar en unos pocos expertos "populares" que manejan la mayoría de los tokens, frustrando el propósito de tener muchos expertos. Mixtral introdujo pérdidas auxiliares de balanceo de carga durante el entrenamiento para prevenir el colapso.

La dimensionalidad del experto coincide con las capas densas. Los expertos de Mixtral tenían las mismas dimensiones ocultas que el bloque feedforward denso equivalente. Esto hacía la arquitectura conceptualmente simple: una capa MoE es "solo una capa densa con múltiples copias paralelas y un enrutador".

Los modelos Mixtral demostraron que MoE podía entregar calidad competitiva con una economía de inferencia favorable, pero el espacio de diseño que exploraron era relativamente estrecho. El trabajo posterior expandió sustancialmente ese espacio.

La era de MoE de grano fino (mediados de 2025 – 2026)

DeepSeek V3 (diciembre de 2024) y la familia Qwen 3 (principios de 2025) inauguraron un patrón de diseño MoE significativamente distinto: MoE de grano fino. El cambio clave fue usar muchos más expertos, mucho más pequeños, y enrutar a más de ellos por token.

La arquitectura de DeepSeek V3 usa 256 expertos enrutados por capa más 1 experto compartido, con enrutamiento top-8. Comparado con los 8 expertos de Mixtral con enrutamiento top-2, este es un espacio de diseño fundamentalmente distinto:

Más expertos significa que cada experto puede especializarse de forma más estrecha
Expertos más pequeños significa que cada uno es más barato computacionalmente
Un top-K mayor significa que cada token ve contribuciones más diversas de expertos
Los expertos compartidos capturan patrones comunes que no necesitan replicarse en todos los expertos enrutados

El resultado es un modelo que entrega mejor calidad por parámetro activo que los diseños de la era Mixtral. DeepSeek V3 con 671B totales / 37B activos supera sustancialmente a Mixtral 8x22B (141B totales / 39B activos) en benchmarks a coste de inferencia similar: las mejoras arquitectónicas produjeron ganancias de calidad medibles independientemente de las diferencias en conteo de parámetros.

Qwen 3 introdujo su propia variante con las configuraciones 30B-A3B y 235B-A22B. El 30B-A3B usa 128 expertos con enrutamiento top-2: similar en espíritu a MoE de grano fino pero con elecciones específicas de diseño distintas. El conteo de 3B parámetros activos hizo a esta variante excepcionalmente eficiente para servir en producción al tiempo que entregaba calidad que igualaba o superaba la de modelos densos mucho más grandes.

Para 2026, MoE de grano fino se ha convertido en el estándar de facto. Los nuevos lanzamientos insignia usan proporciones totales / activos en el rango de 20:1 a 200:1 — DeepSeek V4 Pro a 1,6T / 49B (33:1), Kimi K2.6 a 1T / 32B (31:1), Mistral Small 4 a 119B / 6B (20:1), GPT-OSS-120B a 117B / 5,1B (23:1).

DeepSeek Sparse Attention: MoE más allá del feedforward

La innovación arquitectónica más significativa de la era 2026 no es estrictamente un avance en MoE: es la aplicación de enrutamiento disperso al estilo de expertos a las capas de atención. DeepSeek Sparse Attention (DSA), introducida en DeepSeek V3.2 y continuada en V4, aplica un patrón de enrutamiento disperso aprendido a la atención: cada token de consulta aprende a atender a un subconjunto de tokens clave en lugar de a la secuencia completa.

Conceptualmente, DSA extiende la filosofía MoE de las capas feedforward a la atención. La atención estándar del transformer calcula interacciones por pares entre todos los pares de tokens: coste cuadrático en cómputo y memoria. DSA calcula solo las interacciones que un mecanismo de enrutamiento aprendido considera relevantes, lo que reduce sustancialmente tanto el coste de cómputo como el de memoria para la inferencia de contexto largo, manteniendo una calidad utilizable de recuperación.

La implicación práctica: DSA es una razón clave por la que DeepSeek V4 puede soportar una ventana de contexto de 1M de tokens en producción. La atención densa ingenua a 1M de tokens sería prohibitivamente cara tanto en cómputo como en memoria de KV-cache. DSA hace que la inferencia de contexto largo sea económicamente tratable, y es probable que el patrón arquitectónico se extienda a otras familias de modelos a medida que el contexto de 1M+ se convierta en una expectativa de línea base.

Qué impulsó el cambio

Varios factores impulsaron a MoE de experimental a por defecto en esta ventana de dos años:

Mejor economía de inferencia a escala de frontera. A medida que los modelos de calidad de frontera crecieron más allá de los 70B parámetros densos, los costes de inferencia de las arquitecturas puramente densas se volvieron prohibitivos. Un modelo denso de 405B necesita activar 405B parámetros por token, requiriendo infraestructura de clase servidor y produciendo un alto coste de inferencia por solicitud. Un modelo MoE de 1T con 32B activos ofrece calidad similar con la economía de inferencia de un modelo denso de 32B. Para los despliegues en producción donde el coste por token importa, esta es una ventaja fundamental.

Técnicas mejoradas de balanceo de carga. El entrenamiento temprano de MoE era notoriamente inestable: el enrutador colapsaba en unos pocos expertos populares, el entrenamiento divergía y el modelo resultante era peor que un modelo denso de cómputo equivalente. Las mejoras en pérdidas auxiliares de balanceo de carga, factores de capacidad de expertos y planificación de temperatura del enrutador han hecho que el entrenamiento de MoE sea sustancialmente más fiable. El entrenamiento moderno de MoE se acerca ahora a "establecer valores por defecto sensatos y dejarlo correr" en lugar de requerir intervención constante.

Mejoras de hardware. El hardware de frontera (H100, H200, MI300X, variantes Ascend) tiene un soporte sustancialmente mejor para el tipo de patrones de cómputo disperso que produce MoE. Las generaciones anteriores de hardware hacían que MoE fuera menos eficiente de lo que sugería el análisis teórico; el hardware actual cierra gran parte de esa brecha.

Compatibilidad con cuantización. Los modelos MoE se cuantizan razonablemente bien: la cuantización Q4_K_M preserva una calidad utilizable en los modelos insignia MoE, similar a los modelos densos. Las preocupaciones tempranas de que la especialización de los expertos en MoE interactuara mal con la cuantización agresiva no se han concretado en la práctica.

Implicaciones prácticas para los despliegues

Para los equipos que toman decisiones de despliegue en producción, el cambio a MoE tiene varias implicaciones:

La memoria y el coste de inferencia se desacoplan. Con modelos densos, un modelo de 70B es de "clase 70B" tanto en coste de memoria como en coste de inferencia. Con MoE, un modelo 1T-A32B es de clase 1T en coste de memoria pero de clase 32B en rendimiento de inferencia. La planificación de capacidad necesita rastrear ambos ejes: la memoria determina cuántas GPUs necesitas para alojar el modelo, mientras que el conteo de parámetros activos determina la velocidad con la que sirve solicitudes.

El despliegue en servidor multi-GPU es la norma en la frontera. El nivel MoE de un billón de parámetros (DeepSeek V4, Kimi K2.6, MiMo V2.5 Pro) requiere configuraciones de servidor de 8 GPUs (8x A100 80GB u 8x H100 80GB) para despliegue en producción a calidad completa. El despliegue en una sola GPU es irrealista en este nivel. Los modelos insignia MoE más pequeños (100-200B parámetros totales con 5-30B activos) caben en una sola GPU de 80GB.

Mejora la economía del fine-tuning. El menor conteo de parámetros activos se traduce en mejor economía de fine-tuning para el entrenamiento QLoRA. Un MoE 35B-A3B se ajusta finamente más rápido por paso de entrenamiento que un modelo denso de 14B porque el conteo de parámetros activos impulsa el cómputo en tiempo de entrenamiento. El conteo de 6B parámetros activos de Mistral Small 4 lo hace excepcionalmente eficiente de ajustar finamente respecto a sus 119B totales: QLoRA cabe en una GPU de 24GB con longitudes de secuencia completas.

El tooling consciente de la arquitectura importa. Los frameworks de inferencia (vLLM, TensorRT-LLM, llama.cpp) tienen niveles variables de optimización de MoE. Los frameworks de frontera soportan las arquitecturas MoE como opciones de primera clase con kernels optimizados para el enrutamiento de expertos y el balanceo de carga; los patrones de despliegue más antiguos pueden no extraer el rendimiento completo de los modelos MoE. Para el despliegue en producción, elige herramientas que tengan soporte de primera clase para MoE.

Los puntos óptimos de cuantización difieren. Algunas arquitecturas MoE se cuantizan particularmente bien; otras tienen capas específicas que no se cuantizan limpiamente por debajo de Q4_K_M. La interacción entre el enrutamiento MoE de grano fino y la cuantización agresiva es genuinamente específica del modelo. Prueba el nivel de cuantización que realmente planeas desplegar antes de comprometerte: las suposiciones derivadas de la experiencia con modelos densos no siempre se trasladan.

Mirando hacia adelante

MoE es ahora un patrón arquitectónico maduro, no un experimento. El caso base para los próximos 24 meses es que MoE siga siendo la arquitectura insignia dominante, con refinamiento continuo en estrategias de enrutamiento, dimensionamiento de expertos e integración con mecanismos de atención dispersa. Varios desarrollos específicos parecen probables:

Menores proporciones de parámetros activos. La tendencia a lo largo de 2025-2026 ha sido hacia menores conteos de parámetros activos a calidad equivalente. Los 6B activos de Mistral Small 4 y los 5,1B activos de GPT-OSS empujan el límite de cuán eficiente puede ser la inferencia MoE. Espera que esto continúe: la industria seguirá empujando hacia diseños MoE que entreguen más calidad por parámetro activo.

Integración más estrecha con atención dispersa. DSA en DeepSeek V4 demuestra que la filosofía MoE se extiende más allá de las capas feedforward. Es probable que otras familias de modelos adopten enfoques similares, particularmente a medida que el contexto de 1M+ se convierta en una expectativa de línea base. La combinación de atención dispersa más feedforward disperso podría reducir sustancialmente el coste de inferencia a escala de frontera.

Preentrenamiento especializado de expertos. Los modelos MoE actuales entrenan a los expertos conjuntamente con el resto de la arquitectura. Hay interés investigativo en preentrenar expertos con especialización explícita (expertos en matemáticas, expertos en código, expertos en idiomas) y luego componerlos en un modelo final. Si este enfoque entrega calidad competitiva con el entrenamiento conjunto sigue siendo una pregunta abierta, pero podría habilitar patrones interesantes de despliegue donde los equipos intercambien expertos especializados para casos de uso específicos.

Mejor cuantización para MoE. Las técnicas actuales de cuantización tratan a todos los expertos de forma uniforme. Probablemente hay margen sustancial de mejora en la cuantización que sea consciente de los patrones de enrutamiento de expertos: cuantizando los expertos rara vez usados de forma más agresiva mientras se preserva la precisión en los muy usados. Si esto se materializa como tooling estándar está por verse.

Para los equipos que construyen infraestructura de IA en producción en 2026, la conclusión práctica es que MoE ya no es una elección arquitectónica inusual: es el patrón principal, y las decisiones de infraestructura deberían tratarlo como el valor por defecto. Las herramientas de despliegue, la monitorización, la planificación de capacidad, los flujos de trabajo de fine-tuning y las estrategias de cuantización deberían asumir que el MoE insignia es el caso típico. Los equipos que han hecho este cambio están desplegando modelos de calidad de frontera con una economía sustancialmente mejor que los equipos que aún operan en el paradigma puramente denso.

Mezcla de expertos en 2026: de Mixtral a DeepSeek V4

La idea básica (para quienes son nuevos en MoE)

La era Mixtral (finales de 2023 – principios de 2025)

La era de MoE de grano fino (mediados de 2025 – 2026)

DeepSeek Sparse Attention: MoE más allá del feedforward

Qué impulsó el cambio

Implicaciones prácticas para los despliegues

Mirando hacia adelante

Ship AI that runs on your users' devices.

Keep reading

The 2026 Open Source AI Model Landscape

Why Chinese Labs Now Dominate Open-Source AI

The Effective Context Length Problem: Why 1M Tokens Isn't Really 1M Tokens