El panorama de los modelos de IA de código abierto en 2026

El ecosistema de modelos de IA de pesos abiertos en abril de 2026 luce fundamentalmente distinto de lo que la mayoría de los equipos encontraba incluso seis meses atrás. Tres cambios estructurales han reconfigurado el panorama: los laboratorios chinos dominan ahora colectivamente las clasificaciones, la mezcla de expertos (MoE) se ha convertido en la arquitectura por defecto para los lanzamientos insignia, y la simplicidad operativa de los modelos con modo de razonamiento unificado ha reemplazado al patrón previo de despliegues separados para razonamiento y chat.

Este es el informe del panorama que nos hubiera gustado tener cuando planificamos nuestra propia estrategia de modelos. Cubre lo que está vigente, lo que es lo bastante estable como para apostar por ello y lo que aún se mueve demasiado rápido como para comprometerse.

El estado de las clasificaciones

Las clasificaciones compuestas de inteligencia en abril de 2026 cuentan una historia consistente entre múltiples agregadores de benchmarks. El nivel superior de los modelos de pesos abiertos —aquellos con puntuación superior a 80 en el índice agregado de BenchLM— está dominado por laboratorios chinos:

DeepSeek V4 Pro (1,6T-A49B MoE, BenchLM 87) — líder actual
Kimi K2.6 (Moonshot AI, 1T-A32B MoE, BenchLM 86)
MiMo V2.5 Pro (Xiaomi, 1,02T-A42B MoE, compuesto ~86)
GLM-5 / 5.1 (Z.ai, 745B denso, BenchLM 83)
Qwen 3.5-397B-A17B (Alibaba, BenchLM ~82)

El modelo de pesos abiertos no chino mejor situado es Mistral Small 4 (119B-A6B MoE, marzo de 2026), con Hermes 4 405B (Nous Research, agosto de 2025) y la familia GPT-OSS de OpenAI completando el nivel superior de opciones desarrolladas en EE. UU. Llama 4 Scout/Maverick lanzan modelos creíbles, pero la recepción de Meta fue ampliamente percibida como decepcionante, y el planificado Llama 4 Behemoth ha sido pausado.

Esto no es una corrección menor ni un caso aislado de un trimestre. La ventaja de los laboratorios chinos en calidad de modelos de pesos abiertos se ha ampliado de forma consistente a lo largo de 2025-2026, y no hay señales claras de que los laboratorios estadounidenses estén cerrando la brecha específicamente en el eje de pesos abiertos. (La frontera de modelos cerrados —GPT-5.5, Claude Opus 4.7, Gemini Ultra— es un panorama competitivo aparte con dinámicas distintas.)

Convergencia arquitectónica: la mezcla de expertos

Cada modelo insignia del nivel superior usa una arquitectura de mezcla de expertos (MoE). Las proporciones de parámetros totales / activos se agrupan en un rango notablemente consistente:

DeepSeek V4 Pro: 1,6T totales / 49B activos
Kimi K2.6: 1T / 32B activos
MiMo V2.5 Pro: 1,02T / 42B activos
Qwen 3.5-397B: 397B / 17B activos
GPT-OSS-120B: 117B / 5,1B activos
Mistral Small 4: 119B / 6B activos

El patrón es claro: 1T de parámetros totales con entre 30 y 50B activos es la nueva línea base insignia, y el nivel MoE más pequeño (100-400B totales, 5-20B activos) apunta al servicio de API en producción donde la economía de coste por token importa. Los modelos puramente densos por encima de 70B son cada vez más raros en la frontera —Llama 3 405B y GLM-5 (745B denso) son los grandes resistentes, y ambos pagan penalizaciones significativas en coste de inferencia frente a alternativas MoE de calidad equivalente.

Para los equipos de despliegue, el cambio a MoE es en su mayor parte una buena noticia. La economía de inferencia está dominada por el conteo de parámetros activos, así que un modelo 1T-A32B sirve a velocidades comparables a un modelo denso de 32B. La contrapartida es la huella total de memoria: aún hay que cargar todos los pesos de los expertos en memoria, aunque solo un subconjunto esté activo por token. Esto suele implicar infraestructura de servidor multi-GPU para el nivel del billón de parámetros, mientras que el nivel MoE más pequeño (100-200B totales) cabe en una única GPU de 80GB.

Patrón operativo: modo de razonamiento unificado

El otro gran cambio arquitectónico es la transición de modelos de razonamiento separados a checkpoints unificados con modo de razonamiento. A principios de 2025, el patrón dominante era DeepSeek-R1 (solo razonamiento) desplegado junto a DeepSeek-V3 (solo chat) con capas de enrutamiento entre modelos. Para abril de 2026, este patrón se considera cada vez más legado, reemplazado por checkpoints únicos que alternan entre respuesta directa rápida y modos de razonamiento extendido mediante un parámetro en tiempo de ejecución.

La transición empezó con Qwen 3 a principios de 2025 (que introdujo el modo de razonamiento unificado) y se aceleró con DeepSeek V3.2 / V4, Hermes 4 y Mistral Small 4. Cada modelo con modo de razonamiento unificado preserva la capacidad de razonamiento de los predecesores dedicados al razonamiento al tiempo que simplifica drásticamente la topología de despliegue en producción: un solo modelo atiende tanto las consultas de razonamiento como las que no lo requieren, y la lógica de enrutamiento pasa de la infraestructura a un simple parámetro de control.

Para los equipos que ejecutan infraestructura de agentes en producción, esto supone una mejora operativa significativa. La mayoría de las consultas se benefician de respuestas directas rápidas (latencia subsegundo, bajo coste por token). El subconjunto más difícil que se beneficia del razonamiento consume más cómputo, pero solo cuando el usuario (o el agente) lo solicita explícitamente. El ahorro de costes frente a ejecutar inferencia puramente en modo razonamiento de forma uniforme es sustancial: típicamente entre 5 y 10 veces en mezclas de cargas de trabajo del mundo real.

El panorama de las licencias

Apache 2.0 se ha convertido efectivamente en la licencia esperada para los nuevos lanzamientos de pesos abiertos. La expectativa por defecto es ahora: los pesos son desplegables comercialmente sin topes de uso, requisitos de atribución ni restricciones de actividad. Los lanzamientos que no cumplen esta vara —CC-BY-NC de Cohere, la Llama Community License personalizada de Meta— parecen cada vez más excepciones que normas.

Apache 2.0 o equivalente (MIT modificada, MIT, estilo MIT) cubre la mayoría de los modelos insignia actuales:

Familia Qwen (todas las variantes) — Apache 2.0
Familia DeepSeek — DeepSeek License (estilo MIT)
Familia Kimi — MIT modificada
Mistral Small 4 — Apache 2.0
Gemma 4 — Apache 2.0 (nuevo en esta generación)
GPT-OSS — Apache 2.0
MiMo V2.5 — MIT
OLMo (Ai2) — Apache 2.0

Las excepciones notables:

Llama 3 / 4 — Llama Community License (tope de uso de 700M MAU, atribución requerida)
Cohere Command A — CC-BY-NC 4.0 (solo investigación; sin uso comercial sin licencia separada)
Falcon H1R — Falcon LLM License (permisiva para uso comercial pero no Apache)
Hermes 4 — hereda la licencia base de Llama 3.1

Para los equipos de despliegue comercial en 2026, la opción práctica por defecto es comenzar con alternativas con licencia Apache 2.0 y solo desviarse cuando los requisitos de capacidad demanden específicamente una alternativa con licencia más restrictiva.

El nivel de modelos más pequeños

No todos los equipos necesitan capacidad de un billón de parámetros. El nivel por debajo de 10GB de VRAM —modelos que caben en GPUs de consumo y portátiles— ha mejorado sustancialmente a lo largo de 2025-2026 gracias a mejores datos de entrenamiento, arquitecturas más eficientes y técnicas de cuantización refinadas.

Las opciones más fuertes de modelos pequeños en la actualidad:

Phi-4 (Microsoft, 14B denso, MIT) — capacidad excepcional por parámetro
Llama 3 8B (Meta) — caballo de batalla con el ecosistema más maduro
Qwen 3 4B/8B (Alibaba, Apache 2.0) — la mejor cobertura multilingüe
Gemma 4 e4b/e2b (Google, Apache 2.0) — las únicas opciones multimodales pequeñas creíbles
Falcon H1R-7B (TII) — razonamiento matemático sobresaliente a escala 7B

El Gemma 4 e2b a 2B parámetros con soporte multimodal nativo es particularmente notable: habilita patrones de despliegue en dispositivo (chat móvil, aplicaciones de IA basadas en cámara, herramientas de accesibilidad) que ninguna familia previa de pesos abiertos soportaba a esa escala.

La pila de agentes

El auge de los despliegues agénticos ha incorporado la elección de framework a la conversación sobre modelos. Tres frameworks de Python dominan la infraestructura de agentes en producción: LangGraph (que superó a CrewAI en estrellas de GitHub a principios de 2026), CrewAI (aún fuerte para prototipado y despliegues de nivel medio) y AutoGen (ahora en fase de consolidación de Microsoft mediante el Microsoft Agent Framework).

Para los equipos de TypeScript, el panorama es distinto. El Vercel AI SDK se ha convertido efectivamente en la capa de infraestructura por defecto para funciones de IA, y Mastra (construido sobre el AI SDK) es el framework dominante para agentes en producción, superando las 22K estrellas en GitHub y más de 300K descargas semanales en npm en su versión 1.0 en enero de 2026.

Frameworks especializados también han ganado adopción significativa:

Hermes Agent (Nous Research, febrero de 2026) — auto-mejora mediante acumulación de habilidades GEPA, más de 103K estrellas
smolagents (Hugging Face) — agentes de acción por código en aproximadamente 1.000 líneas de implementación principal
Letta (anteriormente MemGPT) — agentes con estado y memoria persistente, proveedor oficial del Vercel AI SDK
browser-use — automatización de navegador con Playwright + LLM, más de 50K estrellas, con licencia MIT

La orquestación multi-agente es la frontera más avanzada. El runtime Agent Swarm de Kimi K2.6 —que orquesta hasta 300 sub-agentes a lo largo de 4.000 pasos de razonamiento— representa un salto cualitativo respecto al patrón típico multi-agente de 2 a 6 agentes. La mayoría de los despliegues en producción siguen en el nivel de equipos pequeños, pero la trayectoria apunta claramente hacia enjambres más grandes a medida que los modelos subyacentes se vuelven más fiables en la ejecución de horizonte largo.

Qué significa esto para los equipos en producción

Si tuviéramos que comprimir el panorama en una guía accionable:

Para la mayoría de despliegues en producción, la opción correcta por defecto es Qwen 3.6: con licencia Apache 2.0, desplegable en una sola GPU para la variante densa de 27B, amplia cobertura multilingüe e integración nativa con agentes vía Qwen-Agent. Acierta en el punto óptimo práctico para el conjunto más amplio de despliegues del mundo real sin requerir infraestructura multi-GPU.

Para despliegues en servidores multi-GPU donde la capacidad máxima importa, DeepSeek V4 es la elección recomendada: la mejor inteligencia agregada, contexto de 1M con la eficiencia de DSA, modo de razonamiento unificado. Kimi K2.6 es la opción correcta cuando las cargas agénticas de horizonte largo son el caso de uso principal.

Para despliegues específicos de codificación, MiMo V2.5 Pro y Qwen3-Coder son las opciones: ambos diseñados específicamente para codificación agéntica, ambos con un fuerte rendimiento en SWE-Bench, ambos desplegables bajo términos MIT o Apache 2.0.

Para despliegues europeos con requisitos de soberanía de datos, Mistral Small 4 es la opción natural por defecto: con sede en la UE, Apache 2.0, arquitectura unificada, fuerte cobertura multilingüe en lenguas europeas.

Para despliegues en Mac y en el borde (edge), Gemma 4 es la opción más fuerte: soporte de primera clase para MLX, Apache 2.0, multimodal nativo en todos los tamaños, incluida la variante efectiva edge de 2B.

Para aplicaciones intensivas en razonamiento, incluidos casos de uso legítimos bloqueados por una alineación de seguridad agresiva, Hermes 4 es la opción correcta: el post-entrenamiento Atropos RL ofrece una sólida capacidad de razonamiento, una postura de alineación neutral y compatibilidad completa con el ecosistema de despliegue de Llama 3.

Lo que aún está en movimiento

El panorama es lo bastante estable ahora como para que planificar en torno a la frontera de 2026 sea razonable, pero varios ejes aún se mueven rápido y vale la pena vigilarlos:

Economía de MoE de un billón de parámetros. Los modelos insignia actuales con 1T totales y 30-50B activos están rozando los requisitos de servidores multi-GPU. Las arquitecturas con proporciones aún menores de parámetros activos (Mistral Small 4 con 6B activos, GPT-OSS con 5,1B activos) están mejorando la economía de inferencia de forma notable, y esperamos que esta tendencia continúe.

Longitud de contexto efectiva. Las ventanas de contexto anunciadas siguen creciendo (los 10M tokens de Llama 4 Scout, varios modelos insignia de 1M de contexto). El contexto efectivo —el rango sobre el que los modelos retienen más del 90% de precisión de recuperación— es más corto que el anunciado en cada modelo actual y es la métrica más importante para el despliegue en producción. Arquitecturas como DeepSeek Sparse Attention (DSA) han mejorado sustancialmente la retención de contexto efectivo, pero no han cerrado del todo la brecha.

Runtimes multi-agente. El escalado a 300 sub-agentes del Agent Swarm de Kimi K2.6 representa un avance significativo respecto a las normas actuales de multi-agente en producción. Si este patrón se generaliza a otras familias de modelos y otros frameworks de agentes es una de las preguntas abiertas más interesantes para 2026.

Agentes que se auto-mejoran. El mecanismo de auto-mejora GEPA de Hermes Agent —agentes que crean habilidades reutilizables a partir de tareas completadas con éxito— produce aproximadamente un 40% de aceleración en tareas repetidas tras acumular más de 20 habilidades. El patrón de mejora compuesta es fundamentalmente distinto de la mayoría de las arquitecturas de agentes actuales y vale la pena seguirlo conforme crece su adopción.

Para los equipos que se comprometen con una estrategia de modelos en 2026, los cimientos son lo bastante estables como para lanzar producción. La realidad de dominio chino, arquitectura MoE, licencia Apache 2.0 y modo de razonamiento unificado es improbable que se revierta en los próximos 12 meses. Construir sobre esos cimientos —fine-tuning, infraestructura de agentes, recuperación, economía de despliegue— es donde ocurre el verdadero trabajo de producción.