Fine-Tune Qwen 3.6 with Ertas

Lanzamiento insignia de Alibaba en abril de 2026 que combina una variante densa de 27B que supera al modelo de razonamiento de 397B de la generación anterior en programación, junto con una variante de mezcla de expertos de 35B-A3B para inferencia ultra-eficiente, todo bajo Apache 2.0.

27B35B-A3BAlibaba

Overview

Qwen 3.6, lanzado por Alibaba en abril de 2026, es el sucesor directo de la familia Qwen 3.5 y representa el lanzamiento open-weight más capaz de Alibaba hasta la fecha. La línea se centra en dos modelos complementarios: una variante totalmente densa de 27B publicada el 22 de abril que, a pesar de su tamaño modesto, según se informa supera al anterior insignia Qwen3.5-397B-A17B en varios benchmarks de programación, y una variante de mezcla de expertos de 35B-A3B publicada el 16 de abril que activa solo ~3B de parámetros por token mientras accede al conocimiento de un modelo de 35B.

Este lanzamiento continúa la tendencia de los modelos Qwen de combinar arquitecturas densas y dispersas dentro de una misma generación, ofreciendo a los desarrolladores una elección clara según las restricciones de despliegue. La variante densa de 27B se posiciona para inferencia por lotes de alto rendimiento y cargas de fine-tuning donde importan los patrones de acceso a memoria predecibles, mientras que el MoE de 35B-A3B apunta a servicios sensibles a la latencia donde el conteo de parámetros activos determina el rendimiento de tokens por segundo.

Al igual que los lanzamientos anteriores de Qwen 3.x, Qwen 3.6 incluye un modo de pensamiento unificado: el mismo modelo puede responder directamente a consultas simples o generar trazas de razonamiento extendidas para problemas complejos, controlado por un parámetro de presupuesto de pensamiento. Esto elimina la necesidad de mantener variantes de modelo separadas para razonamiento e instrucción en producción.

Qwen 3.6 hereda la amplia cobertura multilingüe de Qwen (más de 119 idiomas) y se publica bajo la licencia Apache 2.0, una de las más permisivas en el espacio open-weight. El modelo está disponible en Hugging Face bajo los IDs `Qwen/Qwen3.6-27B` y `Qwen/Qwen3.6-35B-A3B`, con compilaciones GGUF cuantizadas ampliamente disponibles para su despliegue en Ollama y llama.cpp.

Key Features

El rendimiento en programación del modelo denso de 27B es el resultado destacado. Las evaluaciones de Alibaba muestran que supera a Qwen3.5-397B-A17B (un modelo en modo de razonamiento mucho más grande) en benchmarks de programación competitiva y completado de código, mientras requiere aproximadamente 1/14 de los parámetros activos en inferencia. La mejora se atribuye a una curación refinada de datos de post-entrenamiento y a un pipeline actualizado de aprendizaje por refuerzo que enfatiza recompensas de ejecución de código verificables.

La variante MoE de 35B-A3B utiliza enrutamiento de expertos de grano fino con una estrategia de selección top-K similar a la arquitectura Qwen3-Next introducida a finales de 2025. Con solo ~3B de parámetros activos por token, funciona a velocidades comparables a un modelo denso de 3B en frameworks de inferencia estándar, mientras entrega una calidad competitiva con modelos densos de 14B-32B en la mayoría de las suites de evaluación.

El modo de pensamiento unificado sigue siendo una característica clave. Los desarrolladores pueden pasar un parámetro `thinking_budget` para limitar la generación de tokens de razonamiento, establecerlo en cero para respuestas directas rápidas, o dejarlo sin límite para máxima profundidad de razonamiento en problemas difíciles. Esta flexibilidad es particularmente valiosa para servicios API sensibles al costo, donde la mayoría de las consultas son simples pero una larga cola se beneficia de deliberación extendida.

Qwen 3.6 también se integra de forma nativa con Qwen-Agent, el framework de agentes open-source de Alibaba, que admite conexiones MCP (Model Context Protocol), llamadas a funciones, herramientas de intérprete de código y planificación multi-paso de fábrica. Esto convierte a Qwen 3.6 en uno de los lanzamientos open-weight más preparados para agentes sin requerir andamiaje de terceros.

Fine-Tuning with Ertas

Ambas variantes de Qwen 3.6 son adecuadas para fine-tuning en Ertas Studio. El modelo denso de 27B puede ajustarse con QLoRA en una sola GPU de 48GB (como una A6000 o RTX A6000 Ada) o en una GPU de 24GB usando cuantización agresiva de 4 bits con gradient checkpointing. Para la mayoría de casos de adaptación de dominio, QLoRA en la variante de 27B produce un modelo ajustado que conserva casi todas las capacidades del modelo base mientras se especializa en tu dominio, sin la carga de memoria del entrenamiento de parámetros completos.

El modelo MoE de 35B-A3B es excepcionalmente eficiente para fine-tuning relativo a su conteo de parámetros. Como solo ~3B de parámetros están activos por paso hacia adelante, el fine-tuning con QLoRA cabe cómodamente en una GPU de 24GB con secuencias completas de hasta 8K-16K tokens. Ertas Studio gestiona automáticamente las consideraciones específicas de MoE: estabilidad del enrutamiento de expertos durante la adaptación de bajo rango, balance de carga entre expertos, y fusión adecuada de adaptadores LoRA con los pesos base del MoE.

Después del fine-tuning, Ertas Studio exporta tu modelo directamente al formato GGUF con compatibilidad total para ambas arquitecturas de Qwen 3.6. La cuantización Q4_K_M del 27B produce un archivo de ~16GB desplegable mediante Ollama o llama.cpp en una GPU de 24GB. El Q4_K_M de 35B-A3B es de aproximadamente 20GB pero funciona a velocidades de inferencia de clase 3B, lo que lo convierte en una opción excelente para despliegues en producción donde tanto la calidad como la latencia son importantes.

Use Cases

La variante densa de 27B es la opción recomendada para cargas de trabajo intensivas en programación: completado de código, revisión de código, programación agéntica (junto con Qwen-Agent o andamiajes de terceros como Cline y CLIs estilo Claude Code), y generación de código en entornos regulados donde se requiere despliegue on-premise. El entrenamiento RL específico para programación del modelo lo hace particularmente fuerte en tareas reales de ingeniería de software, no solo en benchmarks sintéticos.

La variante MoE de 35B-A3B sobresale en servicio API en producción donde importa el rendimiento de tokens. Chatbots de soporte al cliente, pipelines de análisis de documentos y sistemas de generación de contenido se benefician de la velocidad de inferencia de clase 3B combinada con una calidad sustancialmente superior a la que cualquier modelo denso de 3B-7B puede entregar. El conmutador de modo de pensamiento permite patrones de despliegue híbridos: respuestas directas rápidas para consultas rutinarias, razonamiento extendido para el complejo 5-10% de consultas que lo necesitan.

Las aplicaciones multilingües son una excelente opción para ambas variantes. La cobertura de entrenamiento de 119 idiomas hace de Qwen 3.6 uno de los pocos modelos open-weight con soporte de calidad de producción para idiomas como vietnamita, indonesio, tailandés, tagalo, suajili y dialectos del árabe. Los equipos internacionales de producto a menudo eligen Qwen 3.6 sobre Llama o Mistral específicamente por esta amplitud.

Hardware Requirements

El Qwen3.6-27B denso con cuantización Q4_K_M requiere aproximadamente 16GB de VRAM, cabe en una sola RTX 4090, RTX 5090, o cualquier GPU de 24GB+ con margen para activaciones y caché KV en longitudes de contexto moderadas. Con cuantización Q8_0, espera aproximadamente 28GB. La inferencia BF16 completa requiere aproximadamente 54GB de VRAM, típicamente distribuida entre dos GPUs de 32GB o superiores.

El modelo MoE de 35B-A3B carga todos los expertos en memoria, independientemente de cuáles estén activos por token. En Q4_K_M, espera aproximadamente 20GB de memoria; en Q8_0, aproximadamente 36GB. A pesar de la mayor huella de memoria comparada con un modelo denso de 3B, la velocidad de inferencia está dominada por el conteo de parámetros activos, así que la generación de tokens funciona a velocidad de clase 3B aproximadamente en el mismo hardware. Una GPU de 24GB es el mínimo práctico.

Para fine-tuning en Ertas Studio: el 27B denso con QLoRA necesita 24-32GB de VRAM en longitudes de secuencia típicas (4K tokens), o 40-48GB para contextos más largos (16K+). El MoE de 35B-A3B con QLoRA necesita 20-24GB de VRAM gracias a su bajo conteo de parámetros activos, haciéndolo sorprendentemente accesible a pesar del mayor conteo total de parámetros. Ambas variantes se benefician del gradient checkpointing para entrenamiento de secuencias más largas.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →