Fine-Tune Qwen 3.5 with Ertas

El lanzamiento insignia de razonamiento de Alibaba de febrero de 2026 — un modelo de mezcla de expertos 397B-A17B que actualmente lidera el benchmark GPQA Diamond de pesos abiertos con 88.4, con variantes hermanas desde 0.8B hasta 122B-A10B. Apache 2.0.

0.8B2B4B9B27B35B-A3B122B-A10B397B-A17BAlibaba

Overview

Qwen 3.5, lanzado por Alibaba en febrero de 2026, es el sucesor enfocado en razonamiento de la familia Qwen 3 y la versión que estableció el liderazgo de Alibaba en benchmarks científicos de nivel postgrado. El insignia Qwen3.5-397B-A17B lidera actualmente la tabla de pesos abiertos de GPQA Diamond con 88.4, con un rendimiento sólido en MMLU-Pro (84.9), AIME 2025 y razonamiento de código complejo. La línea es inusualmente amplia, abarcando ocho tamaños desde 0.8B (móvil) hasta 397B (insignia de servidor), con variantes tanto densas como de mezcla de expertos en el rango medio.

La variante MoE 35B-A3B en particular se ha vuelto una opción popular como caballo de batalla — con ~3B de parámetros activos por token, sirve a velocidades de modelo pequeño mientras entrega calidad competitiva con modelos densos de gama media. Las variantes densas más pequeñas (0.8B, 2B, 4B, 9B) extienden aún más la ya sólida cobertura de modelos pequeños de Qwen 3. Todas las variantes se distribuyen con el modo de pensamiento híbrido unificado introducido en Qwen 3, permitiendo una profundidad de razonamiento adaptativa mediante un parámetro de control en tiempo de ejecución.

Qwen 3.5 fue reemplazado como insignia de Qwen por Qwen 3.6 en abril de 2026 (que ofrece un rendimiento de codificación más fuerte), pero Qwen 3.5 sigue siendo la mejor opción cuando la capacidad de razonamiento — particularmente en preguntas científicas de nivel postgrado — es el requisito principal. La variante 397B-A17B también sigue siendo la opción más fuerte de la familia Qwen para equipos con infraestructura de servidor multi-GPU que pueden desplegar el mayor recuento de parámetros activos.

Todas las variantes de Qwen 3.5 se publican bajo Apache 2.0. Los pesos están disponibles en Hugging Face bajo la organización Qwen con rutas como `Qwen/Qwen3.5-397B-A17B`, `Qwen/Qwen3.5-122B-A10B`, y las variantes densas más pequeñas.

Key Features

El liderazgo en GPQA Diamond con 88.4 es el resultado de benchmark definitorio de Qwen 3.5. GPQA es un benchmark de preguntas y respuestas científicas de nivel postgrado diseñado para no poder resolverse mediante búsqueda o conocimiento superficial, lo que hace que un rendimiento sólido sea una señal creíble de capacidad de razonamiento profundo. La ventaja de Qwen 3.5 aquí — por delante de cualquier otro insignia de pesos abiertos al momento del lanzamiento — está impulsada por el modo de pensamiento unificado más un post-entrenamiento dirigido sobre datos de razonamiento científico de nivel postgrado.

El rango de parámetros de la familia es inusualmente amplio. La variante 0.8B habilita patrones de despliegue en dispositivo que ningún otro insignia de 2026 alcanza; el insignia 397B-A17B compite con los mejores modelos cerrados en benchmarks de razonamiento. Este rango ofrece flexibilidad arquitectónica — los equipos pueden usar la misma familia en despliegues móviles, de escritorio y de servidor manteniendo convenciones de prompting y comportamiento de uso de herramientas consistentes.

Las variantes MoE (35B-A3B y 122B-A10B) usan enrutamiento de expertos de grano fino similar a Qwen3-Next. La 35B-A3B en particular sirve a velocidades de inferencia de clase 3B mientras entrega calidad más cercana a modelos densos de 14B-32B — convirtiéndola en una de las opciones de despliegue de gama media más eficientes disponibles.

Qwen 3.5 hereda la amplia capacidad multilingüe de Qwen (119 idiomas) e integración nativa con Qwen-Agent con MCP, llamada de funciones y soporte para intérprete de código de fábrica. Para flujos de trabajo agénticos que requieren calidad de razonamiento sólida, Qwen 3.5 con modo de pensamiento habilitado es una de las opciones de pesos abiertos más fuertes.

Fine-Tuning with Ertas

Todas las variantes de Qwen 3.5 son adecuadas para fine-tuning en Ertas Studio. Las variantes densas más pequeñas (0.8B, 2B, 4B, 9B) caben en GPUs de consumo con 4-12GB de VRAM usando QLoRA. La variante densa 27B se ajusta en una sola GPU de 48GB a longitudes de secuencia completas. La variante MoE 35B-A3B es particularmente eficiente — QLoRA cabe en una GPU de 24GB gracias al recuento de 3B parámetros activos.

Las variantes 122B-A10B y 397B-A17B requieren configuraciones de servidor multi-GPU para fine-tuning con QLoRA. Para equipos sin esa infraestructura, el patrón recomendado es la destilación profesor-estudiante: usar Qwen3.5-397B como profesor para generar datos sintéticos con trazas de razonamiento, luego ajustar un modelo base más pequeño (Qwen3.5-27B, Qwen3.5-9B, o incluso una variante destilada de Qwen 3.5) sobre esos datos.

Al ajustar Qwen 3.5 para casos de uso intensivos en razonamiento, Ertas Studio admite formatos de datos de entrenamiento con trazas explícitas de modo de pensamiento (etiquetas `<think>...</think>` o equivalentes). Esto preserva el comportamiento de razonamiento adaptativo en el modelo ajustado en lugar de colapsar en un modo u otro. Después del entrenamiento, Ertas Studio exporta a formato GGUF con preservación completa de la plantilla de chat de Qwen 3.5.

Use Cases

Qwen 3.5 es la opción de pesos abiertos más sólida para razonamiento científico de nivel postgrado — asistencia en investigación, análisis de literatura científica, generación de contenido técnico y aplicaciones educativas STEM se benefician todos de la capacidad líder en GPQA Diamond. La variante 397B-A17B es particularmente adecuada para tareas de análisis a nivel experto donde la profundidad de razonamiento importa más que la velocidad de inferencia.

Las variantes MoE de gama media (35B-A3B, 122B-A10B) apuntan al servicio de API de producción donde se necesita capacidad de razonamiento pero la economía de inferencia importa. La 35B-A3B en particular se despliega ampliamente para soporte al cliente, análisis de documentos y cargas de generación de contenido donde tanto la calidad como la velocidad deben ser fuertes.

Las variantes densas más pequeñas habilitan el despliegue en hardware de borde y de consumo para cargas de razonamiento — un Qwen 3.5 4B con modo de pensamiento habilitado es más capaz en tareas de razonamiento difíciles que los modelos densos de 7B sin entrenamiento dedicado de razonamiento. Para despliegue móvil e integrado de capacidad de razonamiento, las variantes pequeñas de Qwen 3.5 son competitivas con cualquier otra opción del ecosistema de pesos abiertos.

Hardware Requirements

Variantes densas pequeñas de Qwen 3.5 en Q4_K_M: 0.8B ≈ 700MB, 2B ≈ 1.5GB, 4B ≈ 2.5GB, 9B ≈ 5.5GB. La variante densa 27B requiere aproximadamente 16GB en Q4_K_M, ajustándose a una sola GPU de 24GB.

La MoE 35B-A3B en Q4_K_M necesita aproximadamente 20GB (todos los pesos de expertos deben cargarse), ejecutable en una GPU de 24GB. La 122B-A10B en Q4_K_M necesita aproximadamente 65GB, ajustándose a una GPU de 80GB o dividida entre dos GPUs de 48GB. La 397B-A17B en Q4_K_M necesita aproximadamente 220GB, requiriendo despliegue en servidor multi-GPU (4x A100 80GB o 4x H100 80GB).

Para fine-tuning en Ertas Studio: las variantes densas pequeñas necesitan 4-12GB de VRAM, la 27B necesita 32-40GB, la MoE 35B-A3B necesita 22-28GB (gracias al bajo recuento activo), la 122B-A10B necesita 80-100GB (multi-GPU), y la 397B-A17B requiere escala de servidor multi-GPU similar al fine-tuning de DeepSeek V4 Flash.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

LM Studio

Ollama

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →