Fine-Tune Qwen 3 with Ertas

La familia de modelos de última generación de Alibaba con arquitecturas tanto densas como de mezcla de expertos, con tamaños desde 0.6B hasta 235B y modos de pensamiento híbrido integrados para profundidad de razonamiento adaptativa.

0.6B1.7B4B8B14B32B30B-A3B235B-A22BAlibaba

Overview

Qwen 3, lanzado por Alibaba a principios de 2025, representa una evolución arquitectónica significativa para la familia Qwen. La línea ahora incluye tanto modelos densos (0.6B hasta 32B) como modelos de mezcla de expertos (30B-A3B y 235B-A22B), ofreciendo flexibilidad sin precedentes para diferentes escenarios de despliegue. Las variantes MoE proporcionan relaciones calidad-cómputo dramáticamente mejores — el modelo 30B-A3B activa solo 3B de parámetros por token mientras accede al conocimiento de un modelo de 30B, y el insignia 235B-A22B activa 22B de sus 235B de parámetros totales.

Una característica principal de Qwen 3 es su modo de pensamiento híbrido, que permite al modelo elegir dinámicamente entre respuestas directas rápidas y razonamiento más lento de cadena de pensamiento basado en la complejidad de la consulta. Este comportamiento adaptativo significa que el modelo usa cómputo adicional solo cuando la tarea genuinamente requiere razonamiento más profundo, optimizando tanto la calidad de respuesta como el costo de inferencia.

Qwen 3 fue entrenado con más de 36 billones de tokens, el doble del tamaño del dataset de Qwen 2.5, con cobertura expandida a 119 idiomas. El proceso de entrenamiento incluye un pipeline de cuatro etapas: preentrenamiento a gran escala, extensión de contexto largo, post-entrenamiento con datos pesados en razonamiento, y aprendizaje por refuerzo con tanto modelos de recompensa como señales basadas en reglas.

Todos los modelos Qwen 3 se publican bajo la licencia Apache 2.0. Las variantes MoE se han vuelto rápidamente populares para despliegues en producción, ofreciendo una alternativa convincente a ejecutar modelos densos mucho más grandes.

Key Features

El modo de pensamiento híbrido es la característica más innovadora de Qwen 3. Cuando está habilitado, el modelo genera internamente trazas de razonamiento antes de producir su respuesta final en preguntas complejas, similar a modelos de razonamiento dedicados como DeepSeek-R1. Sin embargo, a diferencia de modelos de razonamiento puros, Qwen 3 también puede responder directamente sin pensar cuando la consulta es sencilla. Los usuarios pueden controlar este comportamiento a través de un parámetro de presupuesto de pensamiento, estableciendo conteos máximos de tokens de razonamiento o deshabilitando el pensamiento por completo para aplicaciones sensibles a la latencia.

La arquitectura MoE en las variantes 30B-A3B y 235B-A22B usa enrutamiento top-2 de expertos a través de redes de expertos de grano fino. El modelo 30B-A3B contiene 128 expertos y enruta cada token a 2, logrando inferencia notablemente eficiente — funciona aproximadamente a la velocidad de un modelo denso de 3B mientras entrega calidad más cercana a modelos en el rango de 14B-32B. El insignia 235B-A22B similarmente funciona aproximadamente al costo de inferencia de clase 22B mientras compite con los mejores modelos densos de pesos abiertos.

El soporte multilingüe se ha expandido dramáticamente, con 119 idiomas representados en los datos de entrenamiento. Esto incluye soporte integral para idiomas con recursos limitados en otras familias de modelos, como tailandés, vietnamita, indonesio, malayo, tagalo, swahili y numerosos otros idiomas.

Fine-Tuning with Ertas

La línea diversa de Qwen 3 hace que el fine-tuning en Ertas Studio sea accesible en toda escala. Los modelos densos de 0.6B a 8B pueden todos ajustarse con QLoRA en GPUs de consumo con 6-16GB de VRAM, haciéndolos ideales para prototipado y experimentación rápidos. La variante MoE 30B-A3B es particularmente interesante para fine-tuning — a pesar de su conteo total de 30B parámetros, la huella de parámetros activos durante el entrenamiento es de solo 3B, habilitando fine-tuning con QLoRA con aproximadamente 18-24GB de VRAM.

El modo de pensamiento híbrido crea oportunidades únicas de fine-tuning. En Ertas Studio, puedes entrenar con datasets que incluyan trazas de razonamiento explícitas, enseñando al modelo cuándo y cómo aplicar pensamiento extendido a problemas específicos de dominio. Esto es particularmente poderoso para dominios técnicos como diagnóstico médico, análisis legal o investigación científica donde mostrar los pasos de razonamiento mejora tanto la precisión como la confianza del usuario.

Después del entrenamiento, Ertas Studio exporta a formato GGUF con soporte completo para cuantización MoE. Tanto Ollama como llama.cpp manejan la inferencia MoE de Qwen 3 de forma nativa, haciendo el despliegue sencillo. La variante 30B-A3B con adaptador QLoRA fusionado y cuantizado a Q4_K_M produce un modelo de aproximadamente 17GB que funciona a velocidades de clase 3B — una relación calidad-recursos excepcional.

Use Cases

Qwen 3 es la opción líder para aplicaciones multilingües que requieren amplia cobertura de idiomas. El soporte de 119 idiomas lo hace adecuado para plataformas globales, sistemas internacionales de soporte al cliente y procesamiento de contenido entre idiomas. Las variantes MoE son particularmente rentables para servicio por API, ya que procesan tokens a velocidades de modelo pequeño mientras mantienen calidad de modelo grande.

El modo de pensamiento híbrido hace a Qwen 3 muy adecuado para aplicaciones donde la profundidad de razonamiento varía por consulta: plataformas educativas donde algunas preguntas necesitan explicaciones paso a paso, sistemas de soporte técnico donde algunos problemas requieren análisis más profundo, y herramientas de investigación donde algunas consultas se benefician de deliberación extendida.

La variante 30B-A3B es una excelente opción para organizaciones que quieren ejecutar un modelo de alta calidad en hardware moderado. Con solo 3B de parámetros activos, puede servir aplicaciones en tiempo real con baja latencia mientras proporciona calidad que supera a la mayoría de modelos densos de 7B-14B. El insignia 235B-A22B apunta a aplicaciones de alta capacidad: razonamiento complejo, generación creativa, análisis de nivel experto y flujos de trabajo agénticos.

Hardware Requirements

Los modelos densos Qwen 3 tienen requisitos estándar: el 0.6B en Q4_K_M necesita unos 500MB, el 4B unos 2.5GB, el 8B unos 5GB, el 14B unos 8.5GB, y el 32B unos 19GB. Estos son sencillos de desplegar en hardware de consumo en los tamaños más pequeños y hardware de clase servidor en los tamaños más grandes.

Las variantes MoE requieren cargar todos los pesos de expertos aunque solo un subconjunto esté activo por token. El 30B-A3B en Q4_K_M requiere aproximadamente 17-18GB de RAM, ejecutable en una sola GPU de 24GB o sistemas con 32GB de RAM. A pesar del conteo total de 30B parámetros, la velocidad de inferencia es comparable a un modelo denso de 3B. El 235B-A22B en Q4_K_M requiere aproximadamente 130-140GB, necesitando configuraciones multi-GPU o inferencia CPU con gran memoria.

Para fine-tuning en Ertas Studio, el modelo MoE 30B-A3B con QLoRA requiere aproximadamente 18-24GB de VRAM debido al eficiente conteo de parámetros activos. El modelo denso de 8B necesita 8-12GB de VRAM, y el denso de 14B necesita 12-16GB de VRAM.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

LM Studio

Integration

Ollama

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →