Fine-Tune Qwen3-Coder with Ertas

La línea de modelos de codificación especializados de Alibaba — incluyendo el insignia Qwen3-Coder 480B-A35B con contexto de 256K-1M y el Qwen3-Coder-Next 80B-A3B, ambos diseñados nativamente para CLIs de codificación agéntica al estilo Claude Code, Cline y Qwen Code. Apache 2.0.

30B-A3B80B-A3B (Next)480B-A35BAlibaba

Overview

Qwen3-Coder es la línea de modelos de codificación dedicada de Alibaba dentro de la familia Qwen 3, diseñada específicamente para cargas de codificación agéntica en lugar de chat general o razonamiento. El insignia Qwen3-Coder-480B-A35B-Instruct combina una gran arquitectura de mezcla de expertos (480B total / 35B activos) con una ventana de contexto nativa de 256K extrapolable a 1M tokens, apuntando al razonamiento de bases de código completas y tareas de codificación de horizonte largo. Variantes más pequeñas — Qwen3-Coder-30B-A3B y Qwen3-Coder-Next 80B-A3B — extienden el entrenamiento enfocado en codificación a escalas de despliegue de gama media.

Lo que distingue a Qwen3-Coder de los modelos de propósito general que también codifican bien es el post-entrenamiento dirigido: los modelos fueron entrenados explícitamente sobre trazas de codificación agéntica, incluyendo planificación, ediciones multi-archivo, ejecución de tests e iteración basada en los resultados observados. Este patrón es lo que herramientas como Claude Code, Cline, Aider y Qwen Code aprovechan, y el entrenamiento de Qwen3-Coder coincide con el patrón de despliegue. Como resultado, Qwen3-Coder produce un comportamiento de codificación agéntica más confiable que las variantes no especializadas de Qwen 3 de tamaño equivalente.

Qwen3-Coder-Next (80B-A3B) es particularmente notable por su economía de inferencia. Con solo ~3B de parámetros activos por token, sirve a velocidades comparables a un modelo denso de 3B mientras entrega calidad específica de codificación competitiva con modelos mucho más grandes. Las puntuaciones de SWE-Bench Verified alrededor del 70.6% lo colocan entre los modelos de codificación de pesos abiertos más fuertes — y la velocidad de inferencia lo hace práctico para despliegue agéntico de alto rendimiento donde los modelos más grandes serían prohibitivamente caros.

Todas las variantes Qwen3-Coder se publican bajo Apache 2.0 con pesos en Hugging Face en `Qwen/Qwen3-Coder-480B-A35B-Instruct`, `Qwen/Qwen3-Coder-30B-A3B-Instruct` y `Qwen/Qwen3-Coder-Next`.

Key Features

El entrenamiento dirigido de codificación agéntica es el diferenciador central de Qwen3-Coder. Los modelos fueron post-entrenados sobre trazas de flujos de trabajo de codificación reales: descripciones de tareas, pasos de planificación, ediciones multi-archivo, ejecuciones de tests y corrección iterativa. Este entrenamiento basado en patrones produce modelos que manejan despliegues de codificación agéntica con mayor confiabilidad que modelos de propósito general, incluso cuando el modelo general tiene puntuaciones más altas en benchmarks sintéticos.

La ventana de contexto de 256K-1M del insignia 480B-A35B permite el razonamiento sobre bases de código completas que los modelos con contextos más pequeños no pueden lograr. Con ingeniería de contexto efectiva (archivos relevantes al inicio y final del contexto, secciones del medio resumidas), el modelo puede razonar holísticamente sobre todo un repositorio en un solo prompt.

Qwen3-Coder-Next con 80B-A3B es la variante práctica de punto óptimo para codificación agéntica de producción. El recuento de 3B parámetros activos le da una economía de inferencia adecuada para servicio de alto rendimiento, mientras que la puntuación SWE-Bench Verified de ~70.6% es competitiva con modelos de propósito general mucho más grandes. Para despliegues autoalojados donde el precio del backend de Claude Code o Cursor es prohibitivo, Qwen3-Coder-Next es la alternativa de pesos abiertos más fuerte para muchas cargas de trabajo.

Todas las variantes se integran nativamente con Qwen-Agent y CLIs de codificación externas (Claude Code, Cline, Qwen Code) mediante interfaces estándar de MCP y llamada de funciones. Esto significa que el despliegue requiere un mínimo de pegamento de integración comparado con añadir capacidad agéntica a una base no especializada.

Fine-Tuning with Ertas

Las variantes Qwen3-Coder están bien soportadas en el pipeline de fine-tuning de Ertas Studio. La variante 30B-A3B se ajusta con QLoRA en una sola GPU de 24GB gracias al recuento de 3B parámetros activos. Qwen3-Coder-Next con 80B-A3B cabe en una GPU de 48-80GB en longitudes de secuencia típicas.

El insignia 480B-A35B requiere fine-tuning en servidor multi-GPU. Para la mayoría de equipos, el patrón recomendado es usar el 480B como profesor para generar datos sintéticos de trazas de codificación, luego ajustar Qwen3-Coder-Next o Qwen3-Coder-30B-A3B sobre esos datos más ejemplos de tu propia base de código. Esto produce un modelo especializado a los patrones específicos de tu equipo a costo de despliegue en una sola GPU.

Para los datasets de fine-tuning, Qwen3-Coder se beneficia sustancialmente de datos de entrenamiento que incluyen trazas completas de codificación agéntica — descripción de la tarea, planificación, ediciones de código, salidas de tests e iteraciones. Ertas Studio admite estos formatos multi-paso de forma nativa, incluyendo trazas de uso de herramientas de ejecuciones de agentes CLI. Después del entrenamiento, Ertas Studio exporta a formato GGUF con preservación completa de la plantilla de chat de Qwen3-Coder, desplegando limpiamente vía Ollama, llama.cpp o vLLM con integración de un solo clic en Claude Code, Cline o Aider mediante su configuración de modelo personalizado.

Use Cases

Qwen3-Coder es la opción de pesos abiertos más sólida para agentes de codificación agéntica autoalojados. Los patrones de despliegue de producción incluyen pair-programming con IA para bases de código empresariales (donde las reglas de soberanía de datos descartan Claude Code o GitHub Copilot), generación autónoma de PRs para patrones de cambio repetitivos, asistencia en refactoring a gran escala y revisión de código a nivel de toda la base.

El 480B-A35B con contexto de 256K-1M se destaca en tareas de razonamiento sobre bases de código completas: revisión arquitectónica de sistemas grandes, auditorías de seguridad sobre toda una base de código, análisis de impacto de actualizaciones de dependencias y planificación de refactorings grandes. Estas tareas se benefician de que el modelo considere toda la base de código simultáneamente en lugar de recuperar y resumir.

Qwen3-Coder-Next es la elección práctica para despliegues de producción de alto rendimiento. Herramientas de codificación de cara al cliente, asistentes de desarrollador internos y agentes de revisión de código integrados en CI se benefician de la velocidad de inferencia de clase 3B combinada con calidad de codificación sólida. Para equipos que consideran alternativas autoalojadas a Claude Code o Cursor, Qwen3-Coder-Next está entre las opciones más convincentes.

Hardware Requirements

Qwen3-Coder-30B-A3B en Q4_K_M requiere aproximadamente 17-18GB de memoria, ajustándose a una GPU de 24GB con margen para contexto. La velocidad de inferencia está dominada por el recuento de 3B parámetros activos.

Qwen3-Coder-Next con 80B-A3B en Q4_K_M necesita aproximadamente 45GB, ajustándose a una sola GPU de 48GB o dividido entre dos GPUs de 24GB. A pesar del recuento total de 80B parámetros, la inferencia corre aproximadamente a velocidad de clase 3B.

El insignia 480B-A35B en Q4_K_M requiere aproximadamente 270GB de memoria, exigiendo configuraciones de servidor multi-GPU (4x A100 80GB mínimo). El recuento de 35B parámetros activos determina el rendimiento de generación de tokens una vez cargado.

Para fine-tuning en Ertas Studio: 30B-A3B con QLoRA necesita 22-28GB de VRAM, Qwen3-Coder-Next necesita 50-70GB de VRAM, y 480B-A35B requiere fine-tuning en servidor multi-GPU (200-280GB de VRAM total con QLoRA).