Fine-Tune Qwen3-Omni with Ertas

El modelo omni-modal de Alibaba — acepta entrada de texto, imagen, audio y video y produce texto más salida de voz en tiempo real en un solo checkpoint de mezcla de expertos 30B-A3B. Apache 2.0.

30B-A3BAlibaba

Overview

Qwen3-Omni es el insignia omni-modal de Alibaba dentro de la familia Qwen 3 — un solo checkpoint de mezcla de expertos 30B-A3B que acepta texto, imagen, audio y video como entrada y produce tanto texto como voz en tiempo real como salida. Esta arquitectura unificada es inusual en el ecosistema de pesos abiertos, donde la mayoría de los modelos multimodales manejan una o dos modalidades no textuales y requieren sistemas TTS externos añadidos para la salida de voz. Qwen3-Omni maneja todo el espectro de forma nativa.

El modelo se distribuye en tres variantes específicas de tarea: Qwen3-Omni-Instruct (seguimiento de instrucciones general en todas las modalidades), Qwen3-Omni-Thinking (modo de razonamiento para consultas multimodales complejas) y Qwen3-Omni-Captioner (especializado en generación de subtítulos en imagen, audio y video). Lanzado bajo Apache 2.0, Qwen3-Omni fue seguido por Qwen3.5-Omni (variantes Plus, Flash, Light lanzadas el 30 de marzo de 2026) que extendió la arquitectura a tamaños adicionales y mejoró el rendimiento en benchmarks.

El recuento de 3B parámetros activos le da a Qwen3-Omni una excelente economía de inferencia para un modelo omni-modal — la generación de tokens corre a velocidades comparables a un modelo denso de 3B en frameworks estándar. Combinado con la licencia Apache 2.0 y amplia capacidad, Qwen3-Omni está entre las opciones de pesos abiertos más sólidas para aplicaciones multimodales sin la sobrecarga operacional de unir sistemas separados de visión, audio y TTS.

Key Features

La entrada omni-modal nativa es la capacidad principal. Donde la mayoría de los modelos multimodales aceptan una o dos modalidades adicionales (típicamente visión más texto), Qwen3-Omni maneja texto, imagen, audio y video de forma nativa en el mismo checkpoint. Esto elimina la complejidad arquitectónica de despliegues de modelos separados para cada modalidad y produce un razonamiento más coherente entre modalidades — el modelo puede correlacionar lenguaje hablado con elementos visuales en pantalla, o contenido de imagen con audio incrustado, de formas que las pipelines fragmentadas manejan deficientemente.

La salida de voz en tiempo real es inusual en lanzamientos de pesos abiertos. Qwen3-Omni produce voz junto al texto sin un despliegue TTS separado, simplificando la arquitectura para aplicaciones de interfaz de voz. En benchmarks específicos de audio, se ha reportado que el modelo supera a Gemini en algunas tareas a pesar del recuento de 3B parámetros activos.

La arquitectura MoE 30B-A3B le da a Qwen3-Omni una sólida economía de inferencia. Con 3B de parámetros activos por token, la generación corre a velocidades de modelo pequeño mientras que la capacidad total de 30B parámetros entrega calidad competitiva con modelos multimodales densos más grandes. Para servicio omni-modal de producción donde el costo por token importa, esto es una ventaja significativa.

La licencia Apache 2.0 combinada con la arquitectura unificada hace que Qwen3-Omni sea adecuado para despliegue comercial en aplicaciones de interfaz de voz, herramientas de accesibilidad, moderación de contenido multimodal y casos de uso similares donde la simplicidad operacional de un solo checkpoint de modelo es valiosa.

Fine-Tuning with Ertas

Qwen3-Omni está soportado en el pipeline de fine-tuning de Ertas Studio con formatos de datos de entrenamiento multimodales. El fine-tuning con QLoRA cabe en una GPU de 24GB en longitudes de secuencia típicas gracias al recuento de 3B parámetros activos, aunque las longitudes de secuencia multimodales más largas (combinando datos de texto + imagen + audio) elevan los requisitos de memoria.

Para fine-tuning, Ertas Studio admite datos de entrenamiento multimodal intercalados: prompts de texto emparejados con imágenes, clips de audio y fotogramas de video según necesidades de tu caso de uso específico. Esto es particularmente valioso para aplicaciones específicas de dominio — fine-tuning sobre imágenes médicas con notas clínicas emparejadas, documentación técnica con diagramas embebidos y explicaciones de audio, o contenido de video específico de la industria con transcripciones.

Después del entrenamiento, Ertas Studio exporta los fine-tunes de Qwen3-Omni a formato GGUF con preservación del proyector multimodal. Se recomienda el despliegue vía vLLM (con soporte multimodal habilitado) para servicio de producción; Ollama también tiene soporte creciente para variantes omni-modales de Qwen.

Use Cases

Las aplicaciones de interfaz de voz son una opción natural para Qwen3-Omni. Chatbots de servicio al cliente que manejan tanto voz como texto, aplicaciones de accesibilidad que combinan entrada visual y auditiva, y asistentes de productividad activados por voz se benefician todos de la capacidad unificada de entrada/salida de voz sin despliegue TTS separado.

La moderación de contenido multimodal es otro caso de uso fuerte. Plataformas que moderan contenido generado por usuarios (que mezcla texto, imágenes, audio y video) pueden usar Qwen3-Omni para aplicar lógica de moderación consistente en todas las modalidades en un solo modelo, en lugar de sistemas separados de moderación de visión, audio y texto.

Para aplicaciones de accesibilidad — transcripción, subtitulado, descripción de imágenes, búsqueda multimodal — la combinación de capacidades y eficiencia de inferencia de Qwen3-Omni lo hace adecuado para despliegue en tecnologías asistivas basadas en navegador o desplegadas en el borde.

Hardware Requirements

Qwen3-Omni en Q4_K_M requiere aproximadamente 18-20GB de memoria (todos los pesos de expertos cargados). Una GPU de 24GB es el punto óptimo de despliegue, ajustándose tanto al modelo como a un contexto razonable con los proyectores multimodales cargados.

Para inferencia multimodal específicamente, planifica memoria adicional para preprocesamiento de imagen/audio/video y activaciones de proyectores — típicamente 4-8GB extra más allá de la huella base del modelo dependiendo de la longitud de secuencia de entrada.

Para fine-tuning en Ertas Studio: QLoRA de Qwen3-Omni necesita 22-32GB de VRAM en longitudes de secuencia multimodal típicas. El fine-tuning solo de texto cabe en 24GB; el fine-tuning multimodal mixto típicamente requiere 32GB o más dependiendo de la mezcla de modalidades.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

Integration

llama.cpp

Integration

Ollama

Integration

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →