Fine-Tune Qwen3.5-Omni with Ertas

    Lanzamiento omni-modal de Alibaba del 30 de marzo de 2026 — variantes Plus, Flash y Light que admiten 113 idiomas como entrada de voz, contexto de 256K (10 horas de audio o 400 segundos de video 720p), y superando a Gemini 3.1 Pro en benchmarks de audio. El sucesor arquitectónico y de capacidades de Qwen3-Omni.

    Light (edge)Flash (latency)Plus (flagship)Alibaba

    Overview

    Qwen3.5-Omni, lanzado por Alibaba el 30 de marzo de 2026, es el sucesor arquitectónico y de capacidades de Qwen3-Omni (diciembre de 2025). La línea se distribuye en tres variantes ajustadas para distintos escenarios de despliegue: Plus (insignia, optimizado para capacidad), Flash (optimizado para latencia en aplicaciones en tiempo real) y Light (despliegue edge/en dispositivo). Las tres aceptan texto, imagen, audio y video como entrada y producen texto más voz en tiempo real como salida.

    La mejora más llamativa respecto a Qwen3-Omni es la cobertura de idiomas. Qwen3-Omni admitía 119 idiomas de texto pero solo 19 idiomas de entrada de voz — una brecha significativa para aplicaciones globales con interfaces de voz. Qwen3.5-Omni amplía el soporte de entrada de voz a 113 idiomas, cerrando la mayor parte de esa brecha y haciendo el modelo prácticamente utilizable para aplicaciones de voz en la larga cola de idiomas menos comunes. En benchmarks de audio, según se informa la variante Plus supera a Gemini 3.1 Pro — uno de los pocos resultados open-weight recientes que compite de forma creíble con modelos multimodales propietarios de frontera específicamente en audio.

    La ventana de contexto de 256K se traduce en una capacidad real sustancial: aproximadamente 10 horas de entrada de audio o 400 segundos (~6,5 minutos) de video 720p caben en un solo contexto. Para aplicaciones como transcripción de reuniones, análisis de podcasts de larga duración, comprensión de contenido en video o conversaciones de voz extendidas con contexto persistente, este tamaño de contexto es genuinamente transformador en comparación con generaciones multimodales previas.

    Las tres variantes de Qwen3.5-Omni se publican bajo Apache 2.0 — una de las licencias más permisivas comercialmente disponibles. Los pesos de cada variante están disponibles en Hugging Face bajo la organización Qwen. La arquitectura unificada (un único checkpoint que maneja todas las modalidades) elimina la complejidad operativa de unir sistemas separados de visión, audio y TTS — una simplificación significativa para despliegues en producción.

    Key Features

    La entrada de voz en 113 idiomas es la mejora insignia de cobertura de Qwen3.5-Omni. La expansión desde los 19 idiomas de Qwen3-Omni a 113 hace que el modelo sea prácticamente utilizable para aplicaciones globales de interfaz de voz sin recurrir a modelos ASR específicos por idioma. Para equipos de producto que construyen funciones de voz en mercados internacionales, este único cambio puede simplificar la arquitectura de producción de N modelos de voz especializados a un único despliegue unificado de Qwen3.5-Omni.

    La familia de tres variantes cubre todo el espectro de despliegue. Light apunta a aplicaciones en dispositivo y edge donde las restricciones de latencia y memoria son ajustadas. Flash optimiza el servicio en tiempo real con baja latencia a costa de algo de calidad pico. Plus es la variante insignia para casos de uso en los que la calidad en benchmarks de audio es la principal preocupación. Los equipos pueden seleccionar la variante apropiada por caso de uso manteniendo patrones de prompt consistentes y código de integración común entre las tres.

    La paridad en benchmarks de audio con Gemini 3.1 Pro es la afirmación destacada en capacidad. La verificación independiente sigue en curso, pero el rendimiento reportado de la variante Plus en benchmarks de comprensión de audio la sitúa competitiva con modelos multimodales propietarios de frontera — un resultado notable dada la licencia open-weight y las simplificaciones arquitectónicas frente a alternativas cerradas.

    El manejo de contexto de 256K que abarca 10 horas de audio es operativamente transformador. La mayoría de los flujos de audio en producción anteriormente requerían trocear audio largo en segmentos de 30-60 segundos y reconstruir el contexto entre segmentos — un patrón frágil que pierde información entre segmentos. El soporte nativo de audio largo de Qwen3.5-Omni elimina este requisito de troceado para la mayoría de los flujos de trabajo, simplificando la arquitectura y mejorando la calidad del razonamiento entre contextos.

    Fine-Tuning with Ertas

    Qwen3.5-Omni Light se ajusta bien en Ertas Studio con QLoRA en una sola GPU de 24GB con longitudes de secuencia multimodales típicas. Las variantes Flash y Plus requieren configuraciones más grandes — GPU de 48GB+ para Flash, servidor multi-GPU para Plus.

    Para fine-tuning multimodal específicamente, Ertas Studio admite formatos de datos de entrenamiento intercalados: prompts de texto emparejados con imágenes, clips de audio, fotogramas de video y combinaciones según las necesidades de tu caso de uso específico. Esto es particularmente valioso para aplicaciones de dominio específico — fine-tuning de Qwen3.5-Omni en imágenes médicas con notas clínicas emparejadas, documentación técnica con diagramas y explicaciones de audio incrustadas, o contenido de video específico de la industria con análisis estructurado.

    Para fine-tuning específico de voz, Ertas Studio admite datos de entrenamiento emparejados de audio y transcripción, incluyendo datos específicos de dialecto, datos de voz con vocabulario técnico y datos de conversación multi-hablante. La cobertura base de 113 idiomas significa que el fine-tuning sobre datos de voz dialectales o específicos de la industria produce una especialización particularmente sólida sin requerir que el modelo aprenda el idioma desde cero.

    Después del entrenamiento, Ertas Studio exporta los fine-tunes de Qwen3.5-Omni al formato GGUF con preservación del proyector multimodal. Se recomienda el despliegue mediante vLLM (con soporte multimodal habilitado) para servicio en producción; Ollama también tiene soporte creciente para variantes omni-modales de Qwen.

    Use Cases

    Las aplicaciones con interfaz de voz se benefician sustancialmente de la combinación de capacidades de Qwen3.5-Omni. Chatbots de servicio al cliente que manejan tanto voz como texto, aplicaciones de accesibilidad que combinan entrada visual y auditiva, asistentes de productividad por voz y automatización multilingüe de centros de llamadas se benefician de la capacidad unificada de entrada/salida de voz y la amplia cobertura de idiomas. La variante Flash es particularmente adecuada para aplicaciones de voz en tiempo real.

    El análisis de audio de larga duración encaja de forma natural con la variante Plus. Transcripción y análisis de reuniones (10 horas de audio en un solo contexto), moderación de contenido de podcasts, navegación de audiolibros y síntesis de entrevistas largas se benefician del soporte nativo de audio largo sin requerir troceado. El razonamiento combinado audio + texto produce resultados más coherentes que los pipelines fragmentados.

    Los flujos de trabajo de comprensión de contenido en video — moderación de contenido, búsqueda en video, generación automatizada de momentos destacados, accesibilidad multimodal (descripción visual y auditiva combinada) — se benefician del soporte de entrada de video de Qwen3.5-Omni combinado con salida de texto y voz. El contexto de 400 segundos de video maneja la mayoría del contenido de formato corto (TikTok, Instagram Reels, YouTube Shorts) y porciones significativas de contenido más largo.

    Hardware Requirements

    Qwen3.5-Omni Light en Q4_K_M generalmente requiere aproximadamente 6-10GB de memoria — caben en GPUs de consumo desde RTX 3060 12GB en adelante y portátiles modernos con 16GB+ de memoria unificada. La variante Flash requiere aproximadamente 18-28GB. La variante Plus requiere aproximadamente 60-90GB dependiendo de la cuantización, cabiendo en GPUs de 80GB o repartida entre varias tarjetas.

    Para inferencia multimodal específicamente, planifica margen adicional de memoria para el preprocesamiento de imagen/audio/video y las activaciones del proyector — típicamente 4-12GB extra más allá de la huella base del modelo dependiendo de la modalidad de entrada y la longitud de secuencia.

    Para fine-tuning en Ertas Studio: QLoRA de Qwen3.5-Omni Light necesita 12-24GB de VRAM, cabiendo en una sola GPU de consumo. QLoRA de Flash necesita 32-48GB. QLoRA de Plus necesita configuraciones de servidor multi-GPU. La arquitectura multimodal unificada significa que todas las modalidades (texto, imagen, audio, video) pueden ajustarse mediante el mismo pipeline de entrenamiento sin requerir despliegues especialistas separados.

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.