Fine-Tune Qwen3.5-Omni with Ertas
阿里巴巴 2026 年 3 月 30 日发布的全模态模型——包含 Plus、Flash 和 Light 三个变体,支持 113 种语言的语音输入、256K 上下文窗口(10 小时音频或 400 秒 720p 视频),在音频基准测试上超越 Gemini 3.1 Pro。Qwen3-Omni 在架构和能力层面的继任者。
Overview
Qwen3.5-Omni 由阿里巴巴于 2026 年 3 月 30 日发布,是 Qwen3-Omni(2025 年 12 月)在架构和能力层面的继任者。该产品线包含三个针对不同部署场景调优的变体:Plus(旗舰版,针对能力优化)、Flash(针对实时应用的低延迟优化版本)和 Light(边缘端/设备端部署版本)。三个变体均接受文本、图像、音频和视频作为输入,并产出文本和实时语音作为输出。
相较于 Qwen3-Omni 最显著的提升在于语言覆盖范围。Qwen3-Omni 支持 119 种文本语言,但仅支持 19 种语音输入语言——这对全球语音界面应用而言是一个明显的缺口。Qwen3.5-Omni 将语音输入支持扩展到 113 种语言,基本弥合了这一缺口,使该模型在长尾的小众语言上对语音应用具有实际可用性。在音频基准测试中,Plus 变体据报道在音频领域上超越 Gemini 3.1 Pro——这是近期为数不多的、能在音频维度上与前沿闭源多模态模型可信抗衡的开放权重成果之一。
256K 上下文窗口转化为可观的实际容量:单个上下文中可容纳约 10 小时的音频输入或 400 秒(约 6.5 分钟)的 720p 视频。对于会议转录、长篇播客分析、视频内容理解或具备持久上下文的延伸语音对话等应用,相较于此前的多模态模型代际,这一上下文规模具有真正的变革意义。
Qwen3.5-Omni 三个变体均以 Apache 2.0 许可证发布——属于商业宽容度最高的许可证之列。各变体的权重均可在 Hugging Face 上 Qwen 组织名下获取。统一的架构(单一检查点处理所有模态)消除了拼接独立的视觉、音频和 TTS 系统所带来的运维复杂度——对生产部署而言是一项有意义的简化。
Key Features
113 种语言的语音输入是 Qwen3.5-Omni 在覆盖范围上的标志性提升。从 Qwen3-Omni 的 19 种语言扩展至 113 种,使该模型对全球语音界面应用具有实际可用性,无需再依赖逐语言的 ASR 模型。对于在国际市场构建语音功能的产品团队而言,这一变化便能将生产架构从 N 个专用语音模型简化为单一统一的 Qwen3.5-Omni 部署。
三变体家族覆盖了完整的部署谱系。Light 面向延迟和内存约束严格的设备端及边缘端应用。Flash 针对实时服务进行低延迟优化,以略微牺牲峰值质量为代价。Plus 则是面向以音频基准质量为首要考量的旗舰变体。团队可按需为不同用例选择合适变体,同时在三者间保持一致的提示模式和集成代码。
与 Gemini 3.1 Pro 在音频基准上达到同等水平是其最突出的能力宣告。独立验证仍在进行中,但 Plus 变体在音频理解基准上的报告表现已使其与前沿闭源多模态模型形成竞争——考虑到其开放权重许可以及相较闭源替代方案的架构简化,这是一项值得关注的成果。
256K 上下文支持 10 小时音频对运维而言具有变革性。此前大多数生产级音频工作流都要求将长音频切分为 30-60 秒的片段,并跨片段重建上下文——这是一种容易丢失跨片段信息的脆弱模式。Qwen3.5-Omni 原生的长音频支持消除了大多数工作流中的切分需求,简化了架构并提升了跨上下文推理质量。
Fine-Tuning with Ertas
Qwen3.5-Omni Light 在 Ertas Studio 中可使用 QLoRA 在单块 24GB GPU 上良好微调,适用于典型的多模态序列长度。Flash 和 Plus 变体则需要更大的配置——Flash 需 48GB+ GPU,Plus 则需多 GPU 服务器。
针对多模态微调,Ertas Studio 支持交错的训练数据格式:文本提示与图像、音频片段、视频帧及其组合配对,可按具体用例所需进行配置。这对领域特定应用尤为有价值——例如在配有临床记录的医学影像、嵌入图表与音频解释的技术文档,或带有结构化分析的行业特定视频内容上微调 Qwen3.5-Omni。
针对语音特定微调,Ertas Studio 支持配对的音频与文字稿训练数据,包括方言特定数据、技术词汇语音数据以及多说话人对话数据。113 种语言的基础覆盖意味着在方言或行业特定语音数据上微调能产生尤为出色的特化效果,模型无需从零学习该语言。
训练完成后,Ertas Studio 导出为 GGUF 格式,并保留多模态投影层。生产服务推荐通过 vLLM(启用多模态支持)部署;Ollama 对全模态 Qwen 变体的支持也在持续增强中。
Use Cases
语音界面应用从 Qwen3.5-Omni 的能力组合中获益匪浅。同时处理语音和文本的客户服务聊天机器人、结合视觉与听觉输入的无障碍应用、语音驱动的生产力助手以及多语言呼叫中心自动化,都受益于统一的语音输入/输出能力以及广泛的语言覆盖。Flash 变体尤其适合实时语音应用。
长篇音频分析与 Plus 变体天然契合。会议转录与分析(单一上下文中容纳 10 小时音频)、播客内容审核、有声书导航以 及长篇访谈综述,均得益于原生的长音频支持,无需切分。结合音频与文本的推理能力相比碎片化的流水线产生更连贯的结果。
视频内容理解工作流——内容审核、视频检索、自动化精彩片段生成、多模态无障碍(结合视觉与听觉描述)——受益于 Qwen3.5-Omni 的视频输入支持以及文本和语音输出。400 秒视频上下文足以处理大多数短视频内容(TikTok、Instagram Reels、YouTube Shorts)以及较长视频的有意义切片。
Hardware Requirements
Qwen3.5-Omni Light 在 Q4_K_M 下通常约需 6-10GB 内存——可在 RTX 3060 12GB 及以上的消费级 GPU 以及配备 16GB+ 统一内存的现代笔记本上运行。Flash 变体约需 18-28GB。Plus 变体根据量化精度约需 60-90GB,可在 80GB GPU 上运行或在多卡间拆分。
针对多模态推理,需为图像/音频/视频预处理及投影层激活预留额外内存——通常根据输入模态和序列长度,在基础模型占用之外再预留 4-12GB。
在 Ertas Studio 中微调时:Qwen3.5-Omni Light QLoRA 需 12-24GB VRAM,可在单块消费级 GPU 上运行。Flash QLoRA 需 32-48GB。Plus QLoRA 需多 GPU 服务器配置。统一的多模态架构意味着所有模态(文本、图像、音频、视频)均可通过同一训练流水线进行微调,无需独立的专用部署。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.