Fine-Tune Qwen3-Omni with Ertas
阿里巴巴的全模态模型——在单一 30B-A3B 专家混合检查点中接受文本、图像、音频和视频输入,并输出文本以及实时语音。Apache 2.0 许可。
Overview
Qwen3-Omni 是阿里巴巴在 Qwen 3 系列中的全模态旗舰——单一 30B-A3B 专家混合检查点,接受文本、图像、音频和视频作为输入,并同时产生文本和实时语音作为输出。这种统一架构在开源权重生态中并不常见,多数多模态模型只处理一两种非文本模态,且需要外部附加 TTS 系统来输出语音。Qwen3-Omni 原生处理整个频谱。
该模型提供三个任务专用变体:Qwen3-Omni-Instruct(跨所有模态的通用指令遵循)、Qwen3-Omni-Thinking(用于复杂多模态查询的推理模式)和 Qwen3-Omni-Captioner(专门用于图像、音频和视频的字幕生成)。Qwen3-Omni 以 Apache 2.0 发布,之后由 Qwen3.5-Omni(2026 年 3 月 30 日发布的 Plus、Flash、Light 变体)继任,将该架构扩展到更多尺寸并改进基准测试性能。
3B 的活跃参数数量为 Qwen3-Omni 这样的全模态模型带来出色的推理经济性——在标准框架上 token 生成速度可与 3B 稠密模型相媲美。结合 Apache 2.0 许可和广泛的能力,Qwen3-Omni 是多模态应用最强的开源权重选择之一,无需将单独的视觉、音频和 TTS 系统拼接起来的运维负担。
Key Features
原生全模态输入是核心能力。多数多模态模型只接受一两种额外模态(通常是视觉加文本),而 Qwen3-Omni 在同一检查点中原生处理文本、图像、音频和视频。这消除了为每种模态部署单独模型的架构复杂性,并产生跨模态更连贯的推理——模型可以将口语与屏幕上的视觉内容关联,或将图像内容与嵌入音频关联,这些是碎片化管道难以处理的。
实时语音输出在开源权重发布中并不常见。Qwen3-Omni 在不部署单独 TTS 的情况下与文本一起输出语音,简化了语音界面应用的架构。在音频专项基准上,据报道该模型尽管只有 3B 活跃参数,仍在某些任务上击败了 Gemini。
30B-A3B MoE 架构赋予 Qwen3-Omni 强大的推理经济性。每 token 3B 活跃参数下,生成以小模型速度运行,而 30B 总参数容量提供可与更大稠密多模态模型竞争的质量。对于 token 成本至关重要的生产全模态服务,这是有意义的优势。
Apache 2.0 许可结合统一架构使 Qwen3-Omni 非常适合用于语音界面应用、无障碍工具、多模态内容审核以及类似用例的商业部署,在这些场景中单一模型检查点的运维简洁性具有价值。
Fine-Tuning with Ertas
Qwen3-Omni 在 Ertas Studio 的微调管道中得到支持,可使用多模态训练数据格式。得益于 3B 的活跃参数数量,QLoRA 微调在典型序列长度下可装入 24GB GPU,但更长的多模态序列长度(结合文本+图像+音频数据)会推高内存需求。
对于微调,Ertas Studio 支持交错的多模态训练数据:文本提示与图像、音频片段和视频帧配对,以满足您的特定用例需求。这对领域专用应用尤其有价值——在医学影像配对临床记录、技术文档配嵌入图表和音频解释,或行业特定视频内容配文字稿上微调。
训练完成后,Ertas Studio 将 Qwen3-Omni 微调导出为 GGUF 格式,并保留多模态投影器。建议通过 vLLM(启用多模态支持)部署用于生产服务;Ollama 对全模态 Qwen 变体的支持也在不断增加。
Use Cases
语音界面应用是 Qwen3-Omni 的天然契合点。同时处理语音和文本的客户服务聊天机器人、结合视 觉和听觉输入的无障碍应用,以及语音驱动的生产力助手,都能从无需单独部署 TTS 的统一语音输入/输出能力中受益。
多模态内容审核是另一个强用例。审核用户生成内容(混合文本、图像、音频和视频)的平台可以使用 Qwen3-Omni 在单一模型中跨所有模态应用一致的审核逻辑,而非单独的视觉、音频和文本审核系统。
对于无障碍应用——转录、字幕、图像描述、多模态搜索——Qwen3-Omni 的能力组合和高效推理使其非常适合部署在基于浏览器或边缘部署的辅助技术中。
Hardware Requirements
Qwen3-Omni 在 Q4_K_M 下约需 18-20GB 内存(所有专家权重已加载)。24GB GPU 是部署的甜点,可同时容纳模型、合理的上下文以及加载的多模态投影器。
对于多模态推理,需要为图像/音频/视频预处理和投影器激活预留额外内存——通常根据输入序列长度,在基础模型占用之外再增加 4-8GB。
在 Ertas Studio 中微调时:Qwen3-Omni 在典型多模态序列长度下使用 QLoRA 需要 22-32GB VRAM。纯文本微调可装入 24GB;混合多模态微调通常根据模态组合需要 32GB 或更多。
Supported Quantizations
Related Resources
Ship AI that runs on your users' devices.
Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.