Fine-Tune Qwen3.5-Omni with Ertas

    阿里巴巴於 2026 年 3 月 30 日發布的全模態版本——包含 Plus、Flash 與 Light 三個變體,支援 113 種語音輸入語言、256K 上下文(10 小時音訊或 400 秒 720p 影片),並在音訊基準上勝過 Gemini 3.1 Pro。是 Qwen3-Omni 在架構與能力上的後繼者。

    Light (邊緣端)Flash (低延遲)Plus (旗艦)Alibaba

    Overview

    Qwen3.5-Omni 由阿里巴巴於 2026 年 3 月 30 日發布,是 Qwen3-Omni(2025 年 12 月)在架構與能力上的後繼者。產品線提供三個針對不同部署情境調校的變體:Plus(旗艦,以能力為優化目標)、Flash(針對即時應用優化延遲)以及 Light(邊緣/裝置端部署)。三者皆可接受文字、影像、音訊與影片作為輸入,並產生文字加上即時語音作為輸出。

    相對於 Qwen3-Omni 最顯著的改進是語言覆蓋範圍。Qwen3-Omni 支援 119 種文字語言,但僅支援 19 種語音輸入語言——對全球語音介面應用而言這是個有意義的落差。Qwen3.5-Omni 將語音輸入支援擴展至 113 種語言,補上了大部分的落差,使該模型在較不常見語言的長尾市場中也能實際用於語音應用。在音訊基準上,Plus 變體據報導勝過 Gemini 3.1 Pro——這是近期少數幾個在音訊領域上能可信地與前沿專有多模態模型競爭的開源權重結果。

    256K 上下文視窗轉換為實際容量上相當可觀:單一上下文中可容納約 10 小時的音訊輸入或 400 秒(約 6.5 分鐘)的 720p 影片。對於會議轉錄、長篇 podcast 分析、影片內容理解或具持續上下文的延伸語音對話等應用而言,相較於先前世代的多模態模型,這個上下文容量是真正具有變革性的。

    三個 Qwen3.5-Omni 變體都以 Apache 2.0 授權發布——是商業使用最寬鬆的授權之一。各變體的權重皆可在 Hugging Face 上的 Qwen 組織下取得。統一架構(單一檢查點處理所有模態)消除了將獨立的視覺、音訊與 TTS 系統串接起來的營運複雜性——對生產環境部署而言是個有意義的簡化。

    Key Features

    113 種語言的語音輸入是 Qwen3.5-Omni 最顯眼的覆蓋範圍提升。從 Qwen3-Omni 的 19 種語言擴展至 113 種,使該模型在全球語音介面應用上實際可用,無需依賴各語言專屬的 ASR 模型。對於在國際市場上開發語音功能的產品團隊而言,這項變化單獨就能將生產架構從 N 個專門化語音模型簡化為一個統一的 Qwen3.5-Omni 部署。

    三變體家族涵蓋完整的部署光譜。Light 鎖定延遲與記憶體限制嚴格的裝置端與邊緣應用。Flash 為即時服務優化低延遲,代價是部分顛峰品質。Plus 是旗艦變體,適合以音訊基準品質為主要關注點的使用情境。各團隊可依使用情境選擇合適的變體,同時在三者之間維持一致的提示詞模式與整合程式碼。

    與 Gemini 3.1 Pro 在音訊基準上達成持平是其最具代表性的能力宣告。獨立驗證仍在進行中,但 Plus 變體在音訊理解基準上的報導表現使其在前沿專有多模態模型之列具有競爭力——考量到開源權重的授權與相對於封閉式替代方案的架構簡化,這是個值得注意的成果。

    處理 10 小時音訊的 256K 上下文在營運上具有變革性。大多數生產音訊工作流程過去都需要將長音訊切分為 30-60 秒的片段並跨片段重建上下文——這是個會遺失跨片段資訊的脆弱模式。Qwen3.5-Omni 原生的長音訊支援消除了大多數工作流程中對切分的需求,簡化了架構並提升跨上下文推理品質。

    Fine-Tuning with Ertas

    Qwen3.5-Omni Light 在 Ertas Studio 中可使用 QLoRA 在單張 24GB GPU 上以典型多模態序列長度良好微調。Flash 與 Plus 變體則需要更大的配置——Flash 需 48GB+ GPU,Plus 則需多 GPU 伺服器。

    針對多模態微調,Ertas Studio 支援交錯式訓練資料格式:文字提示與影像、音訊片段、影片畫面以及依特定使用情境所需的組合配對。這對特定領域應用特別有價值——將 Qwen3.5-Omni 在搭配臨床筆記的醫學影像、嵌入圖表與音訊解說的技術文件,或具結構化分析的產業特定影片內容上進行微調。

    針對語音特定的微調,Ertas Studio 支援搭配音訊與轉錄文字的訓練資料,包含方言特定資料、技術詞彙語音資料與多語者對話資料。113 種語言的基礎覆蓋意味著在方言或產業特定語音資料上進行微調,能在不需從頭學習該語言的前提下產生特別強的特化表現。

    訓練完成後,Ertas Studio 將 Qwen3.5-Omni 微調模型匯出為 GGUF 格式並保留多模態投影器。建議使用 vLLM(啟用多模態支援)進行生產服務部署;Ollama 對全模態 Qwen 變體的支援也日益成熟。

    Use Cases

    語音介面應用可大幅受益於 Qwen3.5-Omni 的能力組合。同時處理語音與文字的客服聊天機器人、結合視覺與聽覺輸入的無障礙應用、語音驅動的生產力助理,以及多語言客服中心自動化,都可受益於統一的語音輸入/輸出能力與廣泛的語言覆蓋。Flash 變體特別適合即時語音應用。

    長篇音訊分析是 Plus 變體的天然契合場景。會議轉錄與分析(單一上下文容納 10 小時音訊)、podcast 內容審核、有聲書導航與長篇訪談綜合,皆可受益於原生長音訊支援,無需切分。結合音訊與文字推理產生的結果,比片段化管線更為連貫。

    影片內容理解工作流程——內容審核、影片搜尋、自動精華產生、多模態無障礙(結合視覺與聽覺描述)——可受益於 Qwen3.5-Omni 的影片輸入支援結合文字與語音輸出。400 秒影片上下文可處理大多數短影音內容(TikTok、Instagram Reels、YouTube Shorts)以及較長內容的有意義片段。

    Hardware Requirements

    Qwen3.5-Omni Light 在 Q4_K_M 下通常約需 6-10GB 記憶體——可裝入 RTX 3060 12GB 起的消費級 GPU 與具備 16GB+ 統一記憶體的現代筆電。Flash 變體約需 18-28GB。Plus 變體依量化等級約需 60-90GB,可裝在 80GB GPU 上或跨多張卡分散。

    針對多模態推論,請預留額外的記憶體餘裕給影像/音訊/影片預處理與投影器活化值——通常依輸入模態與序列長度,在基礎模型佔用之上額外需要 4-12GB。

    在 Ertas Studio 中進行微調:Qwen3.5-Omni Light QLoRA 需 12-24GB VRAM,可裝在單張消費級 GPU 上。Flash QLoRA 需 32-48GB。Plus QLoRA 需多 GPU 伺服器配置。統一的多模態架構意味著所有模態(文字、影像、音訊、影片)皆可透過同一個訓練管線微調,無需獨立的專門化部署。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.