Fine-Tune Qwen3-Omni with Ertas

    阿里巴巴的全模態模型——在單一 30B-A3B 專家混合檢查點中,接受文字、圖像、音訊與影片輸入,並產出文字加即時語音輸出。Apache 2.0 授權。

    30B-A3BAlibaba

    Overview

    Qwen3-Omni 是阿里巴巴在 Qwen 3 家族中的全模態旗艦——一個 30B-A3B 專家混合檢查點,接受文字、圖像、音訊與影片作為輸入,同時產出文字與即時語音作為輸出。這種統一架構在開放權重生態系中極為罕見,多數多模態模型僅處理一兩種非文字模態,並需要外部附加的 TTS 系統來產出語音。Qwen3-Omni 原生處理整個範圍。

    模型推出三種任務專屬變體:Qwen3-Omni-Instruct(跨所有模態的一般指令遵循)、Qwen3-Omni-Thinking(針對複雜多模態查詢的推理模式)以及 Qwen3-Omni-Captioner(專門用於跨圖像、音訊與影片的字幕生成)。Qwen3-Omni 以 Apache 2.0 授權發布,後續由 Qwen3.5-Omni(Plus、Flash、Light 變體於 2026 年 3 月 30 日發布)接續,將架構擴展至更多規格並改善基準效能。

    3B 的活躍參數量為全模態模型提供出色的推論經濟性——在標準框架上,token 生成速度可媲美 3B 密集模型。結合 Apache 2.0 授權與廣泛能力,Qwen3-Omni 是多模態應用中最強的開放權重選擇之一,免去拼湊獨立視覺、音訊與 TTS 系統的維運成本。

    Key Features

    原生全模態輸入是其首要能力。多數多模態模型僅接受一到兩種額外模態(通常是視覺加文字),而 Qwen3-Omni 在同一檢查點中原生處理文字、圖像、音訊與影片。這消除了為每種模態獨立部署模型的架構複雜度,並產生跨模態更連貫的推理——模型能將口語與螢幕視覺、或圖像內容與嵌入音訊相互關聯,這是分散式管線難以處理的。

    即時語音輸出在開放權重發布中相當罕見。Qwen3-Omni 無需獨立 TTS 部署即可產出語音與文字,簡化語音介面應用的架構。在音訊專屬基準上,據報導儘管活躍參數量僅 3B,模型在某些任務上仍勝過 Gemini。

    30B-A3B MoE 架構為 Qwen3-Omni 提供強勁的推論經濟性。每個 token 有 3B 活躍參數,生成速度與小型模型相當,同時 30B 的總參數容量交付可與更大密集多模態模型競爭的品質。對於 token 成本至關重要的生產全模態服務,這是有意義的優勢。

    Apache 2.0 授權結合統一架構,使 Qwen3-Omni 非常適合語音介面應用、無障礙工具、多模態內容審核以及單一模型檢查點維運簡潔性具有價值的類似用例的商業部署。

    Fine-Tuning with Ertas

    Qwen3-Omni 在 Ertas Studio 的微調流程中支援多模態訓練資料格式。得益於 3B 活躍參數量,QLoRA 微調在典型序列長度下可裝入 24GB GPU,但較長的多模態序列長度(合併文字 + 圖像 + 音訊資料)會將記憶體需求推高。

    微調方面,Ertas Studio 支援交錯多模態訓練資料:根據特定用例需求,文字提示搭配圖像、音訊片段與影片畫面。這對特定領域應用尤其有價值——以醫療影像搭配臨床筆記微調、技術文件搭配嵌入圖表與音訊解釋、或具備轉錄稿的產業特定影片內容。

    訓練後,Ertas Studio 將 Qwen3-Omni 微調匯出為 GGUF 格式並保留多模態投影器。建議透過 vLLM(啟用多模態支援)部署於生產服務;Ollama 對全模態 Qwen 變體的支援也在持續增長。

    Use Cases

    語音介面應用是 Qwen3-Omni 的天然契合點。處理語音與文字的客服聊天機器人、結合視覺與聽覺輸入的無障礙應用,以及語音驅動的生產力助理,都受益於統一的語音輸入/輸出能力,無需獨立 TTS 部署。

    多模態內容審核是另一個強而有力的用例。審核使用者生成內容(混合文字、圖像、音訊與影片)的平台,可使用 Qwen3-Omni 在單一模型中對所有模態套用一致的審核邏輯,而非分別建置視覺、音訊與文字審核系統。

    對於無障礙應用——轉錄、字幕、圖像描述、多模態搜尋——Qwen3-Omni 的能力組合與高效推論使其非常適合部署於瀏覽器或邊緣部署的輔助技術中。

    Hardware Requirements

    Qwen3-Omni 在 Q4_K_M 下約需 18-20GB 記憶體(必須載入所有專家權重)。24GB GPU 是部署甜蜜點,能在載入多模態投影器的情況下容納模型與合理上下文。

    針對多模態推論,請為圖像/音訊/影片預處理與投影器啟動值規劃額外的記憶體餘裕——通常根據輸入序列長度,在基礎模型佔用之外需額外 4-8GB。

    Ertas Studio 中微調:Qwen3-Omni 在典型多模態序列長度下,QLoRA 需要 22-32GB VRAM。純文字微調可裝入 24GB;混合多模態微調通常需要 32GB 或更多,視模態組合而定。

    Supported Quantizations

    Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

    Related Resources

    Ship AI that runs on your users' devices.

    Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.