Fine-Tune Nemotron 3 Nano Omni with Ertas

NVIDIA 於 2026 年 4 月 29 日發布的全模態版本——一個 300 億參數的專家混合模型，每個 token 約 3B 活躍參數，統一處理文字／視覺／音訊／影像，在影片工作負載上吞吐量為其他開源全模態模型的 9 倍，且僅需 25GB RAM 部署。發布時的生產採用者：Foxconn、Palantir、Oracle、DocuSign。

30B-A3BNVIDIA

Overview

Nemotron 3 Nano Omni 由 NVIDIA 於 2026 年 4 月 29 日發布，在撰寫本文時是開源權重生態系中最新的全模態模型。架構為 300 億參數的專家混合，每個 token 約 3B 活躍參數，統一處理文字、視覺、音訊與影像輸入——並產生文字與結構化輸出作為回應。NVIDIA 的發布定位強調部署經濟性與企業採用：模型可裝入 25GB RAM、在影片與文件工作負載上比其他開源權重全模態模型有 9 倍的吞吐量，且發布時就帶來指名的生產採用者，包括 Foxconn、Palantir、Oracle 與 DocuSign。

NVIDIA Open Model Agreement 授權條款是商業友善的——廣泛適用於商業部署，條款專為企業採用而設計。雖然不是 Apache 2.0，但該協議涵蓋商業企業所需的典型使用情境，且不施加在某些其他授權模型中常見的使用限制或註明來源負擔。

30B-A3B 架構選擇反映了對生產部署的刻意優化。每個 token 僅 3B 活躍參數，模型以與規模小得多的密集模型相當的速度服務，同時可存取 30B 完整參數容量的知識廣度。在影片工作負載上 9 倍吞吐量的宣告意義重大——多模態推論通常昂貴且受延遲限制，可觀的吞吐量提升直接轉化為大規模下每次請求成本的下降。

Nemotron 3 Nano Omni 代表 NVIDIA 持續投入成為有意義的開源權重模型貢獻者，而不僅是硬體供應商。該模型是更廣泛的 Nemotron 3 家族的一部分，該家族還包含其他特化變體。權重可在 Hugging Face 的 nvidia 組織下取得。

Key Features

統一全模態輸入是 Nemotron 3 Nano Omni 的決定性能力。文字、視覺、音訊與影像處理都在單一檢查點中發生——生產部署時不需要獨立的視覺編碼器、音訊模型或片段化的多模態管線。這在營運上具有重要意義：片段化管線有 N 個整合點與 N 個失效模式；統一的全模態模型則各自只有一個。

在影片與文件工作負載上 9 倍吞吐量的宣告是有意義的生產經濟性差異化要素。多模態推論歷來昂貴——尤其是影片，未經優化地對多畫格計算注意力會產生可觀成本。Nemotron 3 Nano Omni 的架構優化專門針對這些工作負載，相較於其他替代方案在大規模下轉化為大幅降低的每次請求成本。

25GB RAM 的部署佔用對全模態模型而言相當令人印象深刻。開源權重生態系中大多數具備全模態能力的替代方案都需要大幅更多記憶體，才能載入所有專家權重與多模態投影器。Nemotron 3 Nano Omni 可裝在單張 A100 40GB 或 H100 80GB 上並有可觀餘裕，且在具備足夠記憶體的 RTX 6000 級工作站硬體上也真正可部署。

發布時的企業採用訊號值得注意。大多數開源權重模型發布時並沒有具名的生產採用者——模型先發布，採用則在數月後浮現。Nemotron 3 Nano Omni 在第一天就帶著 Foxconn、Palantir、Oracle 與 DocuSign 作為具名夥伴上市，顯示 NVIDIA 的企業關係策略正在產生有意義的發布前驗證。對其他評估全模態部署的企業而言，具名採用者提供了參考實作與風險降低的脈絡。

Fine-Tuning with Ertas

Nemotron 3 Nano Omni 的 3B 活躍參數 MoE 架構使其在 Ertas Studio 中微調起來相當高效。QLoRA 微調可在典型多模態序列長度下舒適地裝在 24-32GB GPU 上，活躍參數量主導訓練時的計算經濟性。

針對多模態微調，Ertas Studio 支援符合 Nemotron 3 統一輸入模式的交錯式訓練資料格式：文字提示與影像、音訊片段、影片畫面與文件內容配對，依領域所需。統一架構意味著單一微調工作流程處理所有模態——不需獨立的專門化訓練執行。

對於與具名採用者使用情境吻合的企業部署情境（工業自動化、國防與情報、企業軟體、文件處理），Nemotron 3 Nano Omni 是個特別自然的起點。在你的領域特定多模態資料上微調——專有文件格式、產業特定影像、領域音訊——產生的特化變體結合了 NVIDIA 的部署經濟性與貴組織的特定知識。

訓練完成後，Ertas Studio 匯出為 GGUF 格式並保留多模態投影器。生產服務建議透過 vLLM（啟用多模態支援）或 NVIDIA 自家的 TensorRT-LLM 部署——TensorRT-LLM 特別針對 Nemotron 家族模型高度優化，並在完整部署規模下實現頭條的 9 倍吞吐量宣告。

Use Cases

工業與製造應用可受益於 Nemotron 3 Nano Omni 的影片理解能力結合具名合作脈絡。Foxconn 的採用顯示該模型定位於工業檢測、製造自動化與類似應用，這些應用重視統一的影片＋文字＋音訊推理。在影片工作負載上 9 倍的吞吐量使即時監控應用以先前世代全模態模型無法做到的方式，在經濟上變得可行。

企業文件處理——Palantir、Oracle、DocuSign 的使用情境——利用統一的文字＋影像輸入處理混合結構化資料、嵌入式圖表與自然語言內容的文件。吞吐量改進在高量處理應用中轉化為較低的每份文件成本。

國防、情報與特化分析工作流程可受益於統一多模態輸入與 NVIDIA 企業關係的結合。需要同時分析影片、音訊與文件證據的應用——通常具有排除雲端 API 的嚴格部署要求——透過在 NVIDIA 硬體上自行託管 Nemotron 3 Nano Omni 部署可獲得良好支援。

對於規模較小的部署，25GB RAM 的佔用使 Nemotron 3 Nano Omni 對沒有伺服器級基礎設施的團隊也可使用。在單一工作站或適度伺服器部署上的多模態應用，可直接使用該模型，而不需較大全模態替代方案所需的多 GPU 複雜性。

Hardware Requirements

Nemotron 3 Nano Omni 在 Q4_K_M 量化下約需 18-22GB 記憶體（已載入所有專家權重）。在 24GB+ 卡（RTX 4090、RTX 5090、RTX 6000 Ada）上的單 GPU 部署相當直接。25GB RAM 這個頭條數字指的是 NVIDIA 為企業部署所建議的略高精度量化。

針對多模態推論，請預留額外記憶體餘裕給影片／影像／音訊預處理與投影器活化值——依輸入模態與序列長度，通常額外需要 4-10GB。3B 的活躍參數量決定 token 生成吞吐量，結合 TensorRT-LLM 優化可在影片工作負載上實現相對於替代方案的頭條 9 倍吞吐量宣告。

在 Ertas Studio 中進行微調：Nemotron 3 Nano Omni QLoRA 在典型多模態序列長度下約需 22-32GB VRAM，可裝在單張 32-48GB GPU 上。3B 的活躍參數量讓訓練步驟吞吐量相當於微調 3B 密集模型——在相同有效能力下，比同等品質的非 MoE 替代方案大幅更快。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

Ollama

TensorRT-LLM

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →