Fine-Tune Nemotron 3 Nano Omni with Ertas

NVIDIA 2026 年 4 月 29 日发布的全模态模型——300 亿参数的专家混合架构，每个 token 激活约 30 亿活跃参数，统一处理文本/视觉/音频/图像，在视频工作负载上的吞吐量是其他开源全模态模型的 9 倍，仅需 25GB 内存即可部署。发布时已有的生产采用方包括：富士康（Foxconn）、Palantir、Oracle、DocuSign。

30B-A3BNVIDIA

Overview

Nemotron 3 Nano Omni 由 NVIDIA 于 2026 年 4 月 29 日发布，是撰写时开放权重生态中最新的全模态模型。其架构为 300 亿参数的专家混合，每个 token 激活约 30 亿活跃参数，统一处理文本、视觉、音频与图像输入，并产出文本和结构化输出作为响应。NVIDIA 的发布定位强调部署经济性和企业采用：模型可装入 25GB 内存，在视频和文档工作负载上相较其他开放权重全模态模型实现 9 倍吞吐量，并在发布时即附带富士康、Palantir、Oracle 和 DocuSign 等具名生产采用方。

NVIDIA Open Model Agreement 许可证属于商业宽容型——广泛适用于商业部署，其条款专门面向企业采用而设计。虽非 Apache 2.0，但该协议涵盖了商业企业所需的典型用例，并不附加部分许可模型中常见的使用限制或归属负担。

30B-A3B 架构的选型反映了对生产部署的精心优化。每个 token 激活 30 亿活跃参数，模型的服务速度可与远小于其规模的稠密模型相当，同时获取完整 300 亿参数容量的知识广度。视频工作负载上 9 倍吞吐量的宣告意义重大——多模态推理通常成本高昂且受延迟约束，可观的吞吐量提升可直接转化为大规模场景下更低的单次请求成本。

Nemotron 3 Nano Omni 代表了 NVIDIA 持续投入于成为有影响力的开放权重模型贡献者，而不仅是硬件供应商。该模型隶属于更广泛的 Nemotron 3 家族，其中包含其他特化变体。权重可在 Hugging Face 上 nvidia 组织名下获取。

Key Features

统一的全模态输入是 Nemotron 3 Nano Omni 的核心能力。文本、视觉、音频和图像处理都在单一检查点中完成——生产部署不再需要独立的视觉编码器、音频模型或碎片化的多模态流水线。这在运维上意义重大：碎片化的流水线有 N 个集成点和 N 种失效模式；而统一的全模态模型只各有一个。

视频和文档工作负载上 9 倍吞吐量的宣告是颇具意义的生产经济性差异点。多模态推理历来成本高昂——视频尤甚，因为朴素的处理方式需要在大量帧之间计算注意力，开销可观。Nemotron 3 Nano Omni 的架构优化专门针对这些工作负载，相比替代方案，在大规模场景下可显著降低单次请求成本。

25GB 内存的部署占用对全模态模型而言令人印象深刻。开放权重生态中大多数具备全模态能力的替代方案需要更大的内存来加载所有专家权重和多模态投影层。Nemotron 3 Nano Omni 可在单块 A100 40GB 或 H100 80GB 上运行并留有充裕余量，且在内存足够的 RTX 6000 级工作站硬件上也确实可部署。

发布时的企业采用信号引人注目。开放权重模型发布时通常并无具名生产采用方——模型先行发布，采用关系在数月内逐步形成。Nemotron 3 Nano Omni 在第一天就附带富士康、Palantir、Oracle 和 DocuSign 作为具名合作方，表明 NVIDIA 的企业关系策略正在产生有意义的发布前验证。对于其他正在评估全模态部署的企业，这些具名采用方提供了参考实现和风险降低的参照。

Fine-Tuning with Ertas

Nemotron 3 Nano Omni 30 亿活跃参数的 MoE 架构使其在 Ertas Studio 中微调高效。在典型的多模态序列长度下，QLoRA 微调可舒适地装入 24-32GB GPU，活跃参数量驱动着训练阶段的算力经济性。

针对多模态微调，Ertas Studio 支持与 Nemotron 3 统一输入模式相匹配的交错训练数据格式：文本提示与图像、音频片段、视频帧及文档内容配对，可按领域所需进行配置。统一架构意味着单一微调工作流即可处理所有模态——无需为各模态分别进行特化训练。

对于符合具名采用方用例的企业部署场景（工业自动化、国防与情报、企业软件、文档处理），Nemotron 3 Nano Omni 是尤为自然的起点。在贵组织的领域特定多模态数据——专有文档格式、行业特定影像、领域音频——上进行微调，能产出一个特化变体，将 NVIDIA 的部署经济性与贵组织的特定知识相结合。

训练完成后，Ertas Studio 导出为 GGUF 格式，并保留多模态投影层。生产服务推荐通过 vLLM（启用多模态支持）或 NVIDIA 自家的 TensorRT-LLM 部署——TensorRT-LLM 尤其针对 Nemotron 系列模型做了高度优化，可在完整部署规模下兑现其标榜的 9 倍吞吐量。

Use Cases

工业与制造应用得益于 Nemotron 3 Nano Omni 的视频理解能力以及具名合作方所传递的背景信号。富士康的采用表明该模型被定位用于工业检测、制造自动化等需要统一视频+文本+音频推理的应用。视频工作负载上 9 倍吞吐量使实时监控应用在经济上变得可行，而这在前一代全模态模型中难以实现。

企业文档处理——Palantir、Oracle、DocuSign 的用例——利用统一的文本+图像输入处理混合结构化数据、嵌入图表和自然语言内容的文档。吞吐量提升在大批量处理应用中转化为更低的单文档成本。

国防、情报和特化分析工作流得益于统一多模态输入与 NVIDIA 企业关系的结合。需要同时分析视频、音频和文档证据的应用——通常具有严格的部署要求，排除使用云 API——非常适合在 NVIDIA 硬件上自托管 Nemotron 3 Nano Omni。

对于较小规模的部署，25GB 内存占用使 Nemotron 3 Nano Omni 对没有服务器级基础设施的团队也具备可及性。在单工作站或适度服务器部署上的多模态应用可直接使用该模型，无需更大全模态替代方案所需的多 GPU 复杂度。

Hardware Requirements

Nemotron 3 Nano Omni 在 Q4_K_M 量化下约需 18-22GB 内存（加载所有专家权重）。在 24GB+ 显卡（RTX 4090、RTX 5090、RTX 6000 Ada）上单 GPU 部署直接可行。25GB 内存这一标题数字指 NVIDIA 推荐用于企业部署的略高精度量化。

针对多模态推理，需为视频/图像/音频预处理及投影层激活预留额外内存——通常根据输入模态和序列长度额外预留 4-10GB。30 亿的活跃参数量决定了 token 生成吞吐，结合 TensorRT-LLM 优化兑现其相较替代方案在视频工作负载上 9 倍吞吐量的标志性宣告。

在 Ertas Studio 中微调时：Nemotron 3 Nano Omni QLoRA 在典型多模态序列长度下约需 22-32GB VRAM，可在单块 32-48GB GPU 上运行。30 亿的活跃参数量带来与微调 30 亿稠密模型相当的训练步骤吞吐——在等效能力下显著快于非 MoE 替代方案。

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

Ollama

TensorRT-LLM

vLLM

Ship AI that runs on your users' devices.

Early bird pricing starts at $14.50/mo — locked in for life. Plans for builders and agencies.

View early bird pricing or join the waitlist →