Fine-Tune Nemotron 3 Nano Omni with Ertas

Lanzamiento omni-modal de NVIDIA del 29 de abril de 2026 — una mezcla de expertos de 30 mil millones de parámetros con 3B de parámetros activos por token, procesamiento unificado de texto/visión/audio/imagen, 9× de rendimiento frente a otros modelos omni open-weight en cargas de video, y despliegue con 25GB de RAM. Adoptantes en producción al lanzamiento: Foxconn, Palantir, Oracle, DocuSign.

30B-A3BNVIDIA

Overview

Nemotron 3 Nano Omni, lanzado por NVIDIA el 29 de abril de 2026, es el modelo omni-modal más reciente del ecosistema open-weight al momento de escribir. La arquitectura es una mezcla de expertos de 30 mil millones de parámetros con aproximadamente 3B de parámetros activos por token, unificada para entrada de texto, visión, audio e imagen — produciendo texto y salidas estructuradas como respuesta. El posicionamiento del lanzamiento de NVIDIA enfatiza la economía de despliegue y la adopción empresarial: el modelo cabe en 25GB de RAM, ofrece 9× el rendimiento en comparación con otros modelos omni open-weight en cargas de video y documentos, y se publicó con adoptantes nombrados en producción incluyendo Foxconn, Palantir, Oracle y DocuSign.

La licencia NVIDIA Open Model Agreement es comercialmente permisiva — ampliamente adecuada para despliegue comercial con términos diseñados específicamente para la adopción empresarial. Aunque no es Apache 2.0, el acuerdo cubre los casos de uso típicos que necesitan las empresas comerciales sin imponer restricciones de uso o sobrecarga de atribución comunes en otros modelos de licencia.

La elección arquitectónica 30B-A3B refleja una optimización deliberada para el despliegue en producción. Con 3B de parámetros activos por token, el modelo opera a velocidades comparables a modelos densos mucho más pequeños mientras accede a la amplitud de conocimiento de la capacidad completa de 30B parámetros. La afirmación de 9× de rendimiento en cargas de video es significativa — la inferencia multimodal es típicamente costosa y limitada por latencia, y mejoras sustanciales en rendimiento se traducen directamente en menores costes por solicitud a escala.

Nemotron 3 Nano Omni representa la inversión continua de NVIDIA en ser un contribuyente significativo de modelos open-weight en lugar de ser puramente un proveedor de hardware. El modelo es parte de una familia Nemotron 3 más amplia que incluye variantes especializadas adicionales. Los pesos están disponibles en Hugging Face bajo la organización nvidia.

Key Features

La entrada omni-modal unificada es la capacidad definitoria de Nemotron 3 Nano Omni. El procesamiento de texto, visión, audio e imagen ocurre en un único checkpoint — sin codificadores de visión separados, modelos de audio o pipelines multimodales fragmentados requeridos para el despliegue en producción. Esto es operativamente significativo: los pipelines fragmentados tienen N puntos de integración y N modos de fallo; un modelo omni unificado tiene uno de cada.

La afirmación de 9× de rendimiento en cargas de video y documentos es un diferenciador significativo en economía de producción. La inferencia multimodal ha sido históricamente costosa — el video especialmente, donde el procesamiento ingenuo computa atención a través de muchos fotogramas a un coste sustancial. Las optimizaciones arquitectónicas de Nemotron 3 Nano Omni apuntan específicamente a estas cargas y se traducen en costes por solicitud sustancialmente más bajos a escala que las alternativas.

La huella de despliegue de 25GB de RAM es impresionante para un modelo omni-modal. La mayoría de las alternativas omni-capaces en el ecosistema open-weight requieren sustancialmente más memoria para cargar todos los pesos de expertos y proyectores multimodales. Nemotron 3 Nano Omni cabe en una sola A100 40GB o H100 80GB con margen sustancial, y es genuinamente desplegable en hardware de estación de trabajo de clase RTX 6000 con suficiente memoria.

Las señales de adopción empresarial al lanzamiento son notables. La mayoría de los lanzamientos de modelos open-weight se publican sin adoptantes nombrados específicamente en producción — el modelo se publica, y la adopción emerge a lo largo de meses. Nemotron 3 Nano Omni se lanzó el primer día con Foxconn, Palantir, Oracle y DocuSign como socios nombrados, indicando que la estrategia de relaciones empresariales de NVIDIA está produciendo una validación pre-lanzamiento significativa. Para otras empresas que evalúan el despliegue omni-modal, los adoptantes nombrados proporcionan implementaciones de referencia y contexto de reducción de riesgo.

Fine-Tuning with Ertas

La arquitectura MoE con 3B de parámetros activos de Nemotron 3 Nano Omni la hace eficiente para fine-tuning en Ertas Studio. El fine-tuning con QLoRA cabe cómodamente en una GPU de 24-32GB en longitudes de secuencia multimodales típicas, con el conteo de parámetros activos impulsando la economía de cómputo en tiempo de entrenamiento.

Para fine-tuning multimodal, Ertas Studio admite formatos de datos de entrenamiento intercalados que coinciden con el patrón de entrada unificado de Nemotron 3: prompts de texto emparejados con imágenes, clips de audio, fotogramas de video y contenido de documentos según las necesidades de tu dominio. La arquitectura unificada significa que un único flujo de fine-tuning maneja todas las modalidades — sin requerir ejecuciones de entrenamiento especialistas separadas.

Para escenarios de despliegue empresarial que coinciden con los casos de uso de los adoptantes nombrados (automatización industrial, defensa e inteligencia, software empresarial, procesamiento de documentos), Nemotron 3 Nano Omni es un punto de partida particularmente natural. El fine-tuning sobre tus datos multimodales de dominio específico — formatos de documentos propietarios, imágenes específicas de la industria, audio de dominio — produce una variante especializada que combina la economía de despliegue de NVIDIA con el conocimiento específico de tu organización.

Después del entrenamiento, Ertas Studio exporta al formato GGUF con preservación del proyector multimodal. Se recomienda el despliegue mediante vLLM (con soporte multimodal habilitado) o el propio TensorRT-LLM de NVIDIA para servicio en producción — TensorRT-LLM en particular está altamente optimizado para modelos de la familia Nemotron y ofrece las afirmaciones insignia de 9× de rendimiento a escala completa de despliegue.

Use Cases

Las aplicaciones industriales y de fabricación se benefician de la comprensión de video de Nemotron 3 Nano Omni combinada con el contexto de las alianzas nombradas. La adopción por parte de Foxconn señala que el modelo está posicionado para inspección industrial, automatización de la fabricación y aplicaciones similares donde importa el razonamiento unificado video + texto + audio. El 9× de rendimiento en cargas de video hace que las aplicaciones de monitoreo en tiempo real sean económicamente viables de formas en que los modelos omni de la generación anterior no lo eran.

El procesamiento de documentos empresariales — casos de uso de Palantir, Oracle, DocuSign — aprovecha la entrada unificada de texto + imagen para documentos que mezclan datos estructurados, figuras incrustadas y contenido en lenguaje natural. Las mejoras en rendimiento se traducen en menores costes por documento en aplicaciones de procesamiento de alto volumen.

Los flujos de trabajo de defensa, inteligencia y análisis especializado se benefician de la combinación de entrada multimodal unificada y las relaciones empresariales de NVIDIA. Aplicaciones que necesitan analizar evidencia en video, audio y documentos simultáneamente — típicamente con requisitos de despliegue estrictos que descartan APIs en la nube — están bien servidas por el despliegue auto-hospedado de Nemotron 3 Nano Omni en hardware de NVIDIA.

Para despliegues a menor escala, la huella de 25GB de RAM hace que Nemotron 3 Nano Omni sea accesible para equipos sin infraestructura de clase servidor. Las aplicaciones multimodales en estaciones de trabajo individuales o despliegues de servidor modestos pueden usar el modelo directamente sin la complejidad multi-GPU requerida por alternativas omni más grandes.

Hardware Requirements

Nemotron 3 Nano Omni con cuantización Q4_K_M cabe en aproximadamente 18-22GB de memoria (todos los pesos de expertos cargados). El despliegue con una sola GPU es directo en tarjetas de 24GB+ (RTX 4090, RTX 5090, RTX 6000 Ada). La cifra insignia de 25GB de RAM se refiere a la cuantización de precisión ligeramente superior que NVIDIA recomienda para despliegues empresariales.

Para inferencia multimodal, planifica margen adicional de memoria para el preprocesamiento de video/imagen/audio y las activaciones del proyector — típicamente 4-10GB extra dependiendo de la modalidad de entrada y la longitud de secuencia. El conteo de parámetros activos de 3B determina el rendimiento de generación de tokens, lo que combinado con las optimizaciones de TensorRT-LLM ofrece la afirmación insignia de 9× de rendimiento en cargas de video frente a alternativas.

Para fine-tuning en Ertas Studio: QLoRA de Nemotron 3 Nano Omni necesita aproximadamente 22-32GB de VRAM en longitudes de secuencia multimodales típicas, cabiendo en una sola GPU de 32-48GB. El conteo de 3B parámetros activos da un rendimiento por paso de entrenamiento comparable al fine-tuning de un modelo denso de 3B — sustancialmente más rápido que alternativas no MoE de calidad equivalente con la misma capacidad efectiva.

Supported Quantizations

Q4_0Q4_K_MQ5_K_MQ6_KQ8_0F16

Related Resources

llama.cpp

Ollama

TensorRT-LLM

vLLM

Ship AI that runs on your users' devices.

Free plan with 30 credits/mo, no card required. Paid plans from $25/mo USD.

or view pricing →