NVIDIA Nemotron 3 Nano Omni：一个开放模型统一视觉、音频和语言

4 月 28 日，NVIDIA 发布 Nemotron 3 Nano Omni，一个开放权重的全模态理解模型，将视觉、音频和语言处理统一到单一架构中。模型采用 30B-A3B 混合专家（MoE）架构，总参数 300 亿，每个 token 仅激活 35 亿参数，支持 256K 上下文窗口。

Nemotron 3 Nano Omni

解决什么问题

当前大多数 AI Agent 系统为视觉、语音和语言分别部署不同模型，数据在模态间传递时产生延迟、丢失上下文。Nemotron 3 Nano Omni 将视觉和音频编码器整合进同一个模型，作为 Agent 系统中的"感知子代理"，消除独立感知模型的需求。

吞吐量：比其他开放全模态模型高 9 倍（同等交互能力下）
上下文窗口：256K tokens
原生输入分辨率：最高 1920×1080
排行榜：在 MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBench 等 6 个排行榜上领先
架构：30B-A3B 混合 MoE，结合 Conv3D 视频处理和 EVS（高效视频采样）

模型定位为 Agent 系统的"眼睛和耳朵"，可与 Nemotron 3 Super（高频执行）、Nemotron 3 Ultra（复杂规划）或其他专有模型协同工作。

Nemotron 3 Nano Omni 架构

Nemotron 3 Nano Omni 以开放权重、数据集和训练方法发布，支持 NVIDIA NeMo 定制。适配 NVIDIA Ampere、Hopper 和 Blackwell GPU 架构，支持 vLLM 和 TensorRT-LLM 推理引擎，支持 FP8 和 NVFP4 量化。

Nemotron 3 系列过去一年下载量超过 5000 万次。模型可通过 Hugging Face、OpenRouter、build.nvidia.com 和 25+ 合作伙伴平台获取。

已采用企业包括 Aible、ASI、Eka Care、富士康、H Company、Palantir、Pyler 等，Dell、Docusign、Infosys、Oracle 等正在评估。

来源: NVIDIA Blog