NVIDIA Nemotron 3 Nano Omni:一个开放模型统一视觉、音频和语言

NVIDIA Nemotron 3 Nano Omni:一个开放模型统一视觉、音频和语言

4 月 28 日,NVIDIA 发布 Nemotron 3 Nano Omni,一个开放权重的全模态理解模型,将视觉、音频和语言处理统一到单一架构中。模型采用 30B-A3B 混合专家(MoE)架构,总参数 300 亿,每个 token 仅激活 35 亿参数,支持 256K 上下文窗口。

Nemotron 3 Nano Omni

解决什么问题

当前大多数 AI Agent 系统为视觉、语音和语言分别部署不同模型,数据在模态间传递时产生延迟、丢失上下文。Nemotron 3 Nano Omni 将视觉和音频编码器整合进同一个模型,作为 Agent 系统中的"感知子代理",消除独立感知模型的需求。

关键数据

  • 吞吐量:比其他开放全模态模型高 9 倍(同等交互能力下)
  • 上下文窗口:256K tokens
  • 原生输入分辨率:最高 1920×1080
  • 排行榜:在 MMlongbench-Doc、OCRBenchV2、WorldSense、DailyOmni、VoiceBench 等 6 个排行榜上领先
  • 架构:30B-A3B 混合 MoE,结合 Conv3D 视频处理和 EVS(高效视频采样)

模型定位为 Agent 系统的"眼睛和耳朵",可与 Nemotron 3 Super(高频执行)、Nemotron 3 Ultra(复杂规划)或其他专有模型协同工作。

Nemotron 3 Nano Omni 架构

开放与部署

Nemotron 3 Nano Omni 以开放权重、数据集和训练方法发布,支持 NVIDIA NeMo 定制。适配 NVIDIA Ampere、Hopper 和 Blackwell GPU 架构,支持 vLLM 和 TensorRT-LLM 推理引擎,支持 FP8 和 NVFP4 量化。

Nemotron 3 系列过去一年下载量超过 5000 万次。模型可通过 Hugging Face、OpenRouter、build.nvidia.com 和 25+ 合作伙伴平台获取。

已采用企业包括 Aible、ASI、Eka Care、富士康、H Company、Palantir、Pyler 等,Dell、Docusign、Infosys、Oracle 等正在评估。

来源: NVIDIA Blog

相关推荐