Qwen 发布机器人套件:三个基础模型统一导航、操作与世界建模

6 月 16 日,Qwen 团队发布 Qwen-Robot Suite,一套由三个基础模型组成的机器人套件:Qwen-RobotNav(导航)、Qwen-RobotManip(操作)、Qwen-RobotWorld(世界模型)。三者均采用语言优先接口,可与通用大模型组合成物理智能体系统。

从"看懂"到"能动"

Qwen 系列多模态模型在物理世界理解上已经很强——能解析复杂空间关系、识别杂乱场景中的物体、对物理构型进行推理。但看懂不等于能行动。能规划出"去厨房找到红色杯子拿起来放到架子上"的模型,却无法生成真正执行这些步骤的运动指令。

语言指令与物理动作处于不同的表示空间。更大的挑战是:具身数据天然异构——一段导航轨迹、一次遥操抓取、一段行车记录,分别处于不同的动作空间、观测格式和机器人形态中。简单混合只会产生冲突。

Qwen-Robot Suite 用三个模型分别解决这三个维度的对齐问题。

Qwen-RobotNav:一个模型统一五类导航

导航任务的难点在于不同类型对历史信息的需求截然不同——指令跟随需要保留长程上下文,目标追踪几乎只关注最近几帧。任何固定的视觉分配策略都无法同时满足。

Qwen-RobotNav 把视觉分配策略本身做成了可参数化的:任务模式选择导航行为,可调节参数(视觉 token 预算、时间衰减、单相机权重、帧采样模式)决定视觉历史的编码方式。一套权重,统一了指令跟随、目标搜索、目标追踪、自动驾驶和具身问答(EQA)五大任务族,在 5 个领域拿下 8 项 SOTA。

Qwen-RobotNav 架构与基准测试

真实部署

零样本部署在宇树 Go2 四足机器人上,使用 NVIDIA Jetson Thor 做端侧推理,延迟 196ms。只用机器人自带的低分辨率摄像头,在从未见过的公寓中根据逐步语言指令跨多房间执行任务。还完成了一个更具挑战性的往返导航测试——从客厅导航 21.78 米至病房,再根据反向指令原路返回。

跨本体迁移同样亮眼:同一套权重同时驱动腿式机器人和自动驾驶,在 NAVSIM 闭环驾驶测试中达到 91.4 PDMS。

Qwen-RobotNav 的参数化接口也天然适合作为智能体系统中的导航模块——上层规划器将长程目标分解为子任务,在执行过程中动态切换任务模式和上下文策略,实现持久记忆与长程推理。

Qwen-RobotManip:80 维统一动作空间

操作模型的核心痛点是迁移能力不足——换机器人、换场景,性能就掉。Qwen-RobotManip 的解法是从动作统一和空间统一两个维度切入。

它定义了一套 80 维的统一动作表征,为不同硬件定义通用的"肢体语言"。在此基础上,用完全由开源数据构建的小时级操作数据实现了大规模多机型训练。搭载到不同硬件时,只需数步反馈即可自动适配。

Qwen-RobotManip 架构

技术底座是 Qwen-VLA 统一框架——基于 Qwen3.5-4B 视觉语言骨干和 1.15B DiT flow-matching 动作解码器,将操作、导航、轨迹预测统一到同一个动作-轨迹预测空间。训练数据涵盖 10000+ 小时公开机器人数据、1000+ 小时内部真实机器人轨迹、800 万+ 合成仿真轨迹。

基准测试成绩:

  • LIBERO: 97.9%(统一模型,非逐任务微调)
  • Simpler-WidowX: 73.7%
  • RoboTwin-Easy/Hard: 86.1% / 87.2%
  • 真实世界 ALOHA 双机械臂 OOD 泛化: 76.9%

在 ALOHA 双机械臂平台上,GR00T N1.6 和 π 0.5 都是逐任务独立微调的特化模型,而 Qwen-VLA 是统一全能模型——一个模型处理所有任务、所有形态、所有模态。

Qwen-RobotWorld:用语言驱动世界模型

第三个模型 Qwen-RobotWorld 以自然语言作为动作接口,将 20 多种机器人形态纳入同一世界模型联合训练。它能基于对物理规律的理解,推理和模拟出下一时间步机器人的合理动作和状态,让机器人在现实世界中可按图索骥般地行动。

Qwen-RobotWorld

协同效应:从单点能力到物理智能体

三个模型的最大价值不在各自独立的表现,而在协同。Qwen 已展示了从语言理解到复杂物理任务执行的闭环:Nav 负责到达目标位置,Manip 负责操作交互,World 负责预测和纠错。上层规划器将自然语言指令分解为子任务,动态调用不同模型,在任务执行中实时分解和自主纠错。

这套组合意味着通用大模型不再是纸上谈兵的规划者,而是可以直接驱动物理行动的"大脑"——语言指令进来,物理动作出去。

来源:Qwen Blog · arXiv 2605.30280

相关推荐