Qwen 发布机器人套件：三个基础模型统一导航、操作与世界建模

6/16/2026AI 机器人 Qwen 具身智能通义千问

6 月 16 日，Qwen 团队发布 Qwen-Robot Suite，一套由三个基础模型组成的机器人套件：Qwen-RobotNav（导航）、Qwen-RobotManip（操作）、Qwen-RobotWorld（世界模型）。三者均采用语言优先接口，可与通用大模型组合成物理智能体系统。

从"看懂"到"能动"

Qwen 系列多模态模型在物理世界理解上已经很强——能解析复杂空间关系、识别杂乱场景中的物体、对物理构型进行推理。但看懂不等于能行动。能规划出"去厨房找到红色杯子拿起来放到架子上"的模型，却无法生成真正执行这些步骤的运动指令。

语言指令与物理动作处于不同的表示空间。更大的挑战是：具身数据天然异构——一段导航轨迹、一次遥操抓取、一段行车记录，分别处于不同的动作空间、观测格式和机器人形态中。简单混合只会产生冲突。

Qwen-Robot Suite 用三个模型分别解决这三个维度的对齐问题。

Qwen-RobotNav：一个模型统一五类导航

导航任务的难点在于不同类型对历史信息的需求截然不同——指令跟随需要保留长程上下文，目标追踪几乎只关注最近几帧。任何固定的视觉分配策略都无法同时满足。

Qwen-RobotNav 把视觉分配策略本身做成了可参数化的：任务模式选择导航行为，可调节参数（视觉 token 预算、时间衰减、单相机权重、帧采样模式）决定视觉历史的编码方式。一套权重，统一了指令跟随、目标搜索、目标追踪、自动驾驶和具身问答（EQA）五大任务族，在 5 个领域拿下 8 项 SOTA。

Qwen-RobotNav 架构与基准测试

真实部署

零样本部署在宇树 Go2 四足机器人上，使用 NVIDIA Jetson Thor 做端侧推理，延迟 196ms。只用机器人自带的低分辨率摄像头，在从未见过的公寓中根据逐步语言指令跨多房间执行任务。还完成了一个更具挑战性的往返导航测试——从客厅导航 21.78 米至病房，再根据反向指令原路返回。

跨本体迁移同样亮眼：同一套权重同时驱动腿式机器人和自动驾驶，在 NAVSIM 闭环驾驶测试中达到 91.4 PDMS。

Qwen-RobotNav 的参数化接口也天然适合作为智能体系统中的导航模块——上层规划器将长程目标分解为子任务，在执行过程中动态切换任务模式和上下文策略，实现持久记忆与长程推理。

Qwen-RobotManip：80 维统一动作空间

操作模型的核心痛点是迁移能力不足——换机器人、换场景，性能就掉。Qwen-RobotManip 的解法是从动作统一和空间统一两个维度切入。

它定义了一套 80 维的统一动作表征，为不同硬件定义通用的"肢体语言"。在此基础上，用完全由开源数据构建的小时级操作数据实现了大规模多机型训练。搭载到不同硬件时，只需数步反馈即可自动适配。

Qwen-RobotManip 架构

技术底座是 Qwen-VLA 统一框架——基于 Qwen3.5-4B 视觉语言骨干和 1.15B DiT flow-matching 动作解码器，将操作、导航、轨迹预测统一到同一个动作-轨迹预测空间。训练数据涵盖 10000+ 小时公开机器人数据、1000+ 小时内部真实机器人轨迹、800 万+ 合成仿真轨迹。

基准测试成绩：

LIBERO: 97.9%（统一模型，非逐任务微调）
Simpler-WidowX: 73.7%
RoboTwin-Easy/Hard: 86.1% / 87.2%
真实世界 ALOHA 双机械臂 OOD 泛化: 76.9%

在 ALOHA 双机械臂平台上，GR00T N1.6 和 π 0.5 都是逐任务独立微调的特化模型，而 Qwen-VLA 是统一全能模型——一个模型处理所有任务、所有形态、所有模态。

Qwen-RobotWorld：用语言驱动世界模型

第三个模型 Qwen-RobotWorld 以自然语言作为动作接口，将 20 多种机器人形态纳入同一世界模型联合训练。它能基于对物理规律的理解，推理和模拟出下一时间步机器人的合理动作和状态，让机器人在现实世界中可按图索骥般地行动。

Qwen-RobotWorld

协同效应：从单点能力到物理智能体

三个模型的最大价值不在各自独立的表现，而在协同。Qwen 已展示了从语言理解到复杂物理任务执行的闭环：Nav 负责到达目标位置，Manip 负责操作交互，World 负责预测和纠错。上层规划器将自然语言指令分解为子任务，动态调用不同模型，在任务执行中实时分解和自主纠错。

这套组合意味着通用大模型不再是纸上谈兵的规划者，而是可以直接驱动物理行动的"大脑"——语言指令进来，物理动作出去。

来源：Qwen Blog · arXiv 2605.30280