小米发布 Xiaomi OneVL 一步式潜空间推理框架并全面开源

小米正式发布 Xiaomi OneVL:一步式潜空间语言视觉推理框架,首次在自动驾驶领域将 VLA、世界模型与潜空间推理统一到同一套框架内。模型权重、训练与推理代码已全面开源。

背景:推理速度与精度的矛盾

今年 3 月小米发布了 XLA 认知大模型架构,从"感知与模仿"迈向"理解与推理"。但一个核心问题随之浮现:大模型具备推理能力后,如何让推理既快又准?

行业过往方案有明显缺陷:

  • 显式思维链(CoT) 能显著提升轨迹规划质量,但逐 token 生成带来的时延对实时驾驶决策构成挑战
  • 跳过推理直接输出答案 则丢失关键的因果判断能力

此前行业提出的潜空间思维链(Latent CoT) 用高维机器语言替代逐字文本推理,在保持认知质量的同时压缩推理时延。Xiaomi OneVL 在此基础上进一步探索。

核心架构

Xiaomi OneVL 基于潜空间 CoT,核心设计如下:

  • 视觉 latent token 编码物理因果结构(车辆运动、道路几何、障碍物演变等时空信息)
  • 语言 latent token 编码驾驶意图
  • 双辅助解码器 在训练中分别预测未来画面与可读思维链,推理时全部移除,实现一步并行生成

架构概览

核心洞察:驾驶决策依赖的不只是"前方有车"等语义描述,而是时空因果信息。压缩语言会丢掉最关键的因果结构,而压缩成"对未来视觉世界的预测"才保留了真正决定驾驶结果的东西。

三项关键技术

  1. 视觉-语言双 latent token:视觉 token 捕捉物理因果,语言 token 表达驾驶意图,两者在潜空间中并行推理
  2. 双辅助解码器训练:训练阶段用视觉解码器预测未来画面、语言解码器生成可读思维链;推理阶段两个解码器移除,所有推理在一步内完成
  3. 一步并行生成:推理时只需一次前向传播,兼顾精度和速度

技术细节

基准测试:全面 SOTA

在 ROADWork、Impromptu、Alpamayo-R1 三项基准上达到 SOTA:

  • NAVSIM PDM-score 达 88.84,首次在潜空间推理中超越显式 CoT(88.29)
  • 目前唯一在所有基准上超越显式自回归 CoT 的隐式推理方法
  • 挂载 MLP 回归头变体后延迟可压至 0.24s,仅为 VLA 自回归推理的 5.4%

基准测试结果

同时,Xiaomi OneVL 能为模型决策提供语言和视觉双维度的可解释性:既能用文字说明"为什么这样开",也能用预测画面展示"接下来会发生什么"。

开源信息

模型权重、训练与推理代码已全面开源。


来源:小米技术(微信公众号)

相关推荐