小米发布 Xiaomi OneVL 一步式潜空间推理框架并全面开源

小米正式发布 Xiaomi OneVL：一步式潜空间语言视觉推理框架，首次在自动驾驶领域将 VLA、世界模型与潜空间推理统一到同一套框架内。模型权重、训练与推理代码已全面开源。

背景：推理速度与精度的矛盾

今年 3 月小米发布了 XLA 认知大模型架构，从"感知与模仿"迈向"理解与推理"。但一个核心问题随之浮现：大模型具备推理能力后，如何让推理既快又准？

行业过往方案有明显缺陷：

此前行业提出的潜空间思维链（Latent CoT） 用高维机器语言替代逐字文本推理，在保持认知质量的同时压缩推理时延。Xiaomi OneVL 在此基础上进一步探索。

Xiaomi OneVL 基于潜空间 CoT，核心设计如下：

架构概览

核心洞察：驾驶决策依赖的不只是"前方有车"等语义描述，而是时空因果信息。压缩语言会丢掉最关键的因果结构，而压缩成"对未来视觉世界的预测"才保留了真正决定驾驶结果的东西。

技术细节

在 ROADWork、Impromptu、Alpamayo-R1 三项基准上达到 SOTA：

基准测试结果

同时，Xiaomi OneVL 能为模型决策提供语言和视觉双维度的可解释性：既能用文字说明"为什么这样开"，也能用预测画面展示"接下来会发生什么"。

模型权重、训练与推理代码已全面开源。