DeepSeek 发布视觉基元推理报告,用点和框解决多模态 Reference Gap

2026 年 4 月 30 日,DeepSeek 公开技术报告《Thinking with Visual Primitives》,提出一种新的多模态推理范式——将点(point)和框(bounding box)等视觉基元作为思维的最小单元,交错嵌入推理链中。

问题:Reference Gap

当前多模态大模型虽然在「感知差距」(Perception Gap)上取得了进展(如高分辨率裁剪、thinking with images),但在复杂结构推理中仍然存在瓶颈。DeepSeek 将这个问题定义为 Reference Gap:自然语言的歧义性太强,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩塌和幻觉。

方法:边推理边指

DeepSeek 的方案是让模型在推理时「指」——类似于人类用手指点数物品或沿着迷宫路径追踪的行为。具体做法:

  • 将空间标记(点和框)直接嵌入推理轨迹(reasoning trajectory)
  • 这些视觉基元作为思维的最小单元,把抽象的语言概念锚定到具体的物理坐标上

技术细节

  • 基于DeepSeek-V4-Flash 架构
  • 将每 4 个视觉 token 的 KV 缓存压缩为 1 个条目,大幅降低图像 token 消耗
  • 在计数(counting)和空间推理(spatial reasoning)基准上,性能与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 相当
  • 论文明确指出,报告的分数只覆盖与本研究直接相关的评估维度子集,不代表模型的整体能力

teaser

后续计划

  • 开源内部基准和部分冷启动数据
  • 模型权重将整合至基础模型后发布
  • 代码采用 MIT 许可

来源:GitHub - deepseek-ai/Thinking-with-Visual-Primitives

相关推荐