DeepSeek 发布视觉基元推理报告，用点和框解决多模态 Reference Gap

2026 年 4 月 30 日，DeepSeek 公开技术报告《Thinking with Visual Primitives》，提出一种新的多模态推理范式——将点（point）和框（bounding box）等视觉基元作为思维的最小单元，交错嵌入推理链中。

问题：Reference Gap

当前多模态大模型虽然在「感知差距」（Perception Gap）上取得了进展（如高分辨率裁剪、thinking with images），但在复杂结构推理中仍然存在瓶颈。DeepSeek 将这个问题定义为 Reference Gap：自然语言的歧义性太强，无法精确指向密集的空间布局，导致推理过程中出现逻辑崩塌和幻觉。

方法：边推理边指

DeepSeek 的方案是让模型在推理时「指」——类似于人类用手指点数物品或沿着迷宫路径追踪的行为。具体做法：

将空间标记（点和框）直接嵌入推理轨迹（reasoning trajectory）
这些视觉基元作为思维的最小单元，把抽象的语言概念锚定到具体的物理坐标上

技术细节

基于DeepSeek-V4-Flash 架构
将每 4 个视觉 token 的 KV 缓存压缩为 1 个条目，大幅降低图像 token 消耗
在计数（counting）和空间推理（spatial reasoning）基准上，性能与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 相当
论文明确指出，报告的分数只覆盖与本研究直接相关的评估维度子集，不代表模型的整体能力

teaser

后续计划

开源内部基准和部分冷启动数据
模型权重将整合至基础模型后发布
代码采用 MIT 许可

来源：GitHub - deepseek-ai/Thinking-with-Visual-Primitives