DeepSeek 新论文，多模态的正确打开方式|拓扑|原语|推理|deepseek

DeepSeek 新论文，多模态的正确打开方式

2026-05-04 11:25:08　来源: Ai学习的老章

北京举报

分享至

今天再来聊聊 DeepSeek 联手北大、清华甩出的新论文 ——《Thinking with Visual Primitives》（用视觉原语思考）

短暂发到Github后被撤回了，原因不明，趁假期看看论文都有什么巧思

戳到了多模态的痛点

今天的多模态大模型（MLLM）几乎都在卷一件事：Perception Gap（感知鸿沟）

说人话——图看不清、看不全

于是大家拼命往里堆视觉 token，高分辨率切片、动态 patch，恨不得把每个像素都塞进上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 处理一张 800×800 的图，普遍要吃掉 700~1100 个视觉 token

但 DeepSeek 团队点出了一个更要命的问题：Reference Gap（指代鸿沟）。

什么意思？你让模型"数一数图里有几只皮卡丘"，它"看见了"，但用文字思考的时候，根本说不清"哦那只在左上角带帽子的、和右下角被半遮住的是不是同一只"。语言天生不擅长指代连续的视觉空间，于是越推理越乱，幻觉一层叠一层。

这事儿很反直觉但又很对——人类自己数密集物体的时候也得用手指点一点，对吧？

下图是论文开头那张对比，左边是 KV Cache 占用，右边是 7 个 benchmark 的平均分。这家伙 KV Cache 只用 90 条左右，分数却跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一档：

token效率与平均得分对比核心思路：让"点和框"成为思考的最小单元

DeepSeek 的解法听起来朴素，做起来不容易：

❝ 把空间标记（points 和 bounding boxes）从"输出结果"提升为"思考的最小单元"，和文字 token 交替出现在 CoT 思维链里

打个比方：以前的模型像一个只会用嘴说话的人在描述一幅画，"那个穿红衣服的、不对是另一个、嗯左边那个……"；现在的模型像一个边说话边伸手指的人，每次提到某个对象，直接附带一个坐标 <｜point｜>[[309,512]]<｜/point｜> 或框 <｜box｜>[[x1,y1,x2,y2]]<｜/box｜>

逻辑就锚定在物理坐标上了，再也不会"指着指着就忘了刚才指的是哪个"

下图是它的整体架构和训练流程，基于 DeepSeek-V4-Flash（284B 总参 / 13B 激活的 MoE）和自研的 DeepSeek-ViT：

模型架构与训练流程

视觉部分有几个值得关注的工程细节：

ViT 出口先做 3×3 空间压缩 ：每 9 个相邻 patch token 合成 1 个，沿通道维拼接
Compressed Sparse Attention（CSA）继续压 4 倍 KV ：放进 LLM 的 KV Cache 里只剩极小一部分
整体压缩比 7056× ：一张 756×756 的图，571536 个像素，最后只占 81 个 KV 条目

这就是为什么它的 token 预算能压到对手的 1/8，同时还把性能维持住——压缩本来就是 DeepSeek 的看家本领（看过 DeepSeek-OCR 那篇的同学应该有印象，这家公司是真的痴迷于"用更少 token 装下更多信息"）

训练怎么搞：先海量灌"框"，再 RL 学"点"

这部分我读得最仔细。DeepSeek 团队没用 COCO、Pixmo-Points 这类老数据集（量太小、多样性差），而是自己抓了大规模 web 数据来标 bbox

为什么优先 bbox 不是 point？三个理由很硬：

bbox 的标注是确定性的 ——一个点可以落在物体的任何位置，没有标准答案；框紧紧包住物体，标注稳定
bbox 能泛化到 point ——左上角和右下角两个点就能定义一个框，反过来不行
bbox 信息更丰富 ——除了位置还有宽高，更适合复杂推理

后训练阶段是论文最有意思的部分：专家化 SFT + 专项 RL + 统一 RFT + On-Policy 蒸馏的四段式流水线。每个能力（计数、空间推理、迷宫、路径追踪）单独训出一个专家，再合并蒸馏成统一模型

特别是迷宫导航的 RL 奖励设计，拆得很细：路径覆盖度、探索完整度、墙壁判断准确率、最终路径有效性……这套机制让模型真的学会了先标起点和终点 → 试探性探索 → 回溯 → 给出完整路径的人类式解题流程

跑分成绩：拓扑推理领先一个身位

直接上表，11 个 benchmark 横向对比：

与前沿模型的对比

我重点看这几个数字：

CountQA（EM/RA@10） ：64.9/74.1，比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截，仅次于 Gemini-3-Flash
Pixmo-Count ：89.2，全场第一
DS_Spatial_Reasoning ：98.7，断崖领先
DS_Maze_Navigation（迷宫导航） ：66.9，第二名 GPT-5.4 才 50.6
DS_Path_Tracing（路径追踪） ：56.7，第二名 GPT-5.4 才 46.5

特别值得说道的是迷宫和路径这两项——所有前沿大模型基本卡在 50% 上下（跟瞎猜没差太多），DeepSeek 这套方法直接拉到 66.9% 和 56.7%

这说明纯靠语言 CoT 真做不动拓扑推理，必须给模型一根"手指头"

实战 case：边想边指是什么样

光看分数没感觉，看几个实际推理过程。

例 1：数图里的皮卡丘

模型一边推理一边在图上画框，把每只 Pokemon 的位置全标出来，最后给出 6 这个答案：

细粒度计数案例

例 2：中文 + 世界知识 + 空间定位

注意，论文明确说后训练数据里没有中文视觉原语语料，但模型靠基座的多语言能力直接秒了一个中文世界地理问题——"这附近有 NBA 球队吗？" 它先框出"彩色的金门大桥"，识别出旧金山，再回答勇士队。这种跨能力涌现是真有意思：

中文世界知识推理案例

例 3：迷宫导航——这才是"视觉原语"真正的舞台

模型先用 <｜point｜> 标记起点（绿菱形）和终点（红标签），然后一步步在迷宫里点出探索路径，遇到死路就回溯，最后输出完整可达路径或判定不可解：

迷宫导航案例

这个过程几乎就是把人类拿手指在迷宫上比划的动作翻译成了 token 序列，看着就很"像在思考"

老章的几点观察

1. 这是 DeepSeek 一以贯之的"压缩哲学"

从 DeepSeek-OCR 的"用图像 token 压缩文本"，到这篇的"用视觉原语压缩思考"，DeepSeek 一直在做同一件事：让模型用更少的 token 干更多的事。这是真正在工程上抠极限的团队，相比之下隔壁某些"暴力堆参数"的路线显得很粗糙

2. Reference Gap 这个问题提得相当犀利

之前业界一窝蜂在 Perception Gap 上卷，DeepSeek 直接把战场往前推了一格。一旦你接受了"语言无法精确指代视觉空间"这个前提，就会发现现在主流多模态模型在密集计数、迷宫、复杂场景理解上的崩盘，根源都在这里

3. 局限也别忽略

论文自己承认了三点：

受限输入分辨率，细粒度场景下视觉原语输出仍有偏差
当前还得靠"触发词"启动这个机制，不能自适应判断什么时候该用
用 point 解决复杂拓扑推理，跨场景泛化还不够好

短期内这套范式还需要更多打磨，但方向我觉得是对的。

4. 对开发者意味着什么

如果你做的产品涉及：

复杂图表 / UI 截图理解
仓储、零售场景的密集物体计数
工业图纸、电路图、地图这类需要拓扑推理的场景
机器人路径规划相关的 VLM

那这套思路非常值得关注。理论上，未来 DeepSeek-V4-VL（如果开源的话）会让这些场景的精度上一个台阶。

总结

这篇论文最大的价值不在于又跑赢了 GPT 和 Claude，而在于指出了多模态的下一道坎在哪——从"看清"走到"想清"，需要让模型获得"指点的能力"

技术上，DeepSeek 用极致 token 效率 + 视觉原语 CoT + 专家化训练流水线，给出了一条可走通的路径。论文里展示的迷宫 case 和中文涌现能力，让人有种"哎，多模态原来还可以这么玩"的感觉

我会持续盯着，第一时间给大家带来后续动向

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.