今天再来聊聊 DeepSeek 联手北大、清华甩出的新论文 ——《Thinking with Visual Primitives》(用视觉原语思考)
![]()
短暂发到Github后被撤回了,原因不明,趁假期看看论文都有什么巧思
戳到了多模态的痛点
今天的多模态大模型(MLLM)几乎都在卷一件事:Perception Gap(感知鸿沟)
说人话——图看不清、看不全
于是大家拼命往里堆视觉 token,高分辨率切片、动态 patch,恨不得把每个像素都塞进上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 处理一张 800×800 的图,普遍要吃掉 700~1100 个视觉 token
但 DeepSeek 团队点出了一个更要命的问题:Reference Gap(指代鸿沟)。
什么意思?你让模型"数一数图里有几只皮卡丘",它"看见了",但用文字思考的时候,根本说不清"哦那只在左上角带帽子的、和右下角被半遮住的是不是同一只"。语言天生不擅长指代连续的视觉空间,于是越推理越乱,幻觉一层叠一层。
![]()
这事儿很反直觉但又很对——人类自己数密集物体的时候也得用手指点一点,对吧?
下图是论文开头那张对比,左边是 KV Cache 占用,右边是 7 个 benchmark 的平均分。这家伙 KV Cache 只用 90 条左右,分数却跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一档:
![]()
token效率与平均得分对比 核心思路:让"点和框"成为思考的最小单元
DeepSeek 的解法听起来朴素,做起来不容易:
❝ 把空间标记(points 和 bounding boxes)从"输出结果"提升为"思考的最小单元",和文字 token 交替出现在 CoT 思维链里
打个比方:以前的模型像一个只会用嘴说话的人在描述一幅画,"那个穿红衣服的、不对是另一个、嗯左边那个……";现在的模型像一个边说话边伸手指的人,每次提到某个对象,直接附带一个坐标 <|point|>[[309,512]]<|/point|> 或框 <|box|>[[x1,y1,x2,y2]]<|/box|>
逻辑就锚定在物理坐标上了,再也不会"指着指着就忘了刚才指的是哪个"
下图是它的整体架构和训练流程,基于 DeepSeek-V4-Flash(284B 总参 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:
![]()
模型架构与训练流程
视觉部分有几个值得关注的工程细节:
ViT 出口先做 3×3 空间压缩 :每 9 个相邻 patch token 合成 1 个,沿通道维拼接
Compressed Sparse Attention(CSA)继续压 4 倍 KV :放进 LLM 的 KV Cache 里只剩极小一部分
整体压缩比 7056× :一张 756×756 的图,571536 个像素,最后只占 81 个 KV 条目
这就是为什么它的 token 预算能压到对手的 1/8,同时还把性能维持住——压缩本来就是 DeepSeek 的看家本领(看过 DeepSeek-OCR 那篇的同学应该有印象,这家公司是真的痴迷于"用更少 token 装下更多信息")
训练怎么搞:先海量灌"框",再 RL 学"点"
这部分我读得最仔细。DeepSeek 团队没用 COCO、Pixmo-Points 这类老数据集(量太小、多样性差),而是自己抓了大规模 web 数据来标 bbox
为什么优先 bbox 不是 point?三个理由很硬:
bbox 的标注是确定性的 ——一个点可以落在物体的任何位置,没有标准答案;框紧紧包住物体,标注稳定
bbox 能泛化到 point ——左上角和右下角两个点就能定义一个框,反过来不行
bbox 信息更丰富 ——除了位置还有宽高,更适合复杂推理
后训练阶段是论文最有意思的部分:专家化 SFT + 专项 RL + 统一 RFT + On-Policy 蒸馏的四段式流水线。每个能力(计数、空间推理、迷宫、路径追踪)单独训出一个专家,再合并蒸馏成统一模型
特别是迷宫导航的 RL 奖励设计,拆得很细:路径覆盖度、探索完整度、墙壁判断准确率、最终路径有效性……这套机制让模型真的学会了先标起点和终点 → 试探性探索 → 回溯 → 给出完整路径的人类式解题流程
跑分成绩:拓扑推理领先一个身位
直接上表,11 个 benchmark 横向对比:
![]()
与前沿模型的对比
我重点看这几个数字:
CountQA(EM/RA@10) :64.9/74.1,比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截,仅次于 Gemini-3-Flash
Pixmo-Count :89.2,全场第一
DS_Spatial_Reasoning :98.7,断崖领先
DS_Maze_Navigation(迷宫导航) :66.9,第二名 GPT-5.4 才 50.6
DS_Path_Tracing(路径追踪) :56.7,第二名 GPT-5.4 才 46.5
特别值得说道的是迷宫和路径这两项——所有前沿大模型基本卡在 50% 上下(跟瞎猜没差太多),DeepSeek 这套方法直接拉到 66.9% 和 56.7%
这说明纯靠语言 CoT 真做不动拓扑推理,必须给模型一根"手指头"
实战 case:边想边指是什么样
光看分数没感觉,看几个实际推理过程。
例 1:数图里的皮卡丘
模型一边推理一边在图上画框,把每只 Pokemon 的位置全标出来,最后给出 6 这个答案:
![]()
细粒度计数案例
例 2:中文 + 世界知识 + 空间定位
注意,论文明确说后训练数据里没有中文视觉原语语料,但模型靠基座的多语言能力直接秒了一个中文世界地理问题——"这附近有 NBA 球队吗?" 它先框出"彩色的金门大桥",识别出旧金山,再回答勇士队。这种跨能力涌现是真有意思:
![]()
中文世界知识推理案例
例 3:迷宫导航——这才是"视觉原语"真正的舞台
模型先用 <|point|> 标记起点(绿菱形)和终点(红标签),然后一步步在迷宫里点出探索路径,遇到死路就回溯,最后输出完整可达路径或判定不可解:
![]()
迷宫导航案例
这个过程几乎就是把人类拿手指在迷宫上比划的动作翻译成了 token 序列,看着就很"像在思考"
老章的几点观察
1. 这是 DeepSeek 一以贯之的"压缩哲学"
从 DeepSeek-OCR 的"用图像 token 压缩文本",到这篇的"用视觉原语压缩思考",DeepSeek 一直在做同一件事:让模型用更少的 token 干更多的事。这是真正在工程上抠极限的团队,相比之下隔壁某些"暴力堆参数"的路线显得很粗糙
2. Reference Gap 这个问题提得相当犀利
之前业界一窝蜂在 Perception Gap 上卷,DeepSeek 直接把战场往前推了一格。一旦你接受了"语言无法精确指代视觉空间"这个前提,就会发现现在主流多模态模型在密集计数、迷宫、复杂场景理解上的崩盘,根源都在这里
3. 局限也别忽略
论文自己承认了三点:
受限输入分辨率,细粒度场景下视觉原语输出仍有偏差
当前还得靠"触发词"启动这个机制,不能自适应判断什么时候该用
用 point 解决复杂拓扑推理,跨场景泛化还不够好
短期内这套范式还需要更多打磨,但方向我觉得是对的。
4. 对开发者意味着什么
如果你做的产品涉及:
复杂图表 / UI 截图理解
仓储、零售场景的密集物体计数
工业图纸、电路图、地图这类需要拓扑推理的场景
机器人路径规划相关的 VLM
那这套思路非常值得关注。理论上,未来 DeepSeek-V4-VL(如果开源的话)会让这些场景的精度上一个台阶。
总结
这篇论文最大的价值不在于又跑赢了 GPT 和 Claude,而在于指出了多模态的下一道坎在哪——从"看清"走到"想清",需要让模型获得"指点的能力"
技术上,DeepSeek 用极致 token 效率 + 视觉原语 CoT + 专家化训练流水线,给出了一条可走通的路径。论文里展示的迷宫 case 和中文涌现能力,让人有种"哎,多模态原来还可以这么玩"的感觉
我会持续盯着,第一时间给大家带来后续动向
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.