网易首页 > 网易号 > 正文 申请入驻

DeepSeek 新论文,多模态的正确打开方式

0
分享至

今天再来聊聊 DeepSeek 联手北大、清华甩出的新论文 ——《Thinking with Visual Primitives》(用视觉原语思考)


短暂发到Github后被撤回了,原因不明,趁假期看看论文都有什么巧思

戳到了多模态的痛点

今天的多模态大模型(MLLM)几乎都在卷一件事:Perception Gap(感知鸿沟)

说人话——图看不清、看不全

于是大家拼命往里堆视觉 token,高分辨率切片、动态 patch,恨不得把每个像素都塞进上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 处理一张 800×800 的图,普遍要吃掉 700~1100 个视觉 token

但 DeepSeek 团队点出了一个更要命的问题:Reference Gap(指代鸿沟)

什么意思?你让模型"数一数图里有几只皮卡丘",它"看见了",但用文字思考的时候,根本说不清"哦那只在左上角带帽子的、和右下角被半遮住的是不是同一只"。语言天生不擅长指代连续的视觉空间,于是越推理越乱,幻觉一层叠一层。


这事儿很反直觉但又很对——人类自己数密集物体的时候也得用手指点一点,对吧?

下图是论文开头那张对比,左边是 KV Cache 占用,右边是 7 个 benchmark 的平均分。这家伙 KV Cache 只用 90 条左右,分数却跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一档:


token效率与平均得分对比 核心思路:让"点和框"成为思考的最小单元

DeepSeek 的解法听起来朴素,做起来不容易:

❝ 把空间标记(points 和 bounding boxes)从"输出结果"提升为"思考的最小单元",和文字 token 交替出现在 CoT 思维链里

打个比方:以前的模型像一个只会用嘴说话的人在描述一幅画,"那个穿红衣服的、不对是另一个、嗯左边那个……";现在的模型像一个边说话边伸手指的人,每次提到某个对象,直接附带一个坐标 <|point|>[[309,512]]<|/point|> 或框 <|box|>[[x1,y1,x2,y2]]<|/box|>

逻辑就锚定在物理坐标上了,再也不会"指着指着就忘了刚才指的是哪个"

下图是它的整体架构和训练流程,基于 DeepSeek-V4-Flash(284B 总参 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:


模型架构与训练流程

视觉部分有几个值得关注的工程细节:

  • ViT 出口先做 3×3 空间压缩 :每 9 个相邻 patch token 合成 1 个,沿通道维拼接

  • Compressed Sparse Attention(CSA)继续压 4 倍 KV :放进 LLM 的 KV Cache 里只剩极小一部分

  • 整体压缩比 7056× :一张 756×756 的图,571536 个像素,最后只占 81 个 KV 条目

这就是为什么它的 token 预算能压到对手的 1/8,同时还把性能维持住——压缩本来就是 DeepSeek 的看家本领(看过 DeepSeek-OCR 那篇的同学应该有印象,这家公司是真的痴迷于"用更少 token 装下更多信息")

训练怎么搞:先海量灌"框",再 RL 学"点"

这部分我读得最仔细。DeepSeek 团队没用 COCO、Pixmo-Points 这类老数据集(量太小、多样性差),而是自己抓了大规模 web 数据来标 bbox

为什么优先 bbox 不是 point?三个理由很硬:

  1. bbox 的标注是确定性的 ——一个点可以落在物体的任何位置,没有标准答案;框紧紧包住物体,标注稳定

  2. bbox 能泛化到 point ——左上角和右下角两个点就能定义一个框,反过来不行

  3. bbox 信息更丰富 ——除了位置还有宽高,更适合复杂推理

后训练阶段是论文最有意思的部分:专家化 SFT + 专项 RL + 统一 RFT + On-Policy 蒸馏的四段式流水线。每个能力(计数、空间推理、迷宫、路径追踪)单独训出一个专家,再合并蒸馏成统一模型

特别是迷宫导航的 RL 奖励设计,拆得很细:路径覆盖度、探索完整度、墙壁判断准确率、最终路径有效性……这套机制让模型真的学会了先标起点和终点 → 试探性探索 → 回溯 → 给出完整路径的人类式解题流程

跑分成绩:拓扑推理领先一个身位

直接上表,11 个 benchmark 横向对比:


与前沿模型的对比

我重点看这几个数字:

  • CountQA(EM/RA@10) :64.9/74.1,比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截,仅次于 Gemini-3-Flash

  • Pixmo-Count :89.2,全场第一

  • DS_Spatial_Reasoning :98.7,断崖领先

  • DS_Maze_Navigation(迷宫导航) :66.9,第二名 GPT-5.4 才 50.6

  • DS_Path_Tracing(路径追踪) :56.7,第二名 GPT-5.4 才 46.5

特别值得说道的是迷宫和路径这两项——所有前沿大模型基本卡在 50% 上下(跟瞎猜没差太多),DeepSeek 这套方法直接拉到 66.9% 和 56.7%

这说明纯靠语言 CoT 真做不动拓扑推理,必须给模型一根"手指头"

实战 case:边想边指是什么样

光看分数没感觉,看几个实际推理过程。

例 1:数图里的皮卡丘

模型一边推理一边在图上画框,把每只 Pokemon 的位置全标出来,最后给出 6 这个答案:


细粒度计数案例

例 2:中文 + 世界知识 + 空间定位

注意,论文明确说后训练数据里没有中文视觉原语语料,但模型靠基座的多语言能力直接秒了一个中文世界地理问题——"这附近有 NBA 球队吗?" 它先框出"彩色的金门大桥",识别出旧金山,再回答勇士队。这种跨能力涌现是真有意思:


中文世界知识推理案例

例 3:迷宫导航——这才是"视觉原语"真正的舞台

模型先用 <|point|> 标记起点(绿菱形)和终点(红标签),然后一步步在迷宫里点出探索路径,遇到死路就回溯,最后输出完整可达路径或判定不可解:


迷宫导航案例

这个过程几乎就是把人类拿手指在迷宫上比划的动作翻译成了 token 序列,看着就很"像在思考"

老章的几点观察

1. 这是 DeepSeek 一以贯之的"压缩哲学"

从 DeepSeek-OCR 的"用图像 token 压缩文本",到这篇的"用视觉原语压缩思考",DeepSeek 一直在做同一件事:让模型用更少的 token 干更多的事。这是真正在工程上抠极限的团队,相比之下隔壁某些"暴力堆参数"的路线显得很粗糙

2. Reference Gap 这个问题提得相当犀利

之前业界一窝蜂在 Perception Gap 上卷,DeepSeek 直接把战场往前推了一格。一旦你接受了"语言无法精确指代视觉空间"这个前提,就会发现现在主流多模态模型在密集计数、迷宫、复杂场景理解上的崩盘,根源都在这里

3. 局限也别忽略

论文自己承认了三点:

  • 受限输入分辨率,细粒度场景下视觉原语输出仍有偏差

  • 当前还得靠"触发词"启动这个机制,不能自适应判断什么时候该用

  • 用 point 解决复杂拓扑推理,跨场景泛化还不够好

短期内这套范式还需要更多打磨,但方向我觉得是对的。

4. 对开发者意味着什么

如果你做的产品涉及:

  • 复杂图表 / UI 截图理解

  • 仓储、零售场景的密集物体计数

  • 工业图纸、电路图、地图这类需要拓扑推理的场景

  • 机器人路径规划相关的 VLM

那这套思路非常值得关注。理论上,未来 DeepSeek-V4-VL(如果开源的话)会让这些场景的精度上一个台阶。

总结

这篇论文最大的价值不在于又跑赢了 GPT 和 Claude,而在于指出了多模态的下一道坎在哪——从"看清"走到"想清",需要让模型获得"指点的能力"

技术上,DeepSeek 用极致 token 效率 + 视觉原语 CoT + 专家化训练流水线,给出了一条可走通的路径。论文里展示的迷宫 case 和中文涌现能力,让人有种"哎,多模态原来还可以这么玩"的感觉

我会持续盯着,第一时间给大家带来后续动向

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊大战,暴露了中国家底,美国这才明白,为啥中国人底气这么足

美伊大战,暴露了中国家底,美国这才明白,为啥中国人底气这么足

讯崽侃天下
2026-05-04 12:58:58
江西疾控发布5月学校健康风险提示

江西疾控发布5月学校健康风险提示

南昌发布
2026-05-03 09:22:13
追觅俞浩晒模块化手机:不仅镜头能拆 机身都能拆

追觅俞浩晒模块化手机:不仅镜头能拆 机身都能拆

快科技
2026-05-02 08:06:06
2-1!热刺2连胜逃离降级区 重获保级主动权 剩3轮领先西汉姆联1分

2-1!热刺2连胜逃离降级区 重获保级主动权 剩3轮领先西汉姆联1分

我爱英超
2026-05-04 06:12:17
近5场制造8球!从质疑到扛起国米冠军大旗,他依旧是意甲顶级锋霸

近5场制造8球!从质疑到扛起国米冠军大旗,他依旧是意甲顶级锋霸

体坛老球迷
2026-05-04 13:50:41
特斯拉推出 Model Y L 置物板,售价 249 元,车主:做工、质感不错!

特斯拉推出 Model Y L 置物板,售价 249 元,车主:做工、质感不错!

新浪财经
2026-05-03 16:29:56
跑马人最惨遭遇:酒店不隔音,隔壁情侣的“声音”让我彻底崩溃

跑马人最惨遭遇:酒店不隔音,隔壁情侣的“声音”让我彻底崩溃

马拉松跑步健身
2026-04-26 21:41:40
5月8日油价重新洗牌!92号汽油要变天,7元时代或将成为历史

5月8日油价重新洗牌!92号汽油要变天,7元时代或将成为历史

娱乐圈的笔娱君
2026-05-04 14:31:17
索尼独占新作逆天伦理剧情引争议 政治正确拉满!

索尼独占新作逆天伦理剧情引争议 政治正确拉满!

3DM游戏
2026-05-03 10:49:06
港股内房股集体上涨 万科企业涨超12%

港股内房股集体上涨 万科企业涨超12%

每日经济新闻
2026-05-04 10:15:10
曹操为何输掉汉中?别被演义骗了,打败二十万魏军的根本不是刘备

曹操为何输掉汉中?别被演义骗了,打败二十万魏军的根本不是刘备

小豫讲故事
2026-05-04 06:00:15
拉丁舞火了之后,最美的五位美女裁判出炉!

拉丁舞火了之后,最美的五位美女裁判出炉!

金牌娱乐
2026-05-04 11:43:37
汪峰又陷感情风波!森林北删光恩爱动态,章子怡彻底赢麻了!

汪峰又陷感情风波!森林北删光恩爱动态,章子怡彻底赢麻了!

科学发掘
2026-05-04 10:05:43
震惊!旧金山移民法庭将永久关闭,曾创下超90%通过率

震惊!旧金山移民法庭将永久关闭,曾创下超90%通过率

大洛杉矶LA
2026-05-04 05:15:33
国乒前功勋教练评价林诗栋:已无路可退,不如放手一搏!

国乒前功勋教练评价林诗栋:已无路可退,不如放手一搏!

鲸鲱鱼体坛
2026-05-04 11:40:32
刘晓庆风波升级!官方回应,王婆说话难听,网友:都75了还想怎样

刘晓庆风波升级!官方回应,王婆说话难听,网友:都75了还想怎样

青梅侃史啊
2026-05-04 07:19:17
波尔图主席博阿斯夺冠致辞:第31座葡超冠军属于球队所有人

波尔图主席博阿斯夺冠致辞:第31座葡超冠军属于球队所有人

懂球帝
2026-05-03 15:56:20
别再被误导!树葬根本不是树下埋骨灰,真实操作很少人知道

别再被误导!树葬根本不是树下埋骨灰,真实操作很少人知道

坠入二次元的海洋
2026-05-01 13:03:17
77年邓华重回部队,叶帅问他有何要求,邓华:让我老哥也回部队吧

77年邓华重回部队,叶帅问他有何要求,邓华:让我老哥也回部队吧

云霄纪史观
2026-03-11 17:51:49
决赛领先3局!吴宜泽冲3纪录,墨菲发声,潘晓婷看好1人夺冠!

决赛领先3局!吴宜泽冲3纪录,墨菲发声,潘晓婷看好1人夺冠!

刘姚尧的文字城堡
2026-05-04 09:15:29
2026-05-04 15:51:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3369文章数 11145关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

发布仅3天 日本陆自部队新徽章被骂下线

头条要闻

发布仅3天 日本陆自部队新徽章被骂下线

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
亲子
数码
公开课
军事航空

手机要闻

史无前例!iPhone 18缺席苹果9月科技春晚

亲子要闻

中日萌娃喜娜酱假期结束,开学第一天,表现的怎么样?

数码要闻

Steam 2026年4月软硬件调查报告发布:RTX 5050显卡首次单独列出

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版