网易首页 > 网易号 > 正文 申请入驻

DeepSeek连夜删掉的新论文,到底说了什么

0
分享至

昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。


今天一早,推文删了,GitHub 上的论文也撤了。


但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。

恰恰相反,它可能透露了太多了。

前天我们刚,让它数手指,它思考了一通,自己吐槽「我真的是数晕了」,然后答错了。当时以为是灰测阶段的小问题。


这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。

而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指


陈小康在那条推文里写道:

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」

看得清和指得准,是两回事

目前所有多模态大模型做图像推理,本质都是把看到的画面转化成文字,然后在文字空间里做思维链推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全是这个路子。

过去两年,OpenAI、Google、Anthropic 的改进方向集中在一个问题:怎么让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞进去。DeepSeek 管这个叫 Perception Gap,感知鸿沟。

但这篇论文指出了另一个瓶颈:Reference Gap,引用鸿沟。模型看清了,但在推理过程中没法精确指向图中的某个东西。

你可以这样理解:一张图里 25 个人密密麻麻站在一起,你用语言去描述「左边第三排穿蓝色球衣那个人旁边的那个」,描述本身就是模糊的。模型数着数着就丢了上下文,忘了刚才数到谁。

人类怎么解决这个问题?够原始的:伸出手指,指一个数一个。

284B 参数的模型,装上了一根手指

DeepSeek 的方案:让模型在思考过程中直接输出图片上的坐标。

想象一下,模型看到一张图里有很多人,它的思维链不再是「我看到左边有个穿蓝衣服的人」,而是「我看到这个人」然后附上一个框的坐标,把人圈出来。每数一个人就圈一个框,圈完之后数框的数量就行了。

两种坐标格式:一种是框(bounding box),画个矩形把物体圈住,适合标定物体位置;一种是点(point),在图上戳一个位置,适合追踪路径和走迷宫。DeepSeek 管这两种东西叫「视觉原语」,最小的思维单元。

关键变化在这里:以前模型输出坐标是作为最终答案(「目标在这里」),现在坐标嵌入了思考过程本身。坐标是草稿纸上的标记,不是答卷上的答案。

把一张图压缩 7056 倍,然后还能数清楚里面有几个人

模型底座是 DeepSeek-V4-Flash,一个 284B 参数的 MoE 模型。MoE 的意思是:模型脑子很大,但每次回答问题只调用一小部分神经元来干活,推理时只激活 13B 参数。类似于一个百人团队,每个任务只派 5 个人上场。

视觉编码器这边,做了三级压缩。打个比方:你有一张照片要发给朋友,网速很慢。第一步,你把照片切成小方格备用;第二步,每 9 个小方格合并成 1 个(3×3 压缩);第三步,再在传输时进一步精简掉冗余信息(KV Cache 压缩 4 倍)。

实际数字:一张 756×756 的图,57 万像素,一路压下去变成 81 个信息单元。压缩比 7,056 倍。

我看到这个数字的第一反应是:这还能看清东西?但论文里的结果说明,确实能。不光能看清,还能精确数出图里有 25 个人。


对比一下:同样 800×800 的图,Gemini-3-Flash 消耗约 1100 个 token 来表示这张图,Claude-Sonnet-4.6 约 870 个,GPT-5.4 约 740 个。DeepSeek 在最终计算时只用 90 个信息单元。别人用一千多个格子来记住一张图,DeepSeek 用 90 个格子就够了,然后腾出来的算力全拿去「指」。

4000 万条训练数据怎么攒出来的

DeepSeek 从 Huggingface 等平台把所有带「目标检测」标签的数据集都爬了下来,初筛得到 97,984 个数据源。

然后做了两轮筛选。

第一轮查标签质量。用 AI 自动审核三类问题:标签是无意义的数字编号(类别名叫「0」「1」的那种)、标签是私人实体(「MyRoommate」)、标签是模糊缩写(工业检测里的「OK」「NG」,一个苹果「OK」和一个电路板「OK」长得完全不一样,AI 学不了)。这轮砍掉 56%,剩 43,141 个。

第二轮查框的质量。三个标准:漏标太多的(标了一半就不标了)、框画歪了切掉物体一半的、框大到把整张图都框住的(说明原始数据是图片分类硬转成的检测数据,没有定位信息)。再砍 27%,剩 31,701 个。

最后按类别采样、去重,产出超过 4000 万高质量样本。

DeepSeek 选择先把框的数据做大,点的数据后面再补。原因也简单:你让 AI 标一个框,答案基本唯一(把物体刚好圈住);但让 AI 标一个点,物体上哪个位置都算对,没有唯一正确答案,训练信号太模糊。而且框本身就包含了两个点(左上角和右下角),学会画框之后标点就是降维操作。

怎么把「指」这个能力教给模型

后训练的策略是「先分头练,再合并」。

DeepSeek 先拿框的数据训练一个专门画框的专家模型,再拿点的数据训练一个专门标点的专家模型。分开训练是因为数据量还不够大,两种能力混在一起容易互相干扰。

然后对两个专家分别做强化学习。怎么判断模型「画对了框」或「走对了路」?DeepSeek 设计了一套多维度的打分系统:格式对不对(坐标语法正确吗)、逻辑通不通(思考过程有没有自相矛盾)、答案准不准(最终结果和标准答案差多少)。

强化学习的数据筛选也有讲究:先让模型做 N 遍同一道题,全做对的题太简单没训练价值,全做错的题太难学不到东西,只留「有对有错」的题来练。

最后一步是把两个专家的能力合到一个模型里。具体做法:让统一模型照着两个专家的输出去学,类似于一个学生同时跟两个老师学不同科目。

给了它手指之后,它是怎么数数的

数 25 个人


给模型一张足球队合照,问「图里有多少人?」

思考过程:先判断「这是团队合照,要数所有人,包括球员和教练」。然后一次性输出 25 个框坐标,每个人身上圈一个框。接着按排数统计:前排坐着 4 个 + 中排 9 个 + 后排 8 个 + 左侧 2 个教练 + 右侧 2 个教练 = 25。

「地上的熊有几只?」


图中有三只熊。模型逐一给每只画框并判断位置:第一只,在树干上垂直攀爬,排除;第二只,在岩石边缘走动,算;第三只,在碎木和泥土间,算。答案:2 只。

不是先数出三只再减一只,而是对每只都做了「是不是在地面上」的判断,每个判断背后都有一个具体坐标锚定。它真的在逐个检查,不是在猜。

多跳空间推理


一个 3D 渲染场景里有一堆彩色几何体。问题:「存不存在一个紫色橡胶物体跟灰色金属物体一样大?」

模型先框出灰色金属球体,确认是个小号物体。然后逐一框出场景里其他小号物体:棕色金属圆柱、蓝色金属方块、蓝色橡胶方块、黄色橡胶圆柱……六个物体逐个查,颜色、材质、大小三个属性一一核对。结论:不存在紫色橡胶的。

六次定位,六次判断。每一步都有坐标锚着,不会出现「等等刚才查到哪了」的情况。

论文中更多案例参考:


迷宫导航:别人掷硬币,DeepSeek 真的在搜索

论文测了四种任务,迷宫是差距拉得最开的一个。

任务很直接:给一张迷宫图,问从起点到终点有没有路,有的话画出来。迷宫有三种形状,方格的、圆环的、蜂巢的。

模型走迷宫的方式跟你小时候用铅笔在纸上画一样:选一条岔路走到头,走不通就退回来试另一条。区别是它每走一步都在图上标一个坐标点,留下记录。

论文里展示了一个圆形迷宫的完整过程:模型先标出起点和终点的位置,然后开始探索。走了 18 步,中间两次钻进死胡同又退出来,最后绕出了一条通路,把整条路径的坐标点串起来输出。

DeepSeek 还设计了一批陷阱迷宫:乍一看有路,但中间某段被偷偷堵住了。这种迷宫考的是耐心,模型不能只看起点附近的走势就下结论,得老老实实把能走的路都试一遍才能确认走不通。


准确率对比:

- DeepSeek:66.9%

- GPT-5.4:50.6%

- Claude-Sonnet-4.6:48.9%

- Gemini-3-Flash:49.4%

- Qwen3-VL:49.6%

迷宫只有两种答案:有路,或者没路。随机猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟掷硬币没什么区别。DeepSeek 的 66.9% 不算高,但它确实是在一步步走的,不是在蒙。

路径追踪:大家来找茬的终极版本

这个任务更直观:一堆线缠在一起,每条线从一个标记通向另一个标记。你的耳机线从口袋里掏出来是什么样,画面就是什么样。题目问你:C 这条线通向哪个终点?

模型的做法是沿着线一路输出坐标点,像手指划过纸面。线弯得厉害的地方点标得密,直线段标得疏。人用眼睛追一根线的时候也是这样,弯道处慢下来,直线处一扫而过。


论文还加了一个加难版测试:所有线颜色粗细都一样。不能靠颜色区分是哪根线了,只能靠曲线本身的走势连续性来判断交叉口该跟着哪条走。

- DeepSeek:56.7%

- GPT-5.4:46.5%

- Claude-Sonnet-4.6:30.6%

- Gemini-3-Flash:41.4%

Claude 的 30.6% 有点出乎意料。终点一般有四五个选项,随机猜也该有 20% 出头,30.6% 只比瞎猜强一点点。可能它在这类纯空间追踪任务上,语言推理的惯性反而帮了倒忙。

怎么教 AI 走迷宫不作弊

迷宫的训练有一个现实问题:如果只看最终答对没答对来给分,模型很快就学精了,与其费劲搜索还可能答错,不如直接猜一个,反正认真走了答错跟没走答错,分数一样是零。

DeepSeek 的解决办法是把过程也算进分数。每一步合法的探索都给分,穿墙扣分,走得越远越好。哪怕最后没到终点,只要认真搜索了大部分区域,也能拿到不错的成绩。这样一来,模型就没有偷懒的动力了。

不可解迷宫的要求更高:不能光说一句「走不通」,还得证明你确实把能到的地方都走遍了。搜索覆盖率也算分。

一个彩蛋,三个局限

后训练数据里没有中文。但模型能用中文做视觉原语推理。

给它一张咖啡机的照片,用中文问「怎么做拿铁」,它用中文标注了蒸汽棒、奶壶、咖啡豆、拿铁按钮的位置坐标,然后给出操作步骤。多语言能力是从基座模型那里继承的,视觉原语的训练没有把它破坏掉。


它还能把看图和世界知识结合起来:给一张金门大桥的照片问「这附近有 NBA 球队吗?」它先框出金门大桥,推理出这是旧金山,然后回答金州勇士队。


能理解幽默:一块水果切面上的天然斑点恰好组成了一张忧郁猫脸的模样,模型能指出相似点在哪里并解释为什么好笑。


能做密室逃脱指导:框出高处的钥匙、地板上的椅子、带锁的门,建议「把椅子搬到钥匙下方 → 踩上去拿钥匙 → 去开门」。


论文很坦诚地写了目前做不到的事。

输入分辨率有限制。ViT 输出被卡在 81 到 384 个视觉信息单元之间,遇到很精细的场景(比如数手指这种),坐标精度还不够。这可能就是前天实测时数手指翻车的直接原因。

目前需要特定触发词才能激活视觉原语模式。模型还不能自己判断「这道题我该伸手指来做」,得有人提醒它。

拓扑推理的泛化能力有限。在训练过的迷宫类型上效果好,换一种新的空间结构就可能掉链子。陈小康在那条已删推文里也说了:

「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

「我们还在早期阶段,复杂拓扑推理任务的泛化还不完善,但我们会持续解决。」

前天实测时,DeepSeek 识图模式展现的那些能力(追问发布者身份、联想鲸鱼 logo 含义、自我纠正、给自己开「小型答辩会」),和这篇论文描述的思维方式一脉相承。它在脑中建立视觉锚点,围绕锚点做推理,碰到矛盾就回溯修正。

而数手指数晕了,就是 Reference Gap 的活体演示。手指交叉重叠的画面里,纯靠语言描述去区分「从左数第三根」和「从右数第二根」,跟你自己不伸手指去数一群挤在一起的人一个道理,注定混乱。

这篇论文指向的方向是:多模态推理的下一步进化在锚定机制上。DeepSeek 用 90 个信息单元就打平了别人用上千 token 的效果,省下来的算力全拿去让模型「一边想一边指」。


分辨率军备竞赛可以缓一缓了,教会模型伸出手指,比给它配一副更贵的眼镜管用。

这只鲸鱼开了眼之后,还长出了手指。66.9% 的迷宫准确率离完美还远,但至少它在认真走,不像隔壁那几位在掷硬币。

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

一半中国人蛋白质没吃够!医生:50岁以上人群,每天这样吃才达标

岐黄传人孙大夫
2026-04-29 06:45:06
刚出生的小水牛丢了,主人呵斥母牛去找,“孩子找不到你就别回来了”,主人:坏消息,小牛没找到牛妈妈也没回来

刚出生的小水牛丢了,主人呵斥母牛去找,“孩子找不到你就别回来了”,主人:坏消息,小牛没找到牛妈妈也没回来

观威海
2026-04-30 10:04:06
特朗普威胁削减驻德美军 默茨强调跨大西洋伙伴关系

特朗普威胁削减驻德美军 默茨强调跨大西洋伙伴关系

财联社
2026-05-01 11:00:44
1985年硬汉陈永贵临终为何连声认错?邓小平紧急派人传去的这句真实定论太扎心!

1985年硬汉陈永贵临终为何连声认错?邓小平紧急派人传去的这句真实定论太扎心!

历史回忆室
2026-04-30 17:26:14
五粮液“清算”五粮液,67万股东这个假期该怎么度过?

五粮液“清算”五粮液,67万股东这个假期该怎么度过?

食悟
2026-04-30 22:07:07
调整!5月1日晚间央视直播CBA季后赛有变,广东杜锋客场迎生死战

调整!5月1日晚间央视直播CBA季后赛有变,广东杜锋客场迎生死战

夕落秋山
2026-05-01 10:28:49
2026年不怕麻烦,越战越勇,财运来了也能接住的三大生肖!

2026年不怕麻烦,越战越勇,财运来了也能接住的三大生肖!

毅谈生肖
2026-05-01 10:31:41
别再吹天生美貌!朱珠真实原生脸曝光,整容前后差距一目了然

别再吹天生美貌!朱珠真实原生脸曝光,整容前后差距一目了然

小娱乐悠悠
2026-04-27 09:21:13
美伊一旦结束,这几个国家下场会很惨,特朗普已列出名单!

美伊一旦结束,这几个国家下场会很惨,特朗普已列出名单!

深度报
2026-04-29 22:37:38
网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

网红白冰成名史:曾是发廊小哥,一条广告66万,奢侈到无法想象

叶公子
2026-04-29 14:19:53
零跑汽车4月交付71387台 刷新品牌单月销量纪录

零跑汽车4月交付71387台 刷新品牌单月销量纪录

沙雕小琳琳
2026-05-01 11:07:45
扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

扎哈罗娃:我们不像乌克兰,不拿士兵的生命去打没意义的仗

Ck的蜜糖
2026-04-29 09:09:07
18岁国足红星点射致胜!助江苏队进中冠总决赛 激动跪谢2.8万观众

18岁国足红星点射致胜!助江苏队进中冠总决赛 激动跪谢2.8万观众

我爱英超
2026-05-01 09:32:16
60后福建大佬,单季狂赚207亿!穷小子逆袭福布斯内地富豪第四名

60后福建大佬,单季狂赚207亿!穷小子逆袭福布斯内地富豪第四名

品牌观察官
2026-04-30 16:46:22
大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

大师靠“美国崩溃论”卷走百亿,跑路美国后,痛骂中国人

谈史论天地
2026-04-25 11:00:08
尼克斯屠杀创十项季后赛纪录:连创历史第一 让保罗坐立难安

尼克斯屠杀创十项季后赛纪录:连创历史第一 让保罗坐立难安

醉卧浮生
2026-05-01 10:12:32
梅丽尔·斯特里普承认Lady Gaga在《穿普拉达的女王2》的拍摄期间“抢走了戏份”

梅丽尔·斯特里普承认Lady Gaga在《穿普拉达的女王2》的拍摄期间“抢走了戏份”

下水道男孩
2026-04-28 20:51:36
瞒不下去了,真的需要彻查了!

瞒不下去了,真的需要彻查了!

胖胖说他不胖
2026-04-25 14:12:40
嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

阿讯说天下
2026-04-25 11:15:04
广东男子中风瘫痪,妻女照顾两个月,狠心外出8天活活饿死

广东男子中风瘫痪,妻女照顾两个月,狠心外出8天活活饿死

叮当当科技
2026-05-01 00:55:34
2026-05-01 11:55:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6331文章数 26830关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

辽宁舰遭日本侦察机侦察 解放军一句警告让其放弃企图

头条要闻

辽宁舰遭日本侦察机侦察 解放军一句警告让其放弃企图

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

艺术
本地
教育
数码
公开课

艺术要闻

刘明华 2026油画新作(2024-2026)

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

今天上午9点,环球中心!成都150所中学集结,等你来咨询

数码要闻

升级了个寂寞!酷睿Ultra 9 386H跑分曝光:性能战平上代285H

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版