DeepSeek连夜删掉的新论文，到底说了什么|模态|推理|锚点|拓扑|deepseek

分享至

昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推，并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》，表示「Excited to release」。

今天一早，推文删了，GitHub 上的论文也撤了。

但 APPSO 在它消失之前把全文读完了。读完之后觉得，这篇论文被撤可能不是因为内容有问题。

恰恰相反，它可能透露了太多了。

前天我们刚，让它数手指，它思考了一通，自己吐槽「我真的是数晕了」，然后答错了。当时以为是灰测阶段的小问题。

这篇论文告诉我们，数手指数晕这件事，背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。

而 DeepSeek 给出的解法，说出来几乎有点可笑的朴素：给 AI 装一根手指。

陈小康在那条推文里写道：

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

「传统的思维链停留在语言空间里，但视觉推理需要更多。通过使用点和框作为认知锚点，我们的模型弥合了「引用鸿沟」，模拟了人类「边指边想」的协同机制。」

看得清和指得准，是两回事

目前所有多模态大模型做图像推理，本质都是把看到的画面转化成文字，然后在文字空间里做思维链推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全是这个路子。

过去两年，OpenAI、Google、Anthropic 的改进方向集中在一个问题：怎么让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞进去。DeepSeek 管这个叫 Perception Gap，感知鸿沟。

但这篇论文指出了另一个瓶颈：Reference Gap，引用鸿沟。模型看清了，但在推理过程中没法精确指向图中的某个东西。

你可以这样理解：一张图里 25 个人密密麻麻站在一起，你用语言去描述「左边第三排穿蓝色球衣那个人旁边的那个」，描述本身就是模糊的。模型数着数着就丢了上下文，忘了刚才数到谁。

人类怎么解决这个问题？够原始的：伸出手指，指一个数一个。

284B 参数的模型，装上了一根手指

DeepSeek 的方案：让模型在思考过程中直接输出图片上的坐标。

想象一下，模型看到一张图里有很多人，它的思维链不再是「我看到左边有个穿蓝衣服的人」，而是「我看到这个人」然后附上一个框的坐标，把人圈出来。每数一个人就圈一个框，圈完之后数框的数量就行了。

两种坐标格式：一种是框（bounding box），画个矩形把物体圈住，适合标定物体位置；一种是点（point），在图上戳一个位置，适合追踪路径和走迷宫。DeepSeek 管这两种东西叫「视觉原语」，最小的思维单元。

关键变化在这里：以前模型输出坐标是作为最终答案（「目标在这里」），现在坐标嵌入了思考过程本身。坐标是草稿纸上的标记，不是答卷上的答案。

把一张图压缩 7056 倍，然后还能数清楚里面有几个人

模型底座是 DeepSeek-V4-Flash，一个 284B 参数的 MoE 模型。MoE 的意思是：模型脑子很大，但每次回答问题只调用一小部分神经元来干活，推理时只激活 13B 参数。类似于一个百人团队，每个任务只派 5 个人上场。

视觉编码器这边，做了三级压缩。打个比方：你有一张照片要发给朋友，网速很慢。第一步，你把照片切成小方格备用；第二步，每 9 个小方格合并成 1 个（3×3 压缩）；第三步，再在传输时进一步精简掉冗余信息（KV Cache 压缩 4 倍）。

实际数字：一张 756×756 的图，57 万像素，一路压下去变成 81 个信息单元。压缩比 7,056 倍。

我看到这个数字的第一反应是：这还能看清东西？但论文里的结果说明，确实能。不光能看清，还能精确数出图里有 25 个人。

对比一下：同样 800×800 的图，Gemini-3-Flash 消耗约 1100 个 token 来表示这张图，Claude-Sonnet-4.6 约 870 个，GPT-5.4 约 740 个。DeepSeek 在最终计算时只用 90 个信息单元。别人用一千多个格子来记住一张图，DeepSeek 用 90 个格子就够了，然后腾出来的算力全拿去「指」。

4000 万条训练数据怎么攒出来的

DeepSeek 从 Huggingface 等平台把所有带「目标检测」标签的数据集都爬了下来，初筛得到 97,984 个数据源。

然后做了两轮筛选。

第一轮查标签质量。用 AI 自动审核三类问题：标签是无意义的数字编号（类别名叫「0」「1」的那种）、标签是私人实体（「MyRoommate」）、标签是模糊缩写（工业检测里的「OK」「NG」，一个苹果「OK」和一个电路板「OK」长得完全不一样，AI 学不了）。这轮砍掉 56%，剩 43,141 个。

第二轮查框的质量。三个标准：漏标太多的（标了一半就不标了）、框画歪了切掉物体一半的、框大到把整张图都框住的（说明原始数据是图片分类硬转成的检测数据，没有定位信息）。再砍 27%，剩 31,701 个。

最后按类别采样、去重，产出超过 4000 万高质量样本。

DeepSeek 选择先把框的数据做大，点的数据后面再补。原因也简单：你让 AI 标一个框，答案基本唯一（把物体刚好圈住）；但让 AI 标一个点，物体上哪个位置都算对，没有唯一正确答案，训练信号太模糊。而且框本身就包含了两个点（左上角和右下角），学会画框之后标点就是降维操作。

怎么把「指」这个能力教给模型

后训练的策略是「先分头练，再合并」。

DeepSeek 先拿框的数据训练一个专门画框的专家模型，再拿点的数据训练一个专门标点的专家模型。分开训练是因为数据量还不够大，两种能力混在一起容易互相干扰。

然后对两个专家分别做强化学习。怎么判断模型「画对了框」或「走对了路」？DeepSeek 设计了一套多维度的打分系统：格式对不对（坐标语法正确吗）、逻辑通不通（思考过程有没有自相矛盾）、答案准不准（最终结果和标准答案差多少）。

强化学习的数据筛选也有讲究：先让模型做 N 遍同一道题，全做对的题太简单没训练价值，全做错的题太难学不到东西，只留「有对有错」的题来练。

最后一步是把两个专家的能力合到一个模型里。具体做法：让统一模型照着两个专家的输出去学，类似于一个学生同时跟两个老师学不同科目。

给了它手指之后，它是怎么数数的

数 25 个人

给模型一张足球队合照，问「图里有多少人？」

思考过程：先判断「这是团队合照，要数所有人，包括球员和教练」。然后一次性输出 25 个框坐标，每个人身上圈一个框。接着按排数统计：前排坐着 4 个 + 中排 9 个 + 后排 8 个 + 左侧 2 个教练 + 右侧 2 个教练 = 25。

「地上的熊有几只？」

图中有三只熊。模型逐一给每只画框并判断位置：第一只，在树干上垂直攀爬，排除；第二只，在岩石边缘走动，算；第三只，在碎木和泥土间，算。答案：2 只。

不是先数出三只再减一只，而是对每只都做了「是不是在地面上」的判断，每个判断背后都有一个具体坐标锚定。它真的在逐个检查，不是在猜。

多跳空间推理

一个 3D 渲染场景里有一堆彩色几何体。问题：「存不存在一个紫色橡胶物体跟灰色金属物体一样大？」

模型先框出灰色金属球体，确认是个小号物体。然后逐一框出场景里其他小号物体：棕色金属圆柱、蓝色金属方块、蓝色橡胶方块、黄色橡胶圆柱……六个物体逐个查，颜色、材质、大小三个属性一一核对。结论：不存在紫色橡胶的。

六次定位，六次判断。每一步都有坐标锚着，不会出现「等等刚才查到哪了」的情况。

论文中更多案例参考：

迷宫导航：别人掷硬币，DeepSeek 真的在搜索

论文测了四种任务，迷宫是差距拉得最开的一个。

任务很直接：给一张迷宫图，问从起点到终点有没有路，有的话画出来。迷宫有三种形状，方格的、圆环的、蜂巢的。

模型走迷宫的方式跟你小时候用铅笔在纸上画一样：选一条岔路走到头，走不通就退回来试另一条。区别是它每走一步都在图上标一个坐标点，留下记录。

论文里展示了一个圆形迷宫的完整过程：模型先标出起点和终点的位置，然后开始探索。走了 18 步，中间两次钻进死胡同又退出来，最后绕出了一条通路，把整条路径的坐标点串起来输出。

DeepSeek 还设计了一批陷阱迷宫：乍一看有路，但中间某段被偷偷堵住了。这种迷宫考的是耐心，模型不能只看起点附近的走势就下结论，得老老实实把能走的路都试一遍才能确认走不通。

准确率对比：

- DeepSeek：66.9%

- GPT-5.4：50.6%

- Claude-Sonnet-4.6：48.9%

- Gemini-3-Flash：49.4%

- Qwen3-VL：49.6%

迷宫只有两种答案：有路，或者没路。随机猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃，跟掷硬币没什么区别。DeepSeek 的 66.9% 不算高，但它确实是在一步步走的，不是在蒙。

路径追踪：大家来找茬的终极版本

这个任务更直观：一堆线缠在一起，每条线从一个标记通向另一个标记。你的耳机线从口袋里掏出来是什么样，画面就是什么样。题目问你：C 这条线通向哪个终点？

模型的做法是沿着线一路输出坐标点，像手指划过纸面。线弯得厉害的地方点标得密，直线段标得疏。人用眼睛追一根线的时候也是这样，弯道处慢下来，直线处一扫而过。

论文还加了一个加难版测试：所有线颜色粗细都一样。不能靠颜色区分是哪根线了，只能靠曲线本身的走势连续性来判断交叉口该跟着哪条走。

- DeepSeek：56.7%

- GPT-5.4：46.5%

- Claude-Sonnet-4.6：30.6%

- Gemini-3-Flash：41.4%

Claude 的 30.6% 有点出乎意料。终点一般有四五个选项，随机猜也该有 20% 出头，30.6% 只比瞎猜强一点点。可能它在这类纯空间追踪任务上，语言推理的惯性反而帮了倒忙。

怎么教 AI 走迷宫不作弊

迷宫的训练有一个现实问题：如果只看最终答对没答对来给分，模型很快就学精了，与其费劲搜索还可能答错，不如直接猜一个，反正认真走了答错跟没走答错，分数一样是零。

DeepSeek 的解决办法是把过程也算进分数。每一步合法的探索都给分，穿墙扣分，走得越远越好。哪怕最后没到终点，只要认真搜索了大部分区域，也能拿到不错的成绩。这样一来，模型就没有偷懒的动力了。

不可解迷宫的要求更高：不能光说一句「走不通」，还得证明你确实把能到的地方都走遍了。搜索覆盖率也算分。

一个彩蛋，三个局限

后训练数据里没有中文。但模型能用中文做视觉原语推理。

给它一张咖啡机的照片，用中文问「怎么做拿铁」，它用中文标注了蒸汽棒、奶壶、咖啡豆、拿铁按钮的位置坐标，然后给出操作步骤。多语言能力是从基座模型那里继承的，视觉原语的训练没有把它破坏掉。

它还能把看图和世界知识结合起来：给一张金门大桥的照片问「这附近有 NBA 球队吗？」它先框出金门大桥，推理出这是旧金山，然后回答金州勇士队。

能理解幽默：一块水果切面上的天然斑点恰好组成了一张忧郁猫脸的模样，模型能指出相似点在哪里并解释为什么好笑。

能做密室逃脱指导：框出高处的钥匙、地板上的椅子、带锁的门，建议「把椅子搬到钥匙下方 → 踩上去拿钥匙 → 去开门」。

论文很坦诚地写了目前做不到的事。

输入分辨率有限制。ViT 输出被卡在 81 到 384 个视觉信息单元之间，遇到很精细的场景（比如数手指这种），坐标精度还不够。这可能就是前天实测时数手指翻车的直接原因。

目前需要特定触发词才能激活视觉原语模式。模型还不能自己判断「这道题我该伸手指来做」，得有人提醒它。

拓扑推理的泛化能力有限。在训练过的迷宫类型上效果好，换一种新的空间结构就可能掉链子。陈小康在那条已删推文里也说了：

「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

「我们还在早期阶段，复杂拓扑推理任务的泛化还不完善，但我们会持续解决。」

前天实测时，DeepSeek 识图模式展现的那些能力（追问发布者身份、联想鲸鱼 logo 含义、自我纠正、给自己开「小型答辩会」），和这篇论文描述的思维方式一脉相承。它在脑中建立视觉锚点，围绕锚点做推理，碰到矛盾就回溯修正。

而数手指数晕了，就是 Reference Gap 的活体演示。手指交叉重叠的画面里，纯靠语言描述去区分「从左数第三根」和「从右数第二根」，跟你自己不伸手指去数一群挤在一起的人一个道理，注定混乱。

这篇论文指向的方向是：多模态推理的下一步进化在锚定机制上。DeepSeek 用 90 个信息单元就打平了别人用上千 token 的效果，省下来的算力全拿去让模型「一边想一边指」。

分辨率军备竞赛可以缓一缓了，教会模型伸出手指，比给它配一副更贵的眼镜管用。

这只鲸鱼开了眼之后，还长出了手指。66.9% 的迷宫准确率离完美还远，但至少它在认真走，不像隔壁那几位在掷硬币。

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.