网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek给AI装了根赛博手指，于是它能看见了

2026-05-01 10:09:05　来源: 摸鱼算法

北京举报

0

分享至

想象一下，你和朋友站在菜市场里，你指着远处说"张老太太的菜最新鲜"。朋友一脸懵：哪个是张老太太？但如果你直接用手指过去，"就是那个"，问题立刻解决。

AI看图时，也卡在这个尴尬处境——它能"看见"，却"指不清"。DeepSeek五一前扔出的这份技术报告，核心就是给AI造了根赛博手指。

感知鸿沟 vs 引用鸿沟：两个完全不同的战场

过去一年，GPT、Claude、Gemini都在卷同一件事：让模型看得更清楚。

高分辨率裁剪、动态分块、多尺度处理……各家拼命往模型眼里塞更多像素。OpenAI的o3和o4-mini甚至能让模型在推理过程中裁剪、放大、旋转图片，把图像操作直接嵌入思维链。

这个方向有个默认假设：只要看得够细，推理自然变强。

DeepSeek在报告里泼了盆冷水。他们指出，就算模型视力拉满，复杂空间推理照样崩。

照片里十几只狗，你说"左边那只"——哪只？让模型数狗的数量，它数着数着就忘了哪些数过、哪些没数。迷宫导航更惨，纯语言根本描述不了不规则路径的拓扑关系。

DeepSeek把这叫"引用鸿沟"（Reference Gap）：模型能感知图像，却无法在连续推理中稳定指向同一个视觉对象。

过去一年行业全力攻克的是"感知鸿沟"（Perception Gap）——图像模糊、分辨率低导致看不清。但DeepSeek发现，感知问题解决了，引用问题依然致命。

语言在空间定位上天生残疾。它擅长抽象概念和因果关系，面对连续视觉空间时，"左边""上面""这条线"全是模糊表达。一旦画面复杂，指代立刻漂移，推理链条断裂。

视觉基元：把坐标变成思维的最小单位

DeepSeek的解法很直接：既然语言指代不靠谱，那就让模型直接"指"。

他们提出"视觉基元"（Visual Primitives）概念，把边界框（bounding boxes）和点（points）这两种计算机视觉最基础的空间标记，提升为"思维的最小单位"。

这不是简单的图像标注。以前的多模态模型也能画框，但只是最后给你看个结果，证明"我找到了"——像考试只交答案不写过程。

也有研究让AI思考时画框，但目的是"看得更准"，框框只是辅助工具，像草稿纸帮你算清楚，不是解题思路本身。

DeepSeek把空间标记直接嵌入推理过程，让它成为思维的有机组成部分。

模型思考时，不只是用语言描述"我看到了一只狗"，而是同时输出："我看到了一只狗，它在这里：[[x1,y1,x2,y2]]"。

这个机制叫"边推理边指向"（point while it reasons）。每一步思考都锚定在图像的具体坐标上，每个视觉对象都有明确的空间锚点。

技术报告里的迷宫例子很直观：模型从起点出发，探索、回溯、再尝试，输出一串完整坐标路径，每个坐标对应迷宫里走过的一个点。

推理过程变得可追踪、可验证。模型不会"迷路"，不会搞不清自己在说什么、指什么。

OpenAI的"工作台" vs DeepSeek的"坐标链"

两条技术路线形成了有趣的对照。

OpenAI的"thinking with images"强调通用能力。模型拥有一个强大的"视觉工作台"，可以裁剪、放大、旋转、生成图像，视觉、代码、搜索、文件、工具调用一起协作。

视觉推理发生在内部，用户只能看到最终答案和必要解释，中间过程是黑箱。

DeepSeek更"符号化"。坐标直接进入思维链，模型在推理文本里显式写出边界框和点的坐标，把视觉对象变成可复用的锚点。

这种透明化有个直接好处：更容易训练、检查、打分。

迷宫、路径追踪这类任务中，可以对路径合法性、轨迹覆盖度给出更细的反馈。模型不只是学会输出正确答案，更是学会用视觉基元进行推理的方法。

Token效率：被忽略的杀手锏

报告里有个极易被忽略的细节：DeepSeek处理图像用的token数量，远低于其他前沿模型。

800×800分辨率图像的对比数据：

Gemini-3-Flash约1100个，Claude-Sonnet-4.6约870个，GPT-5.4约740个，Qwen3-VL约660个，DeepSeek约361个。

KV缓存里，DeepSeek只保留约90个条目。

token数量是Gemini的三分之一，KV缓存条目是十分之一左右。

这靠的是一个叫"压缩稀疏注意力"（Compressed Sparse Attention）的机制。具体技术细节报告没展开，但效率差距是实打实的。

在多模态模型普遍受限于上下文长度和推理成本的当下，这种效率优势意味着能处理更大图像、更长视频、更复杂的视觉推理链条。

为什么这件事值得盯着

DeepSeek这份报告的价值，不在于又刷了什么榜单，而在于它重新定义了多模态模型的核心挑战。

行业过去一年默认"看得清=推得准"，DeepSeek证明这是两个独立问题。感知鸿沟和引用鸿沟需要不同的解法，而后者被系统性忽视了。

给AI一根赛博手指，表面是技术路线选择，深层是对"推理"本身的理解差异。

OpenAI相信通用能力会自然涌现，视觉工作台越强大，复杂任务越能搞定。DeepSeek则认为，某些基础能力需要显式建模，坐标锚定不是优化手段，而是推理的必要结构。

这种分歧会持续发酵。如果DeepSeek的路线被验证，意味着多模态模型需要更多"符号化"设计，而非纯粹端到端 scaling。训练数据、评估基准、甚至产品形态都会跟着变。

更现实的层面，token效率差距直接影响落地成本。视觉推理从实验室走向生产环境，每省一个token都是真金白银。

这份报告发布在五一假期前一天，时机选得很DeepSeek——不追热点，只抛问题。而这个问题，可能会让下半年的多模态竞赛换条跑道。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

不只是DeepSeek V4，还有个万亿级大模型，训推全程国产芯片

机器之心Pro 2026-04-30 16:02:50
6 跟贴 6
GPU神话松动，AI真正的战场变了

虎嗅APP 2026-05-01 01:19:11
5 跟贴 5

达索系统CEO：如何让AI带来实际生产力

经济观察报 2026-05-01 11:23:09
0 跟贴 0

从Token、算力到智能体：数字中国建设峰会上的AI进化论

财联社 2026-05-01 12:26:30
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0

AI预测大脑衰老：一张 MRI，AI 如何推演出阿尔茨海默病的十年病程？

钛媒体APP 2026-05-01 09:53:13
3 跟贴 3

不再佛系！“重仓”AI、成立海外业务部门，小红书挤入最烧钱“战场”

每日经济新闻 2026-05-01 12:21:14
0 跟贴 0
DeepSeek“开眼”背后的技术，公开了！

智东西 2026-04-30 22:35:23
1 跟贴 1

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

机器之心Pro 2026-04-30 19:46:01
1 跟贴 1
仅靠推理不具备法律效力

浪嫂剪辑 2026-04-30 16:43:05
3 跟贴 3
四川小伙做的导弹车模型，准备开出去测试，结果被拉走了！

星君搞笑怪 2026-04-29 16:01:55
12 跟贴 12
谈谈禁烟抽烟和劝阻的尺度、几个美国消息和全球军费大涨

北方老陈 2026-04-28 16:49:54
131 跟贴 131
暴力美学的视觉盛宴

疯癫影视 2026-04-28 15:47:43
1 跟贴 1
童年列车：王楚钦的成长轨迹，遇见最好的他们

爱的圆周率不循环w 2026-04-30 11:16:00
1 跟贴 1
郭德纲段子尺度真大，让于谦瞬间惊呆，现挂神接茬

让生活充满温暖 2026-04-27 07:30:25
3 跟贴 3
上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15250 跟贴 15250
中国船员滞留霍尔木兹60天：奖发到位大部分愿继续干

潇湘晨报 2026-04-30 16:26:46
15918 跟贴 15918
DeepSeek用V4重画了坐标系

钛媒体APP 2026-05-01 09:52:15
1 跟贴 1
国防部回应外界推测中国对日将有大动作

北京青年报 2026-04-30 16:41:25
5541 跟贴 5541
张静初破尺度出演！大佬华仔只能沦为配角，永远不要信毒虫的泪

玫瑰爱剧 2026-04-27 22:24:00
1 跟贴 1
大模型“降智”真相，找到了

智东西 2026-04-30 14:41:59
0 跟贴 0
阳台外贴满“吵”！深圳一小区居民抓狂：凌晨睡不了，孩子被迫回老家

南方都市报 2026-04-30 15:18:54
836 跟贴 836
堵！堵！堵！苏B大军出动了！

江南晚报 2026-04-30 18:58:38
234 跟贴 234
DeepSeek推荐：适合五一假期做的51件小事

洞见 2026-04-30 22:10:41
12 跟贴 12
内奸假装上厕所偷偷给鬼子做标记，竟被女八路一眼识破，内奸惨了

风影视 2026-04-29 18:56:15
0 跟贴 0
明显是视觉误差，总以为自己能跑过去，我都替司机感觉到冤枉！

宇宙搞笑生活 2026-04-30 13:55:15
57 跟贴 57
福州大学一学生称自己5年前的研究生毕业动画作品被合肥工业大学三名学生盗用，且获国奖；合肥工业大学：已了解相关情况，正在核实

三湘都市报 2026-04-30 16:03:54
858 跟贴 858
物业费收不齐，亏损止不住：一年超200个物业撤场，困局何解？

新京报 2026-04-30 09:46:07
974 跟贴 974
深度解读Deepseek-V4：注意力压缩 /1M 上下文/ MoE架构

卢菁老师 2026-04-27 02:14:19
0 跟贴 0
GPT-5.5智商145背后：大模型竞赛，正在进入工程淘汰赛

钛媒体APP 2026-04-27 19:41:15
0 跟贴 0
一篇哲学文章如何变成404现场

晚风也遗憾 2026-05-01 00:21:19
0 跟贴 0
2025年农民工月均收入5075元，比上年增加114元

新京报 2026-04-30 15:06:03
5433 跟贴 5433
看似惊险爬山，其实全是视觉效果！

银河探索队 2026-04-30 07:38:34
1 跟贴 1
一大早，就堵成鸳鸯锅了！

江南晚报 2026-05-01 09:20:19
48 跟贴 48
【汽车人】鸿蒙扩张、小艺进化，欢迎来到“智能体”世界

汽车人传媒 2026-04-30 21:22:51
0 跟贴 0
孙杨博士入学资格受质疑上体研招办：正调查跟进

大风新闻 2026-05-01 07:42:24
4747 跟贴 4747
一下午一句话 Codex 帮我开发了一个完整的游戏！

歸藏的AI工具箱 2026-05-01 08:36:59
1 跟贴 1
女子倒车把握不好距离，把鞋子脱了做标记

南阳日报 2026-04-30 16:25:13
0 跟贴 0
诺奖得主实验室走出的中国团队，正用世界模型重构生命分子设计

机器之心Pro 2026-04-29 11:41:34
5 跟贴 5
海关总署：即日起允许符合要求的西班牙开心果和无花果干进口

证券时报 2026-04-30 14:40:08
316 跟贴 316

一男子瞟了一眼他老婆规划的五一行程，感觉天塌了，评论笑死

一男子瞟了一眼他老婆规划的五一行程，感觉天塌了，评论笑死

三农老历

2026-04-30 17:01:23

4月最后一夜爆雷潮！9龙头亏超百亿，53股巨亏，4大高危板块曝光

4月最后一夜爆雷潮！9龙头亏超百亿，53股巨亏，4大高危板块曝光

慧眼看世界哈哈

2026-05-01 05:59:44

中国首位牺牲缉毒民警，25岁卧底毒窝24次，遗体被发现时全身白霜

中国首位牺牲缉毒民警，25岁卧底毒窝24次，遗体被发现时全身白霜

零点历史说

2026-05-01 10:15:15

我退伍后打工做保安16年，战友调来当书记，我的生活三个月大变样

我退伍后打工做保安16年，战友调来当书记，我的生活三个月大变样

农村情感故事

2024-11-04 21:22:16

连丢9分！最后一轮，3队争直通英超，3队争附加赛名额

连丢9分！最后一轮，3队争直通英超，3队争附加赛名额

嗨皮看球

2026-04-30 17:40:41

湖人队詹姆斯：如果在3-0领先的情况下崩盘，媒体将“蜂拥而至”

湖人队詹姆斯：如果在3-0领先的情况下崩盘，媒体将“蜂拥而至”

好火子

2026-04-30 23:58:32

国台办回应郑丽文访美，“尊重，但不理解”

国台办回应郑丽文访美，“尊重，但不理解”

咸鱼金脑袋

2026-05-01 12:43:41

争冠变天！赛程表彻底倾斜，曼城6天3战极限难度，枪手吃瓜看戏

争冠变天！赛程表彻底倾斜，曼城6天3战极限难度，枪手吃瓜看戏

涛哥侃球

2026-05-01 12:54:00

轰22+7掀翻湖人！火箭22岁1.22亿探花崛起，乌度卡：没他赢不了

轰22+7掀翻湖人！火箭22岁1.22亿探花崛起，乌度卡：没他赢不了

李喜林篮球绝杀

2026-04-30 13:37:37

4大锂矿将停产！碳酸锂有望突破25万元/吨

4大锂矿将停产！碳酸锂有望突破25万元/吨

新浪财经

2026-05-01 08:45:40

中国台湾2026年一季度GDP，同比超预期至13.69% ，真实情况如何？

中国台湾2026年一季度GDP，同比超预期至13.69% ，真实情况如何？

闻号说经济

2026-04-30 21:27:18

黄奇帆再预言未来房地产，今年已基本应验，明年或大概率又是对的

黄奇帆再预言未来房地产，今年已基本应验，明年或大概率又是对的

巢客HOME

2026-05-01 05:25:03

发现一个奇怪的现象：凡是情绪稳定、睡眠好、不焦虑的人，都有一个共性，那就是再大的事也不搁在心里，再恶劣的环境也能想办法适应

发现一个奇怪的现象：凡是情绪稳定、睡眠好、不焦虑的人，都有一个共性，那就是再大的事也不搁在心里，再恶劣的环境也能想办法适应

LULU生活家

2026-04-24 19:12:24

胃热是光吃不拉，脾虚是一吃就拉，肝郁是不停放屁，中医一招调理

胃热是光吃不拉，脾虚是一吃就拉，肝郁是不停放屁，中医一招调理

垚垚分享健康

2026-04-29 11:24:29

警惕！多名孩子误服！医生紧急提醒：错误急救=二次伤害，后果不可逆

警惕！多名孩子误服！医生紧急提醒：错误急救=二次伤害，后果不可逆

环球网资讯

2026-05-01 11:26:19

石脑油短缺引发连锁反应：日本从中国进口化学品激增，塑料原料涨三成

石脑油短缺引发连锁反应：日本从中国进口化学品激增，塑料原料涨三成

西游日记

2026-05-01 12:21:28

局势有变？取消禁令响彻台岛，大陆11人登上金门，国台办把话挑明

局势有变？取消禁令响彻台岛，大陆11人登上金门，国台办把话挑明

兵器海陆空视频

2026-04-30 19:14:33

成都房价大幅下滑区域

石辰搞笑日常

2026-05-01 10:01:16

才33岁怎么老成这样？迪丽热巴迪奥现场生图，落差让人感慨

才33岁怎么老成这样？迪丽热巴迪奥现场生图，落差让人感慨

小娱乐悠悠

2026-04-30 09:07:33

奥尼尔：讨厌看湖人队打球，因为到最后阶段，他们总是想打英雄球

奥尼尔：讨厌看湖人队打球，因为到最后阶段，他们总是想打英雄球

好火子

2026-04-30 22:37:39

致力于用最前沿的AI技术，换取更多发呆时间的三十岁青年。

2047文章数 20关注度

往期回顾全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

郴州1岁男童被人入室抢走案：奶奶曾被家人冤枉是共犯

头条要闻

郴州1岁男童被人入室抢走案：奶奶曾被家人冤枉是共犯

体育要闻

季后赛场均5.4分，他凭啥在骑士打首发？

娱乐要闻

邓超在景德镇被偶遇，穿黑外套逛茶园

财经要闻

GPU神话松动，AI真正的战场变了

汽车要闻

限时9.67万起吉利星越L/星瑞i-HEV智擎混动上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

数码

家居

房产

教育要闻

985大学：停招4个专业硕士

今年夏天的裙子，长长长长一点更好看！

数码要闻

英特尔Arc G3 Extreme跑分泄露CPU 与核显性能均算得上亮眼

家居要闻

灵动实用生活艺术场

房产要闻

所有户型全卖爆！海口TOP级豪宅，景观样板间五一全线开放！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版