网易首页 > 网易号 > 正文 申请入驻

DeepSeek给AI装了根赛博手指,于是它能看见了

0
分享至

想象一下,你和朋友站在菜市场里,你指着远处说"张老太太的菜最新鲜"。朋友一脸懵:哪个是张老太太?但如果你直接用手指过去,"就是那个",问题立刻解决。

AI看图时,也卡在这个尴尬处境——它能"看见",却"指不清"。DeepSeek五一前扔出的这份技术报告,核心就是给AI造了根赛博手指。


感知鸿沟 vs 引用鸿沟:两个完全不同的战场

过去一年,GPT、Claude、Gemini都在卷同一件事:让模型看得更清楚。

高分辨率裁剪、动态分块、多尺度处理……各家拼命往模型眼里塞更多像素。OpenAI的o3和o4-mini甚至能让模型在推理过程中裁剪、放大、旋转图片,把图像操作直接嵌入思维链。

这个方向有个默认假设:只要看得够细,推理自然变强。

DeepSeek在报告里泼了盆冷水。他们指出,就算模型视力拉满,复杂空间推理照样崩。

照片里十几只狗,你说"左边那只"——哪只?让模型数狗的数量,它数着数着就忘了哪些数过、哪些没数。迷宫导航更惨,纯语言根本描述不了不规则路径的拓扑关系。

DeepSeek把这叫"引用鸿沟"(Reference Gap):模型能感知图像,却无法在连续推理中稳定指向同一个视觉对象。

过去一年行业全力攻克的是"感知鸿沟"(Perception Gap)——图像模糊、分辨率低导致看不清。但DeepSeek发现,感知问题解决了,引用问题依然致命。

语言在空间定位上天生残疾。它擅长抽象概念和因果关系,面对连续视觉空间时,"左边""上面""这条线"全是模糊表达。一旦画面复杂,指代立刻漂移,推理链条断裂。

视觉基元:把坐标变成思维的最小单位

DeepSeek的解法很直接:既然语言指代不靠谱,那就让模型直接"指"。

他们提出"视觉基元"(Visual Primitives)概念,把边界框(bounding boxes)和点(points)这两种计算机视觉最基础的空间标记,提升为"思维的最小单位"。

这不是简单的图像标注。以前的多模态模型也能画框,但只是最后给你看个结果,证明"我找到了"——像考试只交答案不写过程。

也有研究让AI思考时画框,但目的是"看得更准",框框只是辅助工具,像草稿纸帮你算清楚,不是解题思路本身。

DeepSeek把空间标记直接嵌入推理过程,让它成为思维的有机组成部分。

模型思考时,不只是用语言描述"我看到了一只狗",而是同时输出:"我看到了一只狗,它在这里:[[x1,y1,x2,y2]]"。

这个机制叫"边推理边指向"(point while it reasons)。每一步思考都锚定在图像的具体坐标上,每个视觉对象都有明确的空间锚点。

技术报告里的迷宫例子很直观:模型从起点出发,探索、回溯、再尝试,输出一串完整坐标路径,每个坐标对应迷宫里走过的一个点。

推理过程变得可追踪、可验证。模型不会"迷路",不会搞不清自己在说什么、指什么。

OpenAI的"工作台" vs DeepSeek的"坐标链"

两条技术路线形成了有趣的对照。

OpenAI的"thinking with images"强调通用能力。模型拥有一个强大的"视觉工作台",可以裁剪、放大、旋转、生成图像,视觉、代码、搜索、文件、工具调用一起协作。

视觉推理发生在内部,用户只能看到最终答案和必要解释,中间过程是黑箱。

DeepSeek更"符号化"。坐标直接进入思维链,模型在推理文本里显式写出边界框和点的坐标,把视觉对象变成可复用的锚点。

这种透明化有个直接好处:更容易训练、检查、打分。

迷宫、路径追踪这类任务中,可以对路径合法性、轨迹覆盖度给出更细的反馈。模型不只是学会输出正确答案,更是学会用视觉基元进行推理的方法。

Token效率:被忽略的杀手锏

报告里有个极易被忽略的细节:DeepSeek处理图像用的token数量,远低于其他前沿模型。

800×800分辨率图像的对比数据:

Gemini-3-Flash约1100个,Claude-Sonnet-4.6约870个,GPT-5.4约740个,Qwen3-VL约660个,DeepSeek约361个。

KV缓存里,DeepSeek只保留约90个条目。

token数量是Gemini的三分之一,KV缓存条目是十分之一左右。

这靠的是一个叫"压缩稀疏注意力"(Compressed Sparse Attention)的机制。具体技术细节报告没展开,但效率差距是实打实的。

在多模态模型普遍受限于上下文长度和推理成本的当下,这种效率优势意味着能处理更大图像、更长视频、更复杂的视觉推理链条。

为什么这件事值得盯着

DeepSeek这份报告的价值,不在于又刷了什么榜单,而在于它重新定义了多模态模型的核心挑战。

行业过去一年默认"看得清=推得准",DeepSeek证明这是两个独立问题。感知鸿沟和引用鸿沟需要不同的解法,而后者被系统性忽视了。

给AI一根赛博手指,表面是技术路线选择,深层是对"推理"本身的理解差异。

OpenAI相信通用能力会自然涌现,视觉工作台越强大,复杂任务越能搞定。DeepSeek则认为,某些基础能力需要显式建模,坐标锚定不是优化手段,而是推理的必要结构。

这种分歧会持续发酵。如果DeepSeek的路线被验证,意味着多模态模型需要更多"符号化"设计,而非纯粹端到端 scaling。训练数据、评估基准、甚至产品形态都会跟着变。

更现实的层面,token效率差距直接影响落地成本。视觉推理从实验室走向生产环境,每省一个token都是真金白银。

这份报告发布在五一假期前一天,时机选得很DeepSeek——不追热点,只抛问题。而这个问题,可能会让下半年的多模态竞赛换条跑道。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一男子瞟了一眼他老婆规划的五一行程,感觉天塌了,评论笑死

一男子瞟了一眼他老婆规划的五一行程,感觉天塌了,评论笑死

三农老历
2026-04-30 17:01:23
4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

慧眼看世界哈哈
2026-05-01 05:59:44
中国首位牺牲缉毒民警,25岁卧底毒窝24次,遗体被发现时全身白霜

中国首位牺牲缉毒民警,25岁卧底毒窝24次,遗体被发现时全身白霜

零点历史说
2026-05-01 10:15:15
我退伍后打工做保安16年,战友调来当书记,我的生活三个月大变样

我退伍后打工做保安16年,战友调来当书记,我的生活三个月大变样

农村情感故事
2024-11-04 21:22:16
连丢9分!最后一轮,3队争直通英超,3队争附加赛名额

连丢9分!最后一轮,3队争直通英超,3队争附加赛名额

嗨皮看球
2026-04-30 17:40:41
湖人队詹姆斯:如果在3-0领先的情况下崩盘,媒体将“蜂拥而至”

湖人队詹姆斯:如果在3-0领先的情况下崩盘,媒体将“蜂拥而至”

好火子
2026-04-30 23:58:32
国台办回应郑丽文访美,“尊重,但不理解”

国台办回应郑丽文访美,“尊重,但不理解”

咸鱼金脑袋
2026-05-01 12:43:41
争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

争冠变天!赛程表彻底倾斜,曼城6天3战极限难度,枪手吃瓜看戏

涛哥侃球
2026-05-01 12:54:00
轰22+7掀翻湖人!火箭22岁1.22亿探花崛起,乌度卡:没他赢不了

轰22+7掀翻湖人!火箭22岁1.22亿探花崛起,乌度卡:没他赢不了

李喜林篮球绝杀
2026-04-30 13:37:37
4大锂矿将停产!碳酸锂有望突破25万元/吨

4大锂矿将停产!碳酸锂有望突破25万元/吨

新浪财经
2026-05-01 08:45:40
中国台湾2026年一季度GDP,同比超预期至13.69% ,真实情况如何?

中国台湾2026年一季度GDP,同比超预期至13.69% ,真实情况如何?

闻号说经济
2026-04-30 21:27:18
黄奇帆再预言未来房地产,今年已基本应验,明年或大概率又是对的

黄奇帆再预言未来房地产,今年已基本应验,明年或大概率又是对的

巢客HOME
2026-05-01 05:25:03
发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

发现一个奇怪的现象:凡是情绪稳定、睡眠好、不焦虑的人,都有一个共性,那就是再大的事也不搁在心里,再恶劣的环境也能想办法适应

LULU生活家
2026-04-24 19:12:24
胃热是光吃不拉,脾虚是一吃就拉,肝郁是不停放屁,中医一招调理

胃热是光吃不拉,脾虚是一吃就拉,肝郁是不停放屁,中医一招调理

垚垚分享健康
2026-04-29 11:24:29
警惕!多名孩子误服!医生紧急提醒:错误急救=二次伤害,后果不可逆

警惕!多名孩子误服!医生紧急提醒:错误急救=二次伤害,后果不可逆

环球网资讯
2026-05-01 11:26:19
石脑油短缺引发连锁反应:日本从中国进口化学品激增,塑料原料涨三成

石脑油短缺引发连锁反应:日本从中国进口化学品激增,塑料原料涨三成

西游日记
2026-05-01 12:21:28
局势有变?取消禁令响彻台岛,大陆11人登上金门,国台办把话挑明

局势有变?取消禁令响彻台岛,大陆11人登上金门,国台办把话挑明

兵器海陆空视频
2026-04-30 19:14:33
成都房价大幅下滑区域

成都房价大幅下滑区域

石辰搞笑日常
2026-05-01 10:01:16
才33岁怎么老成这样?迪丽热巴迪奥现场生图,落差让人感慨

才33岁怎么老成这样?迪丽热巴迪奥现场生图,落差让人感慨

小娱乐悠悠
2026-04-30 09:07:33
奥尼尔:讨厌看湖人队打球,因为到最后阶段,他们总是想打英雄球

奥尼尔:讨厌看湖人队打球,因为到最后阶段,他们总是想打英雄球

好火子
2026-04-30 22:37:39
2026-05-01 13:40:49
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
2047文章数 20关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

头条要闻

郴州1岁男童被人入室抢走案:奶奶曾被家人冤枉是共犯

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

教育
时尚
数码
家居
房产

教育要闻

985大学:停招4个专业硕士

今年夏天的裙子,长长长长一点更好看!

数码要闻

英特尔Arc G3 Extreme跑分泄露CPU 与核显性能均算得上亮眼

家居要闻

灵动实用 生活艺术场

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

无障碍浏览 进入关怀版