网易首页 > 网易号 > 正文 申请入驻

首测DeepSeek识图,结果炸了

0
分享至

来源:市场资讯

(来源:电车通)

监制:罗超

在DeepSeek一记V4重拳彻底引爆科技圈的五天后,DeepSeek内部负责多模态的研究员陈小康在X上发布了这么一条帖子,并且附上了文字:

Now, we see you.


(图源:雷科技)

没错,就是字面意思。

当所有人还在为V4的价格和编码能力而惊叹时,DeepSeek突然开测识图模式,全网热议了一整年的多模态能力总算是落地了。

这更新速度,真心让人觉得梁文锋是不是为了不被网友做成不务正业的梗图,连夜把开发团队锁在了机房里。

需要注意的是,这次测试并非全量测试,而是小范围的灰度测试,只有部分用户能在DeepSeek官方App或网页版里看到,此时输入栏上方除了原有的快速模式、专家模式外,还会新增识图模式按钮,并标注“图片理解功能内测中”。


(图源:雷科技)

不巧的是,笔者的同事们全部都没能被灰度测试到,被DeepSeek官方抽到的人数居然高达0人!

幸运的是,笔者居然还真就成了那万中无一的天选之人。

既然这么巧合,小雷不给大家测试一番,多少有点过意不去。这次我精心选择了12张图片,让大家好好看看DeepSeek到底能看到什么?


理解能力强,知识库待更新

话不多说,我们直接从画面描述开始测试。

之所以将这个放在第一位,是因为这是视觉理解在实际场景中应用最多的一项功能。

以我们日常生活为例,在路边看到一株叫不出名字的奇葩植物,或者想找找某款穿搭的同款链接,甚至是在异国他乡对着满屏外文菜单发愁时,大家现在的第一反应多半是拍张照丢给AI问一句:“这是啥?”

这种“所见即所问”的交互,本质上就是在考验模型的视觉理解功底。

而这次我准备了三张图用作测试,分别是一张Coser图像、我在博物馆里的见闻以及一张信息量繁杂的活动现场图片。


(图源:雷科技)

提示词:请详细描述一下这张图,字数控制在250字以内。

对于第一张图片,DeepSeek的回答是这样的:


(图源:雷科技)

没错,DeepSeek不但完整描述了整个画面细节,而且还认出了图片里的角色,甚至还把拍摄这种图片中的背景、打光等元素等如实还原出来,用这套文字去文生图模型里直接就能还原一张高度类似的图片。

要知道,这个效果可是没开思考模式的。

对于第二张图片,DeepSeek的回答是这样的:


(图源:雷科技

不打开思考模式的情况下,这次回答就是很单纯的画面描述,没有对于物品的解析,但是描述本身还是挺到位的,而且最后还是能看出来这款物品富有浓郁的中东或中亚艺术风情,很可能是一件珍贵的宫廷或宗教礼仪用具。

那么,要是我打开思考模式呢?

这下开始解析了,首先是对物品进行拆解,定义它是什么、有什么特征、所处的环境怎么样。


(图源:雷科技)

然后就开始下定义了,它认为是清代痕都斯坦风格。


(图源:雷科技)

那么清代痕都斯坦风格是啥呢?根据Wiki解释,这是18世纪清朝乾隆时期引入的中亚伊斯兰风格玉器,主要源自北印度莫卧儿王国。

刚好,我去看的就是莫卧儿王国展,还真给它找出来了。


(图源:雷科技)

对于第三张图片,DeepSeek的回答是这样的:


(图源:雷科技)

除了画面描述、文字信息读取,这次它还果断判断这是属于中国建博会·广州的活动现场图片,只能说图片理解这块确实没毛病嗷。

当然了,上面这些内容都是看图说话,那么更新一点的信息识别如何呢?

这次我准备了近些年的三张图片,提示词:图片里的东西是什么?并说出你的依据,字数控制在200个字以内。


(图源:雷科技)

对于第一张图片,DeepSeek的回答是这样的:


(图源:雷科技)

嗯...至少能从图片里看出宝可梦的信息,但是《Pokopia》这款游戏还是太新了,明显不在DeepSeek的知识库里。

对于第二张图片,DeepSeek的回答是这样的:


(图源:雷科技)

这次倒是判断得很准确,这确实是一张从3dm扒下来的FM24战术图。

对于第三张图片,DeepSeek的回答是这样的:


(图源:雷科技)

不难看出,它确实缺乏了最新的产品信息,但居然能通过副屏来判断成小米11 Ultra,只能说DeepSeek识图在逻辑这块真的拿捏了。


逻辑问题,同样搞不定

接下来,我们来试试元素识别。

这部分,说人话就是考验AI的眼力见了,里面有些题目,哪怕是真人来了也不一定能做出来。

诶,顺便看看DeepSeek会不会也是个色盲。

这类图片在网上那叫一个多啊,我干脆直接上谷歌搜罗了这些图来测试用,大家也别客气。


(图源:雷科技)

先测第一个,提示词:请直接告诉我这张图中有几只老虎。

让人想不到的是,这个问题居然能让DeepSeek开始自我博弈起来,不断地否认自己上一次数出来的结果,最后更是在两次数出6只老虎的情况下,坚定地回答了7只出来。


(图源:雷科技)

问题在于,这图里有10只老虎,这就让人很尴尬了。

再测第二个,提示词:这张图中隐藏着一组数字,请你直接告诉我其中有几个数字,它们分别是什么。


(图源:雷科技)

咋说呢,这个图之前就难倒过所有AI, DeepSeek同样没有能识别出来。

第三张图也是如此,可以说,这一类基于反色、碎块化的图片,依然是视觉理解的一生之敌。


(图源:雷科技)

最后是三道图形逻辑题,之前DeepSeek-V4在做逻辑题的时候表现就一般,不知道应对图形逻辑题的效果如何。

据说这三道都是行测例题,我们让DeepSeek来解答一下。


(图源:雷科技)

第一道,思考了整整三分钟。


(图源:雷科技)

答案是错的,正确答案是D。这图的逻辑其实还挺好懂的,就是前面两格单白/单黑的地方,第三格是白的,前面两格双白/双黑的地方,第三格就是黑的。

第二道题自然也是不负众望,错!

没想到,在我已经失去希望的情况下,经过六分钟深度思考后,这第三道题,居然是让DeepSeek给答对了!


(图源:雷科技)

我反复试了两遍,只能说这道题它确实能推理出来,虽说是采用算数的形式,但确实实现了零的突破。

只能说,行测备考你用这个,这辈子也是有了。


总结:识图只是前菜,

多模态大招还在路上

完整测试下来,小雷我对DeepSeek这次的识图能力算摸透了。

只能说DeepSeek基础识图的准确率其实还是比较高的,然后它的推理思路本身也算有条不紊,但是目前知识库里保存的信息还不够多,而且面对难度较高的极限测试,基本上就没有能做对的时候。

但是,这次起码不会出现思考半天吧啦吧啦没完没了的情况。


(图源:DeepSeek)

在我看来,这次识图更像是过渡期的开胃菜,这个识图模式,更接近一个挂载在DeepSeek-V4主干上的视觉理解模块,而并非DeepSeek-V4本身的多模态能力。

但至少,它证明DeepSeek团队在视觉理解上已经跑通了,这明显是在为接下来的原生多模态大招铺路。可以预见的是,补上这块短板后,整个国产模型的格局必然会再次发生改变。

至于没拿到资格的也别急,就DeepSeek目前这个效果,豆包和千问其实够用了。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美籍华人:中国支付落后难用,美国10年前早就就淘汰了

美籍华人:中国支付落后难用,美国10年前早就就淘汰了

断翼的鸟儿
2026-05-03 15:36:38
王楚钦轮休,中国男团1比3不敌韩国队,遭遇伦敦世乒赛首败

王楚钦轮休,中国男团1比3不敌韩国队,遭遇伦敦世乒赛首败

鲁中晨报
2026-05-03 09:05:10
梅丽尔·斯特里普承认Lady Gaga在《穿普拉达的女王2》的拍摄期间“抢走了戏份”

梅丽尔·斯特里普承认Lady Gaga在《穿普拉达的女王2》的拍摄期间“抢走了戏份”

下水道男孩
2026-04-28 20:51:36
瞒不下去了,真的需要彻查了!

瞒不下去了,真的需要彻查了!

胖胖说他不胖
2026-04-25 14:12:40
“孩子哭三天了!”宝妈误把私密照发班级群,老师:你穿上点吧!

“孩子哭三天了!”宝妈误把私密照发班级群,老师:你穿上点吧!

观察鉴娱
2026-03-22 09:34:03
贝克汉姆迎51岁生日,贝嫂大方晒老公腹肌泳装,长子沉默令人心寒

贝克汉姆迎51岁生日,贝嫂大方晒老公腹肌泳装,长子沉默令人心寒

译言
2026-05-03 08:10:06
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
短款旗袍+黑丝,微胖女生也能穿出纯欲风

短款旗袍+黑丝,微胖女生也能穿出纯欲风

牛弹琴123456
2026-05-01 14:07:41
技术越牛,死得越快?一个苏州新材料老板的深夜困惑

技术越牛,死得越快?一个苏州新材料老板的深夜困惑

胡华成
2026-04-05 18:18:14
国务院安委会派出明查暗访组

国务院安委会派出明查暗访组

第一财经资讯
2026-05-03 22:35:15
刚启动便是王炸!中天科技800G硅光模块量产,急追中际旭创

刚启动便是王炸!中天科技800G硅光模块量产,急追中际旭创

慧眼看世界哈哈
2026-05-03 12:54:43
破案了!广东2-1逆转广州原因已找到,做了这3点改变,杜锋真厉害

破案了!广东2-1逆转广州原因已找到,做了这3点改变,杜锋真厉害

篮球专区
2026-05-03 22:37:06
比亚迪泰国经销商员工行为失当遭行车记录仪曝光 涉事员工被全部解雇

比亚迪泰国经销商员工行为失当遭行车记录仪曝光 涉事员工被全部解雇

曼谷陈大叔
2026-05-01 15:00:30
景区内游客爆发肢体争执,冲突中多人坠落,现场实景被拍下

景区内游客爆发肢体争执,冲突中多人坠落,现场实景被拍下

星娱叨叨社
2026-04-30 14:32:32
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
尼克斯票价!比湖人贵三倍啊!!!

尼克斯票价!比湖人贵三倍啊!!!

柚子说球
2026-05-03 20:27:58
广州警方:庾某已被刑拘

广州警方:庾某已被刑拘

中国基金报
2026-05-03 22:52:43
灰色包臀裙:不是低调,是高级的从容

灰色包臀裙:不是低调,是高级的从容

疾跑的小蜗牛
2026-05-03 22:18:53
广州一居民楼深夜起火,七旬老人对孙子大喊“你再不出来就没命了”,一把抱他躲进阳台,消防:一家五口脱险,获救关键是他们关紧了卧室门

广州一居民楼深夜起火,七旬老人对孙子大喊“你再不出来就没命了”,一把抱他躲进阳台,消防:一家五口脱险,获救关键是他们关紧了卧室门

环球网资讯
2026-05-03 19:58:11
2026-05-04 05:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3099080文章数 7108关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

特朗普:4日上午起引导被困霍尔木兹海峡船只驶离

头条要闻

特朗普:4日上午起引导被困霍尔木兹海峡船只驶离

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
时尚
本地
手机
游戏

家居要闻

灵动实用 生活艺术场

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

本地新闻

用青花瓷的方式,打开西溪湿地

手机要闻

华为多款新机销售表现曝光,畅享90 Pro Max激活百万台

扶我起来 《马拉松》未来多年将持续更新剧情

无障碍浏览 进入关怀版