网易首页 > 网易科技 > IT业界 > 正文

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

0
分享至

出品 | 网易智能

作者 | 小爪

编辑 | 王凤枝

最近,DeepSeek上了识图模式。

网上最出圈的吐槽是:它看谁都像梁文锋

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

这个说法不是凭空来的。观察者网直接用了《DeepSeek上线识图模式,看谁都像梁文锋》这个标题;IT之家、澎湃新闻、红星资本局也都做过实测,核心发现差不多:DeepSeek有时认不出深度求索创始人梁文锋,有时又会把其他人误认为梁文锋。

认错老板当然很有传播性。

但名人识别和日常看图,是两种不同的能力。

我更关心的是后者:如果不拿名人照片测,而是把普通用户真的会发给AI的截图、账单、海报、日程、路线图发给它,DeepSeek识图模式效果如何?

于是我也做了一个小测试。

测试很简单:8张本地合成图,模拟普通用户最常见的看图请求,包括数图形、核账单、看图表、判断按钮状态、读优惠小字、查日程冲突、算路线、读中英文方向牌。

这些图是我自己做的,不是真实用户截图。自己作图的好处是可控:每张只测一个小任务;代价是不能代表所有真实场景,也无法排除排版影响。比如数图形用的是常见颜色和形状,收据是普通三行账单,路线图是四个点和四条边,不是刻意做成复杂视觉谜题。

这不是严肃评测,也不是模型排行。它只回答一个问题:当用户把这些图片丢给DeepSeek识图模式时,哪些地方最容易出错。

先说边界和方法

这次测的是chat.deepseek.com的官网产品入口。测试时间是6月22日中午,页面显示Instant,DeepThink没有开启。

正式测试时,每张图单独开新对话,只跑一次,不连续追问。第一张数图形在正式测试前曾经单独试过一次,所以文中会把两次结果都写出来,用来说明同一张简单图的回答不稳定;其他7张以正式测试结果为准。

这也意味着,下面不是正确率统计。8张图太少,不足以推断整体水平,只能说明:这些错误不是用户想象出来的,而是在这个产品入口里真实出现过。

需要说明的是,这次只测了DeepSeek官网一个产品入口,没拿GPT、Claude、Gemini做同图对比。这些错误不一定是DeepSeek独有的,可能是当前多模态模型都会遇到的问题。 本文讨论的是用户在这个入口里的真实体验,不是给模型排座次。

第一类错误:图就在眼前,但数量和颜色全错

数图形的那张最简单。

上面只有三类图形:红色圆形、蓝色方形、绿色三角形。正确答案是红圆7个、蓝方5个、绿三角3个。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

DeepSeek在一次单独测试里答成了红圆3个、蓝方3个、绿三角0个。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

正式测试时,我重新开新对话跑同一张图,它答得更离谱:红色圆形0个、蓝色方形0个、绿色三角形0个,还说图中所有图形都像黑色圆点。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

这不是复杂推理,也不是小字OCR。它错在最基础的颜色、形状和数量识别。

这个例子适合提醒用户:不要把"AI能看图"理解成"AI一定能准确数清图里东西"。 尤其是库存、票据、表格截图、标注图这种需要逐项计数的图片,最好让AI先分组读,再人工复核。

第二类错误:结论像对,但数字已经错了

图表测试用的是一张截断坐标轴柱状图。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

A是92,B是96,Y轴从90开始,不是从0开始。所以B看起来高很多,但实际只比A高4点。

DeepSeek的判断方向接近。它知道"不能只看视觉高度",也判断B不算高很多。

但它把92和96读成了9290和9690,把差值算成400。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

我的猜测是,它可能把柱顶标注和坐标轴上的90拼到了一起:92贴近从90开始的Y轴,视觉上被读成9290;96也被读成9690。这个猜测不一定对,但这类"把相邻数字拼接在一起"的错误,在看图读数时很要命。

这在我的计数里算"部分答对":方向判断接近,但关键数字错误。

这就是识图AI很容易让人放松警惕的地方:它说出来的道理是对的,但底层数字已经错了。

如果用户只看最后一句"B不算高很多",可能会觉得它答得不错。但如果这是一张销售图、财报图、投放图、股价图,数字被放大100倍就不是小问题。

图表类图片最需要防的不是"完全看不懂",而是"方向判断像对,关键数字错了"。

第三类错误:读到了局部,但漏掉关键边

路线图也很典型。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

图里有两条从A到D的路线:

A-B-D:12 + 18 = 30分钟。

A-C-D:10 + 15 = 25分钟。

更快的是A-C-D。

DeepSeek读到了A-B是12分钟、B-D是18分钟,也看到了A-C这条边,但把A-C的10分钟错读成15分钟,同时漏掉了C-D这条边,于是说A-C-D无法计算。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

它不是完全看不懂图,而是只读到了部分结构。

这类错误在真实使用里很危险。因为用户问路线、流程、组织图、架构图、审批链路时,AI只要漏掉一个节点或一条边,最终建议就会变形。

看图不是OCR完文字就结束。对路线图、流程图来说,真正关键的是把点、线、方向和权重连起来。

第四类错误:读到文字,但没按箭头回答

最后一张是中英混排方向牌。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

图上写着:

EXIT向左。

入口向右。

Meeting Room向上。

DeepSeek读到了"出口、入口、会议室"这些文字,但没有按箭头回答。 它把图片理解成空间布局,说入口在下方、出口在上方,会议室在中间或右侧。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

混合语言不是唯一的难点。问题是,AI需要把文字和箭头绑在一起。

用户问的是"分别往哪个方向",不是"这些词在画面上大概在哪里"。 如果AI把文字位置当成方向,答案就会错。

但它不是每条都错

这次8张图里,DeepSeek有4张基本答对,4张出了明显错误。 其中,柱状图那张属于"方向判断接近,但关键数字错误"。

样本太小,这个比例不能当成模型正确率。但它能提醒我们:错误不是每次都发生,也不是只在极端场景发生。

那次答对的几条,也值得一块看看。

核账单:收据合计它算对了,38 + 24 + 56 = 118元,打印总计128元不正确。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

读优惠小字:会员海报小字它抓到了,首月后每月29.9元,而且会自动续费。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

查日程冲突:日程图它发现了14:00-15:00的时间冲突。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

判断按钮状态:UI截图它也判断出"提交发布"按钮是灰色未激活状态,当前不能直接发布。

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

看谁都像梁文锋?我拿8张图片测试DeepSeek识图,4张翻车

这反而让结论更有产品意义。

问题不是DeepSeek官网识图"完全不能用"。在账单加总、小字条款、日程冲突、按钮状态这些场景里,它能帮用户先看一眼。

真正的问题是:它的可靠性不是均匀的。

有些场景看起来更复杂,它能答对;有些场景看起来很简单,它反而会错得很自信。

普通用户真正该小心什么

这组小测试想说的,不是某个模型答错了一次。是识图AI出错的那几种固定姿势。

第一,它可能OCR对了,但计算错了。

第二,它可能结论方向对了,但数字读错了。

第三,它可能读到局部信息,但漏掉决定结论的关键边。

第四,它可能识别出文字,却没有理解箭头、按钮状态、空间关系和用户真正问的问题。

如果再压缩一下,底层其实是两个问题:一是感知层面,看到的颜色、数量、数字就不对;二是关系层面,看到了局部信息,却没有理解它们之间的连接。

所以,把截图交给AI时,最好不要只问一句"这张图说了什么"。

更好的问法是:

请逐项读取图片内容;

请列出计算过程;

请指出你不确定的地方;

请告诉我哪些信息需要人工确认。

这些是通用的AI看图使用建议。我没有逐条验证它们能否修复DeepSeek官网识图模式里的每一种错误,但它们至少能逼AI暴露计算过程和不确定处。

尤其是涉及钱、时间、发布、付款、确认按钮、自动续费、图表涨跌幅和路线选择时,AI的回答只能当第一眼,不能当最终判断。

AI看图最危险的地方,不是它看不见。而是它看见了一部分,然后让你以为它全看懂了。

相关推荐
热点推荐
纪委已明确!党员干部这10种行为将从重或加重处分,碰不得!

纪委已明确!党员干部这10种行为将从重或加重处分,碰不得!

细说职场
2026-06-22 16:43:32
德德玛病逝3年了,两个儿子用3年的时间,给了继父最暖的晚年

德德玛病逝3年了,两个儿子用3年的时间,给了继父最暖的晚年

飘飘然的娱乐汇
2026-06-21 20:10:08
打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

打死也不能放冰箱10种食物,回家立刻拿出来,别拿家人健康开玩笑

小柱解说游戏
2026-06-16 07:38:45
死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

死亡之组大乱!日本 4-0 血洗对手,出线形势一夜之间全变了

十点体坛
2026-06-22 21:44:48
军事 | 难道,波兰与乌克兰开战?

军事 | 难道,波兰与乌克兰开战?

新民周刊
2026-06-22 12:05:10
千架无人机血洗俄本土,普京座机被锁定!俄方醒悟:斩首或成选项

千架无人机血洗俄本土,普京座机被锁定!俄方醒悟:斩首或成选项

赵或是个热血青年
2026-06-21 18:42:20
不知悔改!被中方制裁的菲防长,又大放厥词

不知悔改!被中方制裁的菲防长,又大放厥词

观察者网
2026-06-22 17:17:36
狂轰47分15板22助!男篮20岁天才后卫杀疯了:这2战让他媲美徐杰

狂轰47分15板22助!男篮20岁天才后卫杀疯了:这2战让他媲美徐杰

篮球快餐车
2026-06-22 02:25:17
老板娘问我她屁股翘不翘?我该怎么回答?

老板娘问我她屁股翘不翘?我该怎么回答?

太急张三疯
2026-06-22 11:04:30
这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

这么丑也能当明星?顺产头、大饼脸,简直颠覆我对演员的认知

翰飞观事
2026-06-22 22:08:29
事态升级!娜然被曝辱华,霍启刚评论区沦陷,郭晶晶态度说明一切

事态升级!娜然被曝辱华,霍启刚评论区沦陷,郭晶晶态度说明一切

翰飞观事
2026-06-22 16:53:50
2026年,结婚人数又破纪录了!

2026年,结婚人数又破纪录了!

巢客HOME
2026-06-21 07:20:07
湖人正式锁定顶级3D球员,对方刚淘汰掉湖人,双方已完成初步接洽

湖人正式锁定顶级3D球员,对方刚淘汰掉湖人,双方已完成初步接洽

史料布籍
2026-06-22 17:10:23
英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

英国首相斯塔默宣布辞职!上任不到两年,英国10年内将迎来第7位首相

极目新闻
2026-06-22 17:14:12
红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

红十七军军长张涛战场叛变投敌,建国后自首认错最终结局如何

磊子讲史
2026-06-18 17:11:27
出大事了!马科斯突遭晴天霹雳,菲律宾后院失火,解放军要出手了

出大事了!马科斯突遭晴天霹雳,菲律宾后院失火,解放军要出手了

酒话醉人
2026-06-22 12:24:54
辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

辽宁省930万退休人员养老金将迎2026年调整,看一看三年来的变化

虎哥闲聊
2026-06-21 18:41:46
美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

美加墨世界杯西班牙与沙特小组赛开打,全网都在找“开球嘉宾”李现在哪,网友的视频来了

极目新闻
2026-06-22 00:49:37
心理学上有个词叫:恐惧诉求(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用恐惧诉求)

心理学上有个词叫:恐惧诉求(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用恐惧诉求)

德鲁克博雅管理
2026-06-22 17:38:59
美联储,加息大消息!“大空头”,突发警告!

美联储,加息大消息!“大空头”,突发警告!

证券时报
2026-06-22 09:22:26
2026-06-22 22:35:00

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

头条要闻

成都2.3亿"天价"别墅流拍 原房主身份披露

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

时尚
亲子
教育
旅游
房产

汉密尔顿现身米兰 2027 男装周 Ralph Lauren 大秀,排场气场在线

亲子要闻

新生儿纸尿裤哪品牌好?2026真实口碑榜揭晓,好奇小森林优选推荐

教育要闻

刚刚!山西高考志愿填报时间公布!查分时间、入口请看这里!

旅游要闻

去过黑龙潭无数次,直到看完古树故事,才明白大家偏爱这里的缘由

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

无障碍浏览 进入关怀版
×