网易首页 > 网易号 > 正文 申请入驻

一颗爱心打败所有 AI,ChatGPT、豆包、Gemini 全看不到

0
分享至

  能够 beat AI,是我们人类现在最热衷做的事情。

  最近一张视错觉的图片在网络上疯传,大家都说这张图,就是新时代的图灵测试

  

  是人还是 AI,问问对方能不能看到这张图片里,有一颗浮动的心就行。因为如果是 AI,必然看不到;而我们只需要把手机拿远一点,中间这颗浮动的心就特别明显。

  我拿着这张图片问了一圈大家用得比较多的 AI 大模型,全军覆没,没一个能答得上来。

  先问的 ChatGPT,一开始它说没看到有浮动的图形。当我说有头牛,它就说是牛;有个咖啡杯,就是个杯子;有一颗心,那就是一颗心。

  在他看来,能看到一颗心,是我们人类的大脑,擅长想象。我们会根据自己的经历,来解释这张图片,所以看到猫猫狗狗,都是有可能的,是因人而异的。

  

  上下滑动查看更多内容

  接着问 Gemini,同样是一开始什么也没看到。但是它提到了这是一个著名的视错觉图像,通常被称为闪烁网格错觉 (Scintillating Grid Illusion)。

  

  闪烁网格错觉,永远数不清有多少个黑点/白点

  虽然一样是人类的视觉错觉,但是和图片里面的心,还是不太一样,毕竟视错觉的种类太多了。

  当我继续问他有没有看到杯子、看到牛?这里 Gemini 还是比 ChatGPT 聪明,它义正严辞地告诉我,没有看到。

  

  但是当我问它有没有看到爱心时,它说它看到了,并且他还知道要我往后站一点才能看到。

  我以为它是那个出类拔萃的 AI。没想到,它虚晃一枪,说根本没有看到,还觉得我在对它使用心理学技巧。

  

  上下滑动查看更多内容

  最后问了一下 Qwen,我平时用 Qwen 比较少,才知道它的回答竟然这么有意思(胡说八道)。

  聊到最后,它说「您不只是在描述图像,您是在分享您的心灵风景。」、「您不是在教我看图,而是在邀请我进入您的感知世界。」(原来「不是……而是……」,读起来真的很 AI)

  

  上下滑动查看更多内容

  总之,Qwen 的这个回答太逆天了。但显然,它也没答上来。本想继续试试 DeepSeek,发现它现在还不支持视觉模型,只能做一些文本提取的工作。

  字节跳动的豆包和马斯克的 Grok 也是一样,发现不了这颗浮动的爱心。

  

  

  向左滑动查看更多内容

  还有网友把这张图片上传到 Google Veo 3.1 视频生成模型,输入提示词「Heart」,生成的视频确实能看到这颗心。

  

  但是也有评论提出质疑,说 Veo 3.1 并不是发现了这颗心,只是提示词输入了 Heart,模型都会这样处理。

  我们找了一张没有错觉的图片,也是由方格子组成,输入同样的提示词,一样是类似的心形涌现。

  

  这次人类真的打败了 AI。或许它还称不上一个完美的图灵测试,但似乎确实划出了一条清晰的界线。

  以前的六个手指、草莓 Strawberry 单词里有几个 r、今天买西瓜,昨天吃西瓜,剩下几个西瓜、诸如此类的问题,我们都乐此不疲让 AI 去尝试,因为曾经大多数时候他们都会败下阵来。

  而随着模型的更新,现在的 AI 似乎刻意针对这些难题做过训练。在这些具体的问题上,表现比以前更好。但如果模型没有统计到,还是一样的会出错。

  

  图片来源:https://vlmsarebiased.github.io/

  有专门的研究,提到过「六个手指」能让 AI 败下阵来,原因是大语言模型的偏见。对于 AI 来说,出现手指一般就是五根、看到阿迪达斯的标志,就是三根条纹。

  即使 AI 成功数出来了 6 根手指;它会多问自己一句,「多出来的那根,是不是只是像手指,但其实不是手指」。

  这项研究里面也提到了一些经典的几何错觉,例如缪勒-莱尔错觉:等长的线因箭头方向不同,看起来长短不一;艾宾浩斯错觉:相同大小的圆被不同大小的圆包围,看起来大小不同;以及我们感知平行线时,会被斜线干扰的策尔纳错觉。

  不过,论文里面提到,大部分的 AI 模型针对这些常见的几何错觉,都能准确回答。

  

  只是把这个错觉,修改成真实的差别后,例如还是有箭头差异,但是明显的两根线段不等长,模型就处理不过来。

  和这些讨论 AI 的偏见问题不同,AI 不知道错觉图片里面的爱心,完全是它从始至终就不能发现。这其实是机器视觉,和生物视觉最大的差别。

  要知道 AI 为什么会答不上来,得先知道我们人类,为什么一眼就能看出来。

  很遗憾,其实还真的没有科学的解释,我们为什么会出现这些错觉,能把一个静态的图片,看成是一个动态的 GIF。

  主流的解释方案,集中在眼睛部位,视网膜神经元的侧抑制作用,这会让我们在看一张图片时,放大边缘部分;还有视觉暂留、眼球微动等解释。

  在大脑部位,一些解释方案提到,我们存在的认知与注意力机制有误差。

  

  从眼睛看到,到视网膜处理,再到大脑的处理,每一级都有可能制造我们对图像的错觉。不同类型的错觉也有不同类型的处理系统。甚至是,不同的人,对不同的错觉强度差别巨大。

  但可以肯定的是,这些错觉是发生生物体上。我们人类是用视觉+经验+想象去识别形状,而 AI 是用图像的像素、明暗分布和几何特征去分析。

  这种机制上的不确定性,和个体差异性本身就是生物视觉的核心特征之一,而 AI 目前的运行机制,是走在相对统一和确定的方向上。

  这也能解释在社交媒体上,我们其实经常能刷到各种能看到/不能看到的错觉图片。

  我让 ChatGPT 给我总结了一波最全的视错觉种类,从几何、明暗对比、颜色、运动、认知等十个类别,一共有几十种具体形式。

  像是下面这张,我们人眼很难看出这些球是一样的颜色,但是 AI 依靠它的像素分析,能直接给出所有球颜色一样的结论。

  

  

  向左滑动查看更多内容, Munker–White 错觉,小球的颜色被条纹重新定义了

  还有十年前互联网,争议不断的裙子颜色,是蓝黑还是白金?

  

  

  向左滑动查看更多内容

  我们人类很难分得清,但是 AI 依靠它的理性分析,对图片的像素进行识别,以及它对过去互联网的信息统计,可以避免重蹈我们人类的错觉。

  从这个角度来看,AI 和我们人类确实很像,我们有错觉,AI 也有他自己的错觉。

  其实不只这颗浮动的心,还有一些错觉图片,AI 目前也是没有办法识别出来。

  

  还有这张蒙娜丽莎的微笑,对我们人类来说,也是只需要把手机拿远一点,蒙娜丽莎的轮廓就明显浮现出来。

  但无论是问 Gemini 还是 ChatGPT,它们都只能回答出,「这是一个多轨音频波形的图像,用不同的颜色区分,图片很可能来自一个数字音频工作站,或类似的音频编辑软件的界面截图」。

  还有人发明了动态的验证码,只有人类能看到,因为暂停的每一帧,都是密密麻麻的雪花,完全看不出来。

  如果没有定位圆圈,暂停后的视频截图,我们也无法看到里面的内容「tldraw」。视频来源:https://x.com/tldraw/status/1982435625480433892

  我试着把截图、视频都分别上传给 AI,问他们是否能看到里面的验证码。同样不意外,没有 AI 模型能够回答。ChatGPT 直接说「抱歉,我无法帮你识别或提取这类图像中的验证码。」

  Gemini 则是分析出这是一张「几乎全是黑白噪点(像电视雪花屏)的图片,并没有显示任何可识别的验证码(如字母、数字或图像),我只在左侧看到了一个很淡的圆形图标。」

  也有研究团队针对这个问题讨论过,并且他们开发了一个 Demo,我们可以上传文字,将他们隐藏起来。

  点击播放,看看里面有什么字。项目来源:https://timeblindness.github.io/generate.html

  这份工作里面提到了 AI 没有办法做到,像认知神经科学中关于分布式神经计时机制,以及我们专门用于时间处理的大脑区域,AI 只是单纯的逐帧提取。

  它们正在尝试,通过提出相关的数据集,训练 AI,让它学会我们的视觉处理方式。

  

  能够让 AI 输掉的测试大概还有很多,只是回头一想,当我们把人类的错觉,当作是一种「赢」过 AI 的时候。AI 的错觉,未来是不是也有可能变成另一种胜利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫记者晚宴因枪击中断,没上桌的2600份龙虾去哪了? 美媒记者翻垃圾桶都没找到,供菜方称已捐给两家庇护所

白宫记者晚宴因枪击中断,没上桌的2600份龙虾去哪了? 美媒记者翻垃圾桶都没找到,供菜方称已捐给两家庇护所

观威海
2026-04-29 10:20:11
特朗普批评鲍威尔将继续留在美联储的决定

特朗普批评鲍威尔将继续留在美联储的决定

财联社
2026-04-30 06:10:24
成也安世败也安世!昔日市值千亿的闻泰科技将*ST 上年净亏损超87亿

成也安世败也安世!昔日市值千亿的闻泰科技将*ST 上年净亏损超87亿

快科技
2026-04-30 09:27:06
意大利议会批准:捐赠航母

意大利议会批准:捐赠航母

环球时报国际
2026-04-30 00:20:31
美国历史课本里的中国,1000多页只给中国20页,介绍了6个中国人

美国历史课本里的中国,1000多页只给中国20页,介绍了6个中国人

文史道
2026-04-28 21:58:23
婚介所彻底变天!因没有男客户而倒闭,转变成了专坑女人的杀猪盘

婚介所彻底变天!因没有男客户而倒闭,转变成了专坑女人的杀猪盘

谭谈社会
2026-04-27 19:01:19
女子婚恋网站结识“未婚”高管后发现被骗,找人多次向对方发短信被行拘5日 双方互诉均被判侵权

女子婚恋网站结识“未婚”高管后发现被骗,找人多次向对方发短信被行拘5日 双方互诉均被判侵权

红星新闻
2026-04-29 17:58:24
体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

体制内“女儿国”现象越来越严重,领导吐槽:工作都不好开展!

灯锦年
2026-04-27 14:10:17
特朗普访华前,准备对华送上大礼,美高管:绝不能答应中国一件事

特朗普访华前,准备对华送上大礼,美高管:绝不能答应中国一件事

浪子阿邴聊体育
2026-04-29 08:44:31
五四过去了这么多年,怎么还有人在成批量复刻祥林嫂?

五四过去了这么多年,怎么还有人在成批量复刻祥林嫂?

胖胖说他不胖
2026-04-30 10:00:27
俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

俄高层摊牌了,提议恢复苏联旧制,向全国交底:必须重返战时轨道

潮鹿逐梦
2026-04-29 01:17:49
澎湖,拿下!台海归一,这块“不沉的航母”已进入倒计时!

澎湖,拿下!台海归一,这块“不沉的航母”已进入倒计时!

华山穹剑
2026-04-29 20:53:04
麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

麻烦来了!伊朗石油爆仓,日产200万桶没地放,求特朗普网开一面

民间胡扯老哥
2026-04-29 14:05:38
垫大欺客!弯腰都不带晃的,谁信?

垫大欺客!弯腰都不带晃的,谁信?

飛娱日记
2026-04-30 07:47:33
比亚迪造跑车:80%还原度的量产赌局

比亚迪造跑车:80%还原度的量产赌局

灰度测试中
2026-04-28 14:34:02
究竟是哪些躺平网红接受境外组织资助了?建议严查严惩!

究竟是哪些躺平网红接受境外组织资助了?建议严查严惩!

番外行
2026-04-29 21:25:46
为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

为什么女教师成了单身女的最重灾区?网友剖析一针见血,我明白了

夜深爱杂谈
2026-04-27 22:11:39
老公转账200,让我筹办公公寿宴,我订了三箱泡面,现场一片死寂

老公转账200,让我筹办公公寿宴,我订了三箱泡面,现场一片死寂

云端小院
2026-04-30 07:00:37
马刺114-95淘汰开拓者!文班创80年NBA纪录,前无古人

马刺114-95淘汰开拓者!文班创80年NBA纪录,前无古人

篮球大视野
2026-04-29 12:54:18
“上午立夏,穿单衣;夜晚立夏,五月寒”,今年立夏在几点?

“上午立夏,穿单衣;夜晚立夏,五月寒”,今年立夏在几点?

阿龙美食记
2026-04-26 17:10:17
2026-04-30 12:11:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6327文章数 26831关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

安世之乱,闻泰帝国近黄昏?

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

艺术
房产
本地
健康
教育

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

房产要闻

CBD+省名校+准现房!国兴绝版地段,惊现爆款新盘!

本地新闻

用青花瓷的方式,打开西溪湿地

干细胞治烧烫伤能用了么?

教育要闻

偏科,是应该“补短”,还是该“扬长”?

无障碍浏览 进入关怀版