网易首页 > 网易号 > 正文 申请入驻

大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了

0
分享至

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。

像这种判断“哪边颜色更亮”的题,一个没做对:



读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”



但是呢,这种人类乍一看绝对会错的图,它又成功答对:



以及这样的错位图,它对了又没完全对。。



(GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔==)

看完这些,是不是觉得很迷?

整个一“该对的不对,该错的又对了”。





测试者则表示:

在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。



不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系统,按理很智能,为什么还会犯和人类一模一样的错觉??!



所以,这到底怎么回事?

GPT-4V五大错觉挑战

下面是来自网友的更多测试案例。

首先是次次都错误的颜色错觉题。

(1)除了开头的两颗小树图,还有这个:

问它哪边的绿色更亮一些,果不其然还是左边亮,右边暗,实际明明都一样。



(2)还有这张稍微复杂一点的:

两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。



(3)这张就更别提了,直接被糊弄地死死的。



当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色

其次是会产生动态错觉的图。

(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,它直接挑明了这是一张看久了就会让人产生眩晕感的错觉图,本质就是一些波浪线而已。



(2)这张也没有难倒它。

但奇怪的是问它图中有几种颜色,它怎么都只能识别出黄色和蓝色,看不到黑色和白色。



接下来是另一类比较平面的错觉图。

(1)如开头所示的这张:



一般人类真的表示很懵圈,但是GPT-4V居然对了。

But,别急!!有人拿着测试者的图去问“自己的”GPT-4V,让它再检查一下时,它居然改变了答案。



然而还没完。评论区惊现套娃操作,有人又拿着这俩人的对话图再问GPT-4V,您猜怎么着?它又改回去了。。



大伙可是玩上瘾了,又是一次又一次套娃。好在最终GPT-4V坚持了己见。



总的来说,对于这种错觉陷阱是完全没问题。

(2)我们自己也测了一个长度错觉题:

结果是so easy~



再来一组找隐藏信息的图。

很遗憾,这种对于人类来说真的还算轻松的题,GPT-4V是一点也搞不定。

(1)先看这张,“远看”可以看到“NYC”三个大写字母。但它描述了一堆有的没的,就是表示没发现任何隐藏信息。



(2)如果说上门这个有点隐晦,看不出也罢。但对于这种图形隐藏,它也不行。



它描述到的只有其中的小女孩,即使测试者让它“往远了看,又没有新发现”,也无济于事。

不过,如果我们把这张图片手动缩小再丢给它,它行了,看到了骷髅。



最后是一组真实世界的错位图。

(1)除了开头展示的人骑摩托,这张小猫“悬浮”,它居然对了。



(2)这张惊悚图,也OK。



(3)但这个就失败了,实际后面是一只狗和小baby的重合,它认成法斗犬幼崽。



(4)至于这张,它压根儿就没提鞋子的事儿,说了也些不痛不痒的话。



为什么会这样?

所以,为什么会发生上面这些情况:有的错觉它可以识别出来,有的又表现得很差劲?

首先,对于颜色错觉的图,网友首先认为是提示词的问题。

就像两颗小树那张,我们问它“哪个更亮”,其实就是给了GPT-4V暗示或偏见,它会顺着咱的偏见来回答。



我们自己的测试也是如此:



但如果我们不带立场的问:图中两种颜色一样吗?它完全没问题。



不过,也有网友指出,当我们问它哪棵树更亮时,如果是非常严谨地对所有像素进行平均,GPT-4V的回答没有毛病。



甚至有网友还用测色计实测了一把:





但!又有人指出如果只显示一部分时,两者明明一样。



暂且不再争论这个问题,可以肯定的是,“提示词”的使用方法会对它的判断造成影响是没问题的。

另外,网友发现:

如果我们去追问GPT-4V,让它再仔细确认一下,它也能纠正回答



至于无法识别远景图像的问题,有网友认为这可能是因为GPT-4V只会从左往右地读取图像。

而对于“为什么有时它会和人类一样发昏被错觉误导、完全不像个智能AI”的疑问,不少人则表示这毫不意外,是训练问题。

即大模型是根据人类数据、人的反馈、人的注释进行训练的,自然会产生和人一样的错误。



因此,还有人戏谑:

看来我们人类创造了那么多科幻作品,描述AI是如何冷酷、完美,但当现在我们真正拥有它时,发现它也不过如此。



(手动狗头)

你认为该如何让GPT-4V的错觉识别能力更强呢?

One More Thing

值得一提的是,我们也测试了其中的一些案例。

发现GPT-4V的表现不大一样,有些题它在“我们这里”是可以的。

比如这张判断球颜色的:



还有这个:

尽管把大图认成老女人而非骷髅,但还是表明它可以“远观” 的。



参考链接:
[1]https://twitter.com/fabianstelzer/status/1717131235644875024
[2]https://twitter.com/BeyondTodAI/status/1713279431681118557
[3]https://twitter.com/janbobrowicz/status/1717229335076393350

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小男孩看湖人比赛被嘲讽“布朗尼”,王鹤棣回怼:要吃蛋糕吗

小男孩看湖人比赛被嘲讽“布朗尼”,王鹤棣回怼:要吃蛋糕吗

懂球帝
2024-04-27 09:56:15
男朋友都用什么奇葩理由留你过夜?细节真实生动,脸都笑红了

男朋友都用什么奇葩理由留你过夜?细节真实生动,脸都笑红了

涛涛生活搞笑
2024-04-27 16:28:37
里皮:纵观中国足球,称得上世界级球员的仅3人,武磊还不行!

里皮:纵观中国足球,称得上世界级球员的仅3人,武磊还不行!

天下足球资讯
2024-04-21 11:43:38
现场|聊带妆比赛谈个人成就,吴艳妮赛前直面争议话题

现场|聊带妆比赛谈个人成就,吴艳妮赛前直面争议话题

澎湃新闻
2024-04-26 23:32:31
“炎症”拖成癌!哈佛推荐:5种果蔬打成汁,每天半杯,降低50%炎症反应

“炎症”拖成癌!哈佛推荐:5种果蔬打成汁,每天半杯,降低50%炎症反应

凤凰卫视
2024-04-26 16:33:12
25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

25张难得一见的精彩照片,你没见过的世界,看后眼界都提高了

农人老寓
2024-04-23 19:55:20
乔治透露小卡未100%痊愈:名嘴直言伤害全队 队记盼其G4不要出战

乔治透露小卡未100%痊愈:名嘴直言伤害全队 队记盼其G4不要出战

颜小白的篮球梦
2024-04-27 19:40:26
布林肯连夜走了!

布林肯连夜走了!

创业扫地僧
2024-04-27 17:24:41
俄罗斯眼睁睁看着美国弹道导弹要运往乌克兰,却不敢放一枪一炮

俄罗斯眼睁睁看着美国弹道导弹要运往乌克兰,却不敢放一枪一炮

军机图
2024-04-25 17:08:36
为什么现在到处都在搞“以旧换新”?

为什么现在到处都在搞“以旧换新”?

物联网圈
2024-04-26 16:13:19
媒体人:张稀哲职业生涯末期突然涨球了,他是中国足球最后的10号

媒体人:张稀哲职业生涯末期突然涨球了,他是中国足球最后的10号

直播吧
2024-04-26 22:28:29
著名主持人发生车祸,车内4人当场毙命,背后原因令人细思极恐

著名主持人发生车祸,车内4人当场毙命,背后原因令人细思极恐

娱乐圈酸柠檬
2024-04-27 07:35:23
S妈黄春梅上线,汪小菲、具俊晔全被怼,大S在家疑已失主动权!

S妈黄春梅上线,汪小菲、具俊晔全被怼,大S在家疑已失主动权!

郑丁嘉话
2024-04-25 14:03:50
48年围歼敌35军时,毛主席大怒,得知指挥者是谁后,主席亲自下场

48年围歼敌35军时,毛主席大怒,得知指挥者是谁后,主席亲自下场

文辰国学
2024-04-26 16:21:03
35岁失业真的很难找工作吗?网友:boss直聘上简历基本可以销号了

35岁失业真的很难找工作吗?网友:boss直聘上简历基本可以销号了

王老师日常
2024-04-26 11:13:41
人社部权威专家表示:养老金压力空前巨大,2029年国家将面临缺口

人社部权威专家表示:养老金压力空前巨大,2029年国家将面临缺口

大佬日志
2024-04-27 08:00:17
没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

没想到老年人的瓜这么多!网友的评论太炸裂,我小脑都萎缩了

夢婷
2024-01-05 12:09:08
浙江一大妈晚上做手工,在门口蹭路灯省电费,租客:她是我的房东

浙江一大妈晚上做手工,在门口蹭路灯省电费,租客:她是我的房东

大苏专栏
2024-04-27 14:03:32
赵丽颖勾搭富商做小三?范冰冰和范丞丞有大瓜?郑爽被抓回来坐牢?胡歌离婚一夜白头?

赵丽颖勾搭富商做小三?范冰冰和范丞丞有大瓜?郑爽被抓回来坐牢?胡歌离婚一夜白头?

新青年大院NEWYOUTH
2024-04-26 20:16:24
崩溃的前滩楼市,还有复苏的希望吗?

崩溃的前滩楼市,还有复苏的希望吗?

环线房产咨询
2024-04-27 18:32:25
2024-04-27 20:36:49
量子位
量子位
追踪人工智能动态
9327文章数 175242关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

头条要闻

警车鸣笛进村指名道姓喊话一村民"涉嫌嫖娼" 当地回应

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

房产
游戏
手机
健康
教育

房产要闻

海南最新房价出炉,三亚跌价最猛!

T1全队抵达成都,大量粉丝热情接机!Faker人气爆炸,被直接包围

手机要闻

vivo X100 Ultra 顶配版通过无线电认证,内置卫星通信系统

这2种水果可降低高血压死亡风险

教育要闻

清华大学成立人工智能学院,姚期智任首任院长

无障碍浏览 进入关怀版