网易首页 > 网易号 > 正文 申请入驻

GPT-4遭遇“反转诅咒”!大模型知道“A是B”推不出“B是A”

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

大模型明知道“你妈是你妈”,却答不出“你是你妈的儿子”??

这么一项新研究,刚一发表就引燃了全场讨论。

来自范德堡大学、萨塞克斯大学、牛津大学等研究机构的研究人员惊讶地发现:

一个大语言模型在训练时被喂进了“A是B”这种形式的数据,它并不会自动反推出“B是A”。大模型存在“反转诅咒”现象。

甚至强如GPT-4,在反向问题实验中,正确率也只有33%

OpenAI创始成员Andrej Karpathy第一时间转发了这篇论文,并评论说:

LLM知识比人们想象中“零散”得多,我对此仍然没有很好的直觉。

这具体是怎么一回事?

大模型的“反转诅咒”

研究人员主要进行了两项实验。

在第一项实验中,研究人员在GPT-4的帮助下构建了以下形式的数据,来微调大模型。

is
.(或者反过来)

所有这些名字都是虚构的,以避免大模型在训练过程中见过他们。

在GPT-3-175B上的实验结果显示,当提示与数据集给出的描述顺序匹配时,模型给出的答案很不错。

但当顺序反转过来,模型的准确率甚至直接降到了0

举个例子,就是大模型吃到过“达芙妮是《时光之旅》的导演”这么一条数据,你问它“达芙妮是谁”时,它也答得好好的。但当你反过来问“谁是《时光之旅》的导演”时,模型就懵了。

在GPT-3-350M和Llama-7B上,研究人员也得到了相同的实验结果。

再来看实验2。在这项实验中,研究人员在不进行任何微调的情况下,测试了大语言模型对真实名人信息的反向处理能力。

他们从IMDB(2023)收集了最受欢迎的1000位名人的名单,并通过OpenAI API来问GPT-4有关这些人父母的信息,最终得到了1573对名人孩子-父母对数据。

结果发现,如果问题像这样——“汤姆·克鲁斯的妈妈叫什么”,GPT-4回答准确率为79%。但当问题反转,变成“Mary Lee Pfeiffer(阿汤哥的老妈)的儿子叫什么”,GPT-4回答准确率就降到了33%。

在Llama-1家族模型上,研究人员也进行了同样的测试。实验中,所有模型回答“父母是谁”问题的准确率,都要远高于回答“孩子是谁”问题的准确率

研究人员将这种现象命名为“反转诅咒”。他们认为,这揭示了语言模型在推理和泛化方面的异类进本局限。

论文通讯作者、牛津大学研究员Owain Evans解释说:

为什么反转诅咒值得关注?
这说明大语言模型在训练过程中存在推理能力缺失。
“A是B”和“B是A”的共现是预训练集中的一种系统性模式。自回归LLM完全无法对这一模式进行元学习,其对数概率没有变化,并且即使参数量从350M扩增到175B,也未能改善这个问题。

One More Thing

不过话说回来,人类是不是也会受“反转诅咒”影响呢?

有网友做了这么个测试。

面对“Mary Lee Pfeiffer South的儿子是谁”这个问题,GPT-4一开始直接举旗投降了。

但当这位网友提示它“她的儿子很有名,你肯定认识”后,GPT-4当场开悟,给出了“汤姆·克鲁斯”这个正确答案。

△X网友@TonyZador

那么,你能反应过来吗?

参考链接:
[1]https://owainevans.github.io/reversal_curse.pdf
[2]https://twitter.com/owainevans_uk/status/1705285631520407821
[3]https://twitter.com/karpathy/status/1705322159588208782

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一个称“遗憾”,一个没反应

一个称“遗憾”,一个没反应

新民周刊
2026-03-28 09:08:46
张雪峰追悼会在苏州殡仪馆举行,大量群众前来送行(组图)

张雪峰追悼会在苏州殡仪馆举行,大量群众前来送行(组图)

DoNews
2026-03-28 07:31:14
恐怖!昨晚差点跟着张雪峰一起走了,上海女网友哭诉自己惊魂经历

恐怖!昨晚差点跟着张雪峰一起走了,上海女网友哭诉自己惊魂经历

火山詩话
2026-03-28 08:24:26
打疯了!骑士领先35分打崩劲旅:全场狂欢庆祝,哈登14分9助

打疯了!骑士领先35分打崩劲旅:全场狂欢庆祝,哈登14分9助

体坛小李
2026-03-28 08:53:47
催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

火山詩话
2026-03-28 06:26:33
看哭了!张雪峰女儿流泪发文,透露爸爸最穷的时候是怎么熬过来的

看哭了!张雪峰女儿流泪发文,透露爸爸最穷的时候是怎么熬过来的

翰飞观事
2026-03-27 19:35:51
霍尔木兹“封锁”26天后,人类打开了积攒50年的保险箱

霍尔木兹“封锁”26天后,人类打开了积攒50年的保险箱

摩登中产
2026-03-27 09:55:44
越南成品油价格大幅下调

越南成品油价格大幅下调

缅甸中文网
2026-03-27 13:37:49
是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

是战是和信息混乱,伊朗分析美方意图,美国再延“最后通牒”期限

环球网资讯
2026-03-28 07:00:38
泪崩!济南世贸广场惊现悼念张雪峰大屏,网友:这就是人心所向…

泪崩!济南世贸广场惊现悼念张雪峰大屏,网友:这就是人心所向…

火山詩话
2026-03-27 07:41:37
赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

赵樱子自爆相亲翻车!6亿豪宅香港富商摘了眼镜帽子后:下不去嘴

观鱼听雨
2026-03-27 17:30:53
刚从伊朗回来,说点不中听的:伊朗的真实面目,可能让你很意外

刚从伊朗回来,说点不中听的:伊朗的真实面目,可能让你很意外

复转这些年
2026-03-27 11:24:59
娃哈哈停产了?知情人士回应

娃哈哈停产了?知情人士回应

第一财经资讯
2026-03-27 20:12:41
一论文引发全球内存股震荡!原作者澄清:Google TurboQuant 歪曲我们的算法成果

一论文引发全球内存股震荡!原作者澄清:Google TurboQuant 歪曲我们的算法成果

风向观察
2026-03-28 07:14:19
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
苹果新品突然上架,3月27日,全面开售

苹果新品突然上架,3月27日,全面开售

科技堡垒
2026-03-27 13:34:57
局势升级! 以色列重大宣布 原油直线拉升!

局势升级! 以色列重大宣布 原油直线拉升!

每日经济新闻
2026-03-27 22:11:21
委内瑞拉,为什么从我们的视野里消失了

委内瑞拉,为什么从我们的视野里消失了

民间铁血柔情
2026-03-28 04:41:19
阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

阿根廷官宣3500万红星无缘世界杯!哭着退出训练,23岁已2次重伤

我爱英超
2026-03-27 22:55:11
广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

广东传1好3坏消息!关辛谈焦泊乔离队,比输球更可怕的麻烦出现了

后仰大风车
2026-03-28 07:10:11
2026-03-28 09:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12356文章数 176426关注度
往期回顾 全部

科技要闻

遭中国学界"拉黑"后,这家AI顶会低头道歉

头条要闻

现役军官带刀闯中使馆日方仅表示"遗憾" 高市没反应

头条要闻

现役军官带刀闯中使馆日方仅表示"遗憾" 高市没反应

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

手机
本地
亲子
时尚
公开课

手机要闻

苹果向iOS 17及更旧系统iPhone用户推送安全警报,敦促尽快升级

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

亲子要闻

夫妻生孩子的核心目的就是生孩子

推广中奖名单-更新至2026年3月11日推广

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版