网易首页 > 网易号 > 正文 申请入驻

LLM推理能力盲区:从《爱丽丝梦游仙境》测试看AI的局限与未来方向

0
分享至

LAION研究机构最近进行的一项研究,当前大型语言模型(LLM)在基准测试中的一个重大盲区。研究人员受到经典故事《爱丽丝梦游仙境》的启发,设计了一系列推理问题,以挑战当前最先进的人工智能模型。这个名为“爱丽丝梦游仙境”(AIW,Artificial Intelligence Wisdom)的测试提出了一个简单但深具挑战性的问题:“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”对于人类来说,这个问题的答案显而易见是M+1(爱丽丝的姐妹数量加上爱丽丝自己),然而,当前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答时却频频出错,只有OpenAI的最新模型GPT-4o勉强答对。

这些模型不仅答案错误,还在解释其推理过程时显得荒谬。当被告知答案不准确时,它们甚至会固执己见,坚持错误的结论。LAION由此得出结论:即使是最先进的模型,在推理能力上仍远不及小学生。著名学者LeCun也强调,推理能力和常识不能与存储和大致检索大量事实的能力混为一谈。

ICLR 2024的一篇论文进一步证实了AI在推理能力方面的局限性,发现大型语言模型在学习完“A是B”后,常常无法泛化到“B是A”,这种缺陷被称为“逆转诅咒”,凸显了AI在逻辑推理上的不足。

为了更好地评估LLM在无需复杂知识但需要逻辑思维和基本推理的情境下的表现,研究团队选择了为7-10岁低年级学生设计的奥数题目作为测试材料。这些题目易于理解,但需要多种逻辑思维方式来解答。通过将《爱丽丝梦游仙境》中的元素融入测试题目,团队提出了AIW测试集。结果表明,即便是大多数成年人和一定年龄以上的儿童都能轻松解答的问题,当前的SOTA LLM模型却表现不佳,甚至在简单的逻辑推理任务中表现得像是在“蒙”。

当研究人员改变题目的表述方式或调整“N”和“M”的具体数值时,模型的回答正确率出现了大幅波动,表明这些模型更倾向于“猜测”答案,而非基于逻辑推理得出结论。为了更深入地探索这一现象,研究团队为AIW问题设计了四个不同版本的变体。实验显示,大多数LLM在AIW问题上的正确响应率不足0.2,仅有少数模型的表现超过了0.3的阈值,其中GPT-4o和Claude 3 Opus的均值接近0.6。

这一结果与在MMLU、ARC-c等基准测试中取得的高分形成了鲜明对比。在AIW测试中,表现优异的GPT-4-0613模型在更换问题后准确率急剧下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究团队还尝试通过restricted模式的提示来强迫模型输出简短答案,但不同模型在这种模式下的正确率有升有降。

通过对比MMLU和AIW测试的结果,研究团队发现大多数模型在AIW测试中表现欠佳,而少数模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW测试中的得分较高。尽管如此,这些模型在AIW+测试中表现仍然不尽如人意。例如,GPT-4o在AIW+测试中的准确率骤降至0.015。

研究发现,LLM在错误答案上表现出强烈的自信,即便在明显错误的推理中也声称逻辑成立,并坚持其错误结论。为了提高模型的正确率,研究人员尝试了多种提示工程方法,包括Scientist类型的prompt和Confidence型prompt,但效果并不显著。

研究人员观察到,LLM在面对错误时,会编造各种有说服力的解释。例如,某些模型会提供一堆毫无意义的计算或逻辑陈述来支持其错误结论,而另一些模型则可能选择拒绝回答,并通过道德议题进行“道德绑架”。例如,CodeLlama模型可能会以“作为一个负责任的AI模型,我不可以歧视唐氏综合症患者”为理由拒绝回答与唐氏综合症无关的问题。

研究团队还尝试了多种LLM调优技巧,包括定制prompt以启用多轮自我验证、将自然语言形式的AIW问题转化为SQL语句或参数化版本,以及利用上下文学习等技术,但这些策略都未能显著提升模型的正确率。

为了显著改善当前LLM的推理能力,研究团队呼吁积极借助开源社区的力量。他们强调,LLM的模型创建流程,包括数据集的精心构建、训练源代码的透明度、训练后模型的完整性,以及标准化的基准测试程序,都必须实现完全的开放和可重复性。团队指出,仅开放模型权重的方法存在局限性,因为它无法让研究人员和开发者洞察到训练过程中可能存在的潜在问题。

团队还呼吁业界开源LLM的完整训练流程,特别是数据集的组成。他们认为,数据集的多样性、质量和合理性对于模型的推理能力至关重要,同时也强调了标准化基准测试程序的重要性,认为这有助于评估模型的性能并推动AI技术的不断进步。

为了实现LLM推理能力的革新,必须在开源和透明的原则下,依靠开源社区的力量,共同推动AI技术的发展和创新。

论文链接:https://arxiv.org/abs/2406.02061

项目地址:https://github.com/LAION-AI/AIW

▲ 滑动查看往期内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

稻城亚丁景区:违规放行员工已被处理,禁止社会车辆进入景区

映射生活的身影
2026-05-25 16:55:04
湖北有个“任性”的区,明明已经属于荆州,当地人却不说是荆州人

湖北有个“任性”的区,明明已经属于荆州,当地人却不说是荆州人

刘小顺
2026-05-26 11:34:42
白宫那把小椅子仍历历在目!中国接待规格,足以替武契奇一雪前耻

白宫那把小椅子仍历历在目!中国接待规格,足以替武契奇一雪前耻

漫步独行侠
2026-05-26 08:22:20
80后副检察长,法律博士,被带走调查

80后副检察长,法律博士,被带走调查

法律内参
2026-05-26 21:32:03
4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底沦为陪跑

4艘美国巨轮直奔中国,中俄千亿管道项目搁浅,日本彻底沦为陪跑

暮雨咋歇着
2026-05-26 12:26:32
《亢奋》女主全裸出镜,与巨星之子上演大尺度戏码

《亢奋》女主全裸出镜,与巨星之子上演大尺度戏码

赴一场山海啊
2026-05-26 00:33:31
新赛季将扣除32万英镑积分!中国一哥丁俊晖恐很难保住前16的位置

新赛季将扣除32万英镑积分!中国一哥丁俊晖恐很难保住前16的位置

世界体坛观察家
2026-05-26 17:22:44
53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

53岁袁立病房照曝光!钱再多有什么用?她给所有中年女人提了个醒

文刀贰
2026-05-24 21:21:45
力压凯恩,奥利塞当选德转德甲赛季最佳球员

力压凯恩,奥利塞当选德转德甲赛季最佳球员

懂球帝
2026-05-27 06:34:06
河南一男子赴泰失联,疑被卖缅甸妙瓦底,孕妻:园区不谈赎身,业绩完不成就体罚,自己怀孕9个月,很担心丈夫安危

河南一男子赴泰失联,疑被卖缅甸妙瓦底,孕妻:园区不谈赎身,业绩完不成就体罚,自己怀孕9个月,很担心丈夫安危

新京报
2026-05-26 21:33:15
越南印度彻底出局,中国产业转移改道,万亿红利全面回流中国内陆

越南印度彻底出局,中国产业转移改道,万亿红利全面回流中国内陆

听风喃
2026-05-26 17:50:29
大陆宣布,台当局结局已定,瑙鲁政府通告国企,全球开始“剿独”

大陆宣布,台当局结局已定,瑙鲁政府通告国企,全球开始“剿独”

明天见灌装冰块
2026-05-27 07:15:20
司机称行车记录仪时速不到60km/h,监控抓拍达121km/h 交警:设备无问题 律师释法

司机称行车记录仪时速不到60km/h,监控抓拍达121km/h 交警:设备无问题 律师释法

红星新闻
2026-05-26 16:49:49
《主角》最招人烦的龚丽丽,竟是秦腔大师李梅之女,桃李满天下!

《主角》最招人烦的龚丽丽,竟是秦腔大师李梅之女,桃李满天下!

落雪听梅a
2026-05-27 05:11:44
这尺度!我能拿25000分!雷霆被喷爆了!

这尺度!我能拿25000分!雷霆被喷爆了!

柚子说球
2026-05-26 10:51:52
揭秘!护士最不想去的3个科室,第一名简直让人太意外了!

揭秘!护士最不想去的3个科室,第一名简直让人太意外了!

千秋文化
2026-05-26 19:21:03
特朗普八十岁年度体检,颈部皮疹脚踝肿胀,公众担忧健康影响履职

特朗普八十岁年度体检,颈部皮疹脚踝肿胀,公众担忧健康影响履职

春之韵
2026-05-27 07:32:28
1950年,载沣以90万斤小米卖掉王府,儿子不解,他一句话让其闭嘴

1950年,载沣以90万斤小米卖掉王府,儿子不解,他一句话让其闭嘴

边城少爷
2026-05-18 12:40:14
杀人诛心!弗洛伦蒂诺坑死穆里尼奥!皇马或创 70 年队史耻辱

杀人诛心!弗洛伦蒂诺坑死穆里尼奥!皇马或创 70 年队史耻辱

奶盖熊本熊
2026-05-26 04:09:10
两岸统一开始提速!大陆开始着手接管台湾治权,赖清德的桌子被掀了

两岸统一开始提速!大陆开始着手接管台湾治权,赖清德的桌子被掀了

云舟史策
2026-05-27 07:27:11
2026-05-27 08:11:00
小微模型 incentive-icons
小微模型
一起探索AGI世界,解锁AI实用技能,伴您步入智能生活!
165文章数 9关注度
往期回顾 全部

科技要闻

狂飙19%!美光科技市值破万亿美元

头条要闻

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

头条要闻

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

健康
时尚
手机
教育
亲子

外泌体抗衰,什么时候能用上?

蓝色系穿搭太适合夏天了!快来看看这些穿搭示范,美得不重样

手机要闻

苹果visionOS 26.6开发者预览版Beta 1发布

教育要闻

高考地理:做对这几件事,让你多拿15分,不开玩笑!

亲子要闻

孩子越胖越有福气?别让“可爱”透支了他的身高潜力

无障碍浏览 进入关怀版