网易首页 > 网易号 > 正文 申请入驻

LLM推理能力盲区:从《爱丽丝梦游仙境》测试看AI的局限与未来方向

0
分享至

LAION研究机构最近进行的一项研究,当前大型语言模型(LLM)在基准测试中的一个重大盲区。研究人员受到经典故事《爱丽丝梦游仙境》的启发,设计了一系列推理问题,以挑战当前最先进的人工智能模型。这个名为“爱丽丝梦游仙境”(AIW,Artificial Intelligence Wisdom)的测试提出了一个简单但深具挑战性的问题:“爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?”对于人类来说,这个问题的答案显而易见是M+1(爱丽丝的姐妹数量加上爱丽丝自己),然而,当前的主流模型,包括GPT-3.5/4、Claude、Gemini、Llama、Mistral等,在回答时却频频出错,只有OpenAI的最新模型GPT-4o勉强答对。

这些模型不仅答案错误,还在解释其推理过程时显得荒谬。当被告知答案不准确时,它们甚至会固执己见,坚持错误的结论。LAION由此得出结论:即使是最先进的模型,在推理能力上仍远不及小学生。著名学者LeCun也强调,推理能力和常识不能与存储和大致检索大量事实的能力混为一谈。

ICLR 2024的一篇论文进一步证实了AI在推理能力方面的局限性,发现大型语言模型在学习完“A是B”后,常常无法泛化到“B是A”,这种缺陷被称为“逆转诅咒”,凸显了AI在逻辑推理上的不足。

为了更好地评估LLM在无需复杂知识但需要逻辑思维和基本推理的情境下的表现,研究团队选择了为7-10岁低年级学生设计的奥数题目作为测试材料。这些题目易于理解,但需要多种逻辑思维方式来解答。通过将《爱丽丝梦游仙境》中的元素融入测试题目,团队提出了AIW测试集。结果表明,即便是大多数成年人和一定年龄以上的儿童都能轻松解答的问题,当前的SOTA LLM模型却表现不佳,甚至在简单的逻辑推理任务中表现得像是在“蒙”。

当研究人员改变题目的表述方式或调整“N”和“M”的具体数值时,模型的回答正确率出现了大幅波动,表明这些模型更倾向于“猜测”答案,而非基于逻辑推理得出结论。为了更深入地探索这一现象,研究团队为AIW问题设计了四个不同版本的变体。实验显示,大多数LLM在AIW问题上的正确响应率不足0.2,仅有少数模型的表现超过了0.3的阈值,其中GPT-4o和Claude 3 Opus的均值接近0.6。

这一结果与在MMLU、ARC-c等基准测试中取得的高分形成了鲜明对比。在AIW测试中,表现优异的GPT-4-0613模型在更换问题后准确率急剧下降,即使是高分模型如GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B也未能幸免。研究团队还尝试通过restricted模式的提示来强迫模型输出简短答案,但不同模型在这种模式下的正确率有升有降。

通过对比MMLU和AIW测试的结果,研究团队发现大多数模型在AIW测试中表现欠佳,而少数模型如Llama2-70B、GPT-4、GPT-4o和Claude 3在AIW测试中的得分较高。尽管如此,这些模型在AIW+测试中表现仍然不尽如人意。例如,GPT-4o在AIW+测试中的准确率骤降至0.015。

研究发现,LLM在错误答案上表现出强烈的自信,即便在明显错误的推理中也声称逻辑成立,并坚持其错误结论。为了提高模型的正确率,研究人员尝试了多种提示工程方法,包括Scientist类型的prompt和Confidence型prompt,但效果并不显著。

研究人员观察到,LLM在面对错误时,会编造各种有说服力的解释。例如,某些模型会提供一堆毫无意义的计算或逻辑陈述来支持其错误结论,而另一些模型则可能选择拒绝回答,并通过道德议题进行“道德绑架”。例如,CodeLlama模型可能会以“作为一个负责任的AI模型,我不可以歧视唐氏综合症患者”为理由拒绝回答与唐氏综合症无关的问题。

研究团队还尝试了多种LLM调优技巧,包括定制prompt以启用多轮自我验证、将自然语言形式的AIW问题转化为SQL语句或参数化版本,以及利用上下文学习等技术,但这些策略都未能显著提升模型的正确率。

为了显著改善当前LLM的推理能力,研究团队呼吁积极借助开源社区的力量。他们强调,LLM的模型创建流程,包括数据集的精心构建、训练源代码的透明度、训练后模型的完整性,以及标准化的基准测试程序,都必须实现完全的开放和可重复性。团队指出,仅开放模型权重的方法存在局限性,因为它无法让研究人员和开发者洞察到训练过程中可能存在的潜在问题。

团队还呼吁业界开源LLM的完整训练流程,特别是数据集的组成。他们认为,数据集的多样性、质量和合理性对于模型的推理能力至关重要,同时也强调了标准化基准测试程序的重要性,认为这有助于评估模型的性能并推动AI技术的不断进步。

为了实现LLM推理能力的革新,必须在开源和透明的原则下,依靠开源社区的力量,共同推动AI技术的发展和创新。

论文链接:https://arxiv.org/abs/2406.02061

项目地址:https://github.com/LAION-AI/AIW

▲ 滑动查看往期内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瑞银:中国接近半数家庭房产处于账面亏损状态

瑞银:中国接近半数家庭房产处于账面亏损状态

互联网大观
2025-11-04 13:43:22
胖东来“倪妮”辞职了,自爆的一些细节,远比你想象的要复杂

胖东来“倪妮”辞职了,自爆的一些细节,远比你想象的要复杂

皮蛋儿电影
2025-11-06 22:08:02
于谦财务暴雷仅 4 天,郭德纲近况曝出,原来他俩真的不是一路人

于谦财务暴雷仅 4 天,郭德纲近况曝出,原来他俩真的不是一路人

律便利
2025-11-04 16:50:03
高铁1A座被指面壁座,乘客:体验不佳,中途不得不站立乘车;12306回应

高铁1A座被指面壁座,乘客:体验不佳,中途不得不站立乘车;12306回应

上观新闻
2025-11-05 11:59:04
美国“最有权力副总统”去世,将美国拖入战争泥潭,对华呈两面性

美国“最有权力副总统”去世,将美国拖入战争泥潭,对华呈两面性

凤凰WEEKLY
2025-11-06 17:32:00
宇宙队不再!伤兵满营的大巴黎,被巴萨传染了?

宇宙队不再!伤兵满营的大巴黎,被巴萨传染了?

仰卧撑FTUer
2025-11-06 22:05:07
军迷又成“小丑”!满旗都撤了,福建舰咋就一声不响地服役了呢?

军迷又成“小丑”!满旗都撤了,福建舰咋就一声不响地服役了呢?

利刃号
2025-11-06 18:37:20
叫板川普,马姆达尼先带纽约人体验委内瑞拉“免费”价格

叫板川普,马姆达尼先带纽约人体验委内瑞拉“免费”价格

移光幻影
2025-11-06 08:10:33
菲律宾宣布进入国家灾难状态

菲律宾宣布进入国家灾难状态

环球网资讯
2025-11-06 10:44:01
试驾特斯拉Model Y L:驾控打破平衡、第三排舒适欠佳,高速满电跑500公里

试驾特斯拉Model Y L:驾控打破平衡、第三排舒适欠佳,高速满电跑500公里

驾仕派
2025-11-06 17:35:42
全运会:徐杰29分广东大胜江苏 赵睿胡明轩19中2王睿泽27+11

全运会:徐杰29分广东大胜江苏 赵睿胡明轩19中2王睿泽27+11

醉卧浮生
2025-11-06 21:26:40
桑切斯贝佐斯甜蜜牵手,邓文迪和伊万卡一起喝咖啡,米兰达可儿美

桑切斯贝佐斯甜蜜牵手,邓文迪和伊万卡一起喝咖啡,米兰达可儿美

丰谭笔录
2025-11-06 11:34:24
《依依向北风》大反转!本以为盛雪竹是惊喜,没想到却是张雅丹

《依依向北风》大反转!本以为盛雪竹是惊喜,没想到却是张雅丹

丹妮观
2025-11-05 20:21:04
他以旅长职务离开前线,重返后当兵团副司令,评级多少受点影响?

他以旅长职务离开前线,重返后当兵团副司令,评级多少受点影响?

大运河时空
2025-11-05 21:40:03
表弟买了一套毛坯房,出差1年回去时发现房子竟然已经装修完

表弟买了一套毛坯房,出差1年回去时发现房子竟然已经装修完

小秋情感说
2025-11-06 14:27:17
杭州婚宴翻车了:新娘换装85分钟,22桌宾客走了一半,网友:活该

杭州婚宴翻车了:新娘换装85分钟,22桌宾客走了一半,网友:活该

刘哥谈体育
2025-11-02 14:32:38
龙赛罗:四支西甲球队本轮欧冠表现糟糕,我们只顾着自视甚高

龙赛罗:四支西甲球队本轮欧冠表现糟糕,我们只顾着自视甚高

懂球帝
2025-11-06 22:29:19
荷兰光刻机新规,震动全球芯片业,中国供应链自给已经按下加速键

荷兰光刻机新规,震动全球芯片业,中国供应链自给已经按下加速键

墨兰史书
2025-11-06 22:05:03
持续布局!省长赴上海参加活动期间,会见贺东风

持续布局!省长赴上海参加活动期间,会见贺东风

政知新媒体
2025-11-05 22:25:09
学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

周哥一影视
2025-10-23 12:39:17
2025-11-06 22:47:00
小微模型 incentive-icons
小微模型
一起探索AGI世界,解锁AI实用技能,伴您步入智能生活!
143文章数 9关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

"迷你共享摩托"现身长沙 投放公司:车辆是共享电动车

头条要闻

"迷你共享摩托"现身长沙 投放公司:车辆是共享电动车

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

家居
旅游
本地
手机
军事航空

家居要闻

别样府院 畅享诗意生活

旅游要闻

明天12时4分,仙游将迎来…

本地新闻

这届干饭人,已经把博物馆吃成了食堂

手机要闻

苹果iPhone Fold折叠屏明年发,智能家居新配件现身

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版