网易首页 > 网易号 > 正文 申请入驻

AI 推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理

0
分享至

大语言模型真的可以推理吗?LLM 都是“参数匹配大师”?苹果研究员质疑 LLM 推理能力,称其“不堪一击”!

苹果的研究员 Mehrdad Farajtabar 等人最近发表了一篇论文,对大型语言模型 (LLM) 的推理能力提出了尖锐的质疑,他认为,LLM 的“推理” 能力,其实只是复杂的模式匹配,不堪一击!

论文作者研究了包括 Llama、Phi、Gemma、Mistral 等开源模型,以及 GPT-4o 和 o1 系列等闭源模型。需要指出的是,在 OpenAI 发布 GSM8K 的三年里,模型的性能有了显著提升,从 GPT-3 (175B) 的 35% 提升到了现在 30 亿参数模型的 85% 以上,更大的模型甚至超过了 95%。但 Farajtabar 认为,这并不能证明 LLM 的推理能力真的提高了

为了测试 LLM 的数学推理能力的极限,Farajtabar 和他的团队开发了一个名为GSM-Symbolic的新工具,它可以根据 GSM8K 测试集创建符号模板,从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合,这些集合本质上就像 GSM8K 示例,但具有不同的值和名称

GSM8K 是 “Grade School Math 8K” 的缩写,是一个用来评估数学问题解决能力的数据集。这个数据集主要包含小学级别的数学题目(大约 8,000 道题目),通常用于训练和测试机器学习模型,特别是在自然语言处理领域的模型如何处理和解决数学问题
实验结果,令人大跌眼镜:

1.当前 GSM8K 的准确率并不可靠!不同模型在 GSM8K 上的表现差异巨大,例如 Llama 8B 的得分在 70% 到 80% 之间,Phi-3 的得分在 75% 到 90% 之间,等等。对于大多数模型,在 GSM-Symbolic 上的平均性能低于在 GSM8K 上的平均性能

2.所谓的 LLM 推理能力不堪一击!LLM 对专有名词和数字的更改非常敏感,这说明它们并没有真正理解数学概念。就像一个小学生,如果我们只是更改了数学测试题中的人名,他的分数就会下降 10% 吗?显然不会

3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为:删除一个分句(GSM-M1)、增加一个分句(GSM-P1)或增加两个分句(GSM-P2),模型的性能下降,方差上升,这意味着模型的可靠性越来越差

4.引入 GSM-NoOp 后,模型性能断崖式下跌!GSM-NoOp 是在 GSM-Symbolic 的基础上,添加了一个看似相关但不影响整体推理的子句。所有模型,包括 o1 模型,都表现出了显著的性能下降。这说明,即使是强大的 o1 模型,也无法真正理解数学问题的逻辑结构

5.即使是 OpenAI 的 o1 系列模型,也无法完全避免这些问题。o1-preview 虽然有所改进,但仍然会犯一些低级错误,例如无法理解“现在”和“去年”的区别,这可能是因为训练数据中包含了“通货膨胀”的模式,模型只是简单地模仿了这种模式

Farajtabar 认为,

LLM 的这些表现,更好地解释是复杂的模式匹配,而不是真正的逻辑推理。 即使我们增加数据、参数和计算量,或者使用更好的训练数据,也只是得到了“更好的模式匹配器”,而不是“更好的推理器”

Denny Zhou (谷歌 DeepMind 的 LLM 推理团队负责人) 也参与了讨论,他指出:

“这项工作的一个关键发现是:向 GSM8k 问题添加不相关的上下文会导致 LLM 无法解决这些问题,正如我们在 ICML 2023 年的论文‘大型语言模型很容易被不相关的上下文分散注意力’ (http://arxiv.org/abs/2302.00093) 中所证明的那样。提示构建的差异在我看来仍然很有趣。”

Yuandong Tian (Meta AI 的研究科学家总监) 也表达了他的观点:

“核心问题是:1️⃣凭借我们的领域知识,我们可以构建权重,使 LLM 在特定问题中进行良好的推理;2️⃣然而,梯度下降可能无法学习到这样的权重;3️⃣我们仍然依赖梯度下降,因为它为许多领域带来了魔力——如果它在其他领域变得愚蠢,我们也无能为力。”

结论

总的来说,这篇论文研究结果没有在包括 Llama、Phi、Gemma 和 Mistral 等开源模型,以及最近的 OpenAI GPT-4o 和 o1 系列等领先闭源模型在内的语言模型中,找到任何形式推理的证据。他们的行为可以用复杂的模式匹配来更好地解释——如此脆弱,以至于更改名称都会使结果改变约 10%!我们可以扩展数据、参数和计算量——或者为 Phi-4、Llama-4、GPT-5 使用更好的训练数据。但这可能只会产生“更好的模式匹配器”,而不是“更好的推理器”

论文作者还预告了即将发布数据,更详细的内容可以参考论文全文:https://arxiv.org/pdf/2410.05229

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“正常男生不会这样坐”,家长晒学霸儿子,被调侃:已预定图灵班

“正常男生不会这样坐”,家长晒学霸儿子,被调侃:已预定图灵班

妍妍教育日记
2026-03-04 18:16:15
母亲去世后与亲舅舅再婚?信息量大到烧脑,当地已介入调查

母亲去世后与亲舅舅再婚?信息量大到烧脑,当地已介入调查

离离言几许
2026-03-04 14:30:04
马上停止使用这3种酱油,已被医生加入黑名单,大人孩子都别吃

马上停止使用这3种酱油,已被医生加入黑名单,大人孩子都别吃

橘子约定
2026-03-04 09:56:59
伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

伊朗一枚导弹,直接击碎价值98.3亿美元贸易链,钻石行业雪上加霜

梦史
2026-03-04 17:06:46
中国稀土磁铁公司,绕开国内管制,向西方继续出口产品

中国稀土磁铁公司,绕开国内管制,向西方继续出口产品

南权先生
2025-12-13 16:48:30
伊朗发起“斩首”行动,76岁内塔死里逃生,中方担心的还是发生了

伊朗发起“斩首”行动,76岁内塔死里逃生,中方担心的还是发生了

知鉴明史
2026-03-03 17:42:25
从霍尔木兹海峡到地中海,伊朗首度攻击欧盟国家

从霍尔木兹海峡到地中海,伊朗首度攻击欧盟国家

上观新闻
2026-03-04 06:57:04
女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

女子假信佛与多位高僧发生不当关系,秘密录制5600段视频。

特约前排观众
2026-02-09 00:05:05
顶不住了!莫斯科打响财政自救第一枪

顶不住了!莫斯科打响财政自救第一枪

老马拉车莫少装
2026-03-05 00:00:42
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
美国突发史无前例撤离令!外界担忧终极空袭来临

美国突发史无前例撤离令!外界担忧终极空袭来临

看看新闻Knews
2026-03-03 20:12:10
炸锅!密歇根学者清真寺公然宣扬征服世界,言论离谱到刷新认知

炸锅!密歇根学者清真寺公然宣扬征服世界,言论离谱到刷新认知

老马拉车莫少装
2026-03-04 21:42:24
小米汽车公布车牌定制专利 开启软营销新路径

小米汽车公布车牌定制专利 开启软营销新路径

知顿
2026-03-04 12:27:56
2亿人的春天来了?两会代表提议:提高灵活就业者最低工资!

2亿人的春天来了?两会代表提议:提高灵活就业者最低工资!

另子维爱读史
2026-03-04 19:25:25
伊朗将为哈梅内伊举行告别仪式,以色列防长:伊朗任何新的最高领袖都将成“清除目标”,“无论他叫什么名字 身在何处”

伊朗将为哈梅内伊举行告别仪式,以色列防长:伊朗任何新的最高领袖都将成“清除目标”,“无论他叫什么名字 身在何处”

每日经济新闻
2026-03-04 18:08:07
演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

演都不演了,刚复出就开演唱会,票价卖到1280,到底谁给的自信?

一娱三分地
2026-03-03 13:51:03
伊朗生死关头,一个关键人物走向前台……

伊朗生死关头,一个关键人物走向前台……

补壹刀
2026-03-02 16:08:19
苹果发布 MacBook Neo!配置真的离谱

苹果发布 MacBook Neo!配置真的离谱

花果科技
2026-03-04 23:08:01
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

削桐作琴
2026-02-25 18:15:14
在岸人民币兑美元较周二夜盘收盘涨242点

在岸人民币兑美元较周二夜盘收盘涨242点

财联社
2026-03-05 03:14:12
2026-03-05 03:48:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

教育
手机
数码
时尚
健康

教育要闻

活人感作文你会写吗?南京把它列入作文题

手机要闻

一加15T 全面升级,官方剧透来了

数码要闻

苹果发布新款MacBook Air:8499元起 搭载全新M5芯片

女人不管多大年纪,都要准备一条黑裙子,百搭舒适又显气质

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版