网易首页 > 网易号 > 正文 申请入驻

多项研究揭示推理错觉:谜题越复杂准确率越低 AI逻辑测试不及格

0
分享至

越来越多的人工智能公司声称他们的模型能够推理。但最近的两项研究却得出了相反的结论。当被要求展示它们的逻辑时,大多数模型都失败了——这证明它们与其说是在推理,不如说是在重复模式。结果是答案虽然自信满满,但并不智能。

苹果研究人员发现了当今最受热捧的人工智能系统的一个关键弱点——它们在解决需要逐步推理的难题时表现不佳。在一篇新论文中,该团队在古老的逻辑谜题“汉诺塔”上测试了几个领先的模型,发现随着复杂性的增加,性能会下降。

汉诺塔谜题很简单:将一叠圆盘从一个桩子移到另一个桩子,同时遵循有关顺序和圆盘大小的规则。对于人类来说,这是一项经典的规划和递归逻辑测试。对于经过训练以预测下一个标记的语言模型来说,挑战在于如何在多个步骤中应用固定的约束,同时又不偏离目标。

苹果的研究人员不仅要求模型解答谜题,还要求它们解释解题步骤。虽然大多数模型只处理了两三个圆盘,但随着圆盘数量的增加,它们的逻辑开始瓦解。模型会错误地陈述规则,与之前的步骤相矛盾,或者自信地做出无效的移动——即使在思路链提示下也是如此。简而言之,它们不是在推理,而是在猜测。

这一发现与今年4月的一项研究相呼应。当时,苏黎世联邦理工学院(ETH Zurich)和INSAIT的研究人员对顶尖的人工智能模型进行了测试,以解决2025年美国数学奥林匹克竞赛(一项要求提供完整书面证明的竞赛)的题目。在近200次尝试中,没有一个模型能给出完美的解决方案。其中表现较强的GoogleGemini 2.5 Pro获得了总分的24%——这并非通过解决24%的题目,而是通过每次尝试都获得部分分数。OpenAI的o3-mini仅勉强获得了2%的分数。

这些模型不仅会错过答案,还会犯一些基本错误,跳过一些步骤,甚至在自信满满的同时自相矛盾。在一个问题中,一个模型一开始表现很好,但却在没有任何解释的情况下排除了有效案例。其他模型则根据训练的怪癖设计了一些约束条件,比如始终将最终答案框起来——即使它与上下文不符。

长期以来一直批评人工智能炒作的加里·马库斯 (Gary Marcus)称苹果的发现“对大型语言模型具有毁灭性的影响”。

他写道:“大语言模型无法可靠地解决河内问题,这真是令人尴尬。如果你不能用一个价值数十亿美元的人工智能系统来解决一个问题,而这个问题正是‘人工智能教父’之一赫伯·西蒙在1957年用人工智能解决的,而且也是人工智能学生在第一学期就能解决的,那么像克劳德或o3这样的模型实现通用人工智能的可能性就显得微乎其微了。”

即使给出了明确的算法,模型性能也没有提高。该研究的联合负责人伊曼·米尔扎德(Iman Mirzadeh)直言不讳:“他们的流程不合逻辑,也不智能。”

结果表明,看似推理的往往只是模式匹配——统计上流畅,但没有逻辑依据。

并非所有专家都对此不屑一顾。专门研究人工智能系统的软件工程师 Sean Goedecke 认为这次失败具有启发意义。

“模型会立即认定‘手动生成所有这些步骤是不可能的’,因为这需要追踪一千多个步骤。所以它不停地寻找捷径,最终失败了,”他在对苹果研究的分析中写道。“这里的关键洞察是,超过一定的复杂度阈值后,模型会认为推理步骤太多,于是开始寻找巧妙的捷径。所以,超过八九个磁盘后,被考察的技能会悄无声息地从‘模型能否推理汉诺塔序列?’转变为‘模型能否提出一个通用的汉诺塔解决方案,从而跳过对序列的推理?’”

Goedecke 认为,这些发现并非证明模型在推理方面毫无希望,而是凸显了人工智能系统如何在压力下调整其行为——有时很聪明,有时则不然。失败不仅在于循序渐进的推理,还在于当推理变得过于复杂时就放弃任务。

科技公司经常强调模拟推理是一项突破。苹果的论文证实,即使是针对思维链推理进行微调的模型,一旦认知负荷增加,也往往会遇到瓶颈——例如,在汉诺塔游戏中追踪超过六个圆盘的移动时。这些模型的内部逻辑会瓦解,有些模型只能通过模仿理性解释来取得部分成功。很少有模型能够始终如一地理解因果关系或目标导向的行为。

苹果和苏黎世联邦理工学院的研究结果与各大公司宣传这些模型的方式形成了鲜明对比——这些模型被宣传为能够处理复杂、多步骤任务的强大推理器。实际上,所谓的推理通常只是带有额外步骤的高级自动完成功能。智能的假象源于流畅性和格式,而非真正的洞察力。

苹果的论文并未提出全面的解决方案。然而,它与日益增长的混合方法呼声相呼应,这些方法将大型语言模型与符号逻辑、验证器或特定于任务的约束相结合。这些方法或许无法让人工智能真正变得智能,但它们可以帮助防止将错误答案当作事实。

在这些进步真正实现之前,模拟推理很可能仍停留在名称所暗示的阶段:模拟。它很有用——有时甚至令人印象深刻——但远非真正的智能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坎耶和娇妻比安卡:一个裹得严严实实一个像没穿,天造地设的一对

坎耶和娇妻比安卡:一个裹得严严实实一个像没穿,天造地设的一对

毒舌小红帽
2026-06-17 19:07:09
突发!EA官宣48小时后永久关停这款AAA大作,但PC版还能玩

突发!EA官宣48小时后永久关停这款AAA大作,但PC版还能玩

赴一场山海啊
2026-06-22 00:30:37
Lisa闯进世界杯歌词引发低俗争议!终因露屁股蛋子被LV家族抛弃

Lisa闯进世界杯歌词引发低俗争议!终因露屁股蛋子被LV家族抛弃

阿讯说天下
2026-06-14 17:01:39
生育大局已定!2026年新生人口变化曝光:年轻人不生,根本不是懒

生育大局已定!2026年新生人口变化曝光:年轻人不生,根本不是懒

离离言几许
2026-06-18 22:49:16
伊朗盛赞中国基建狂魔,3000亿重建大单显实力

伊朗盛赞中国基建狂魔,3000亿重建大单显实力

时光会带走回忆
2026-06-22 10:36:06
一个女同事失恋了,她喝醉后群发消息:“不管感情,谁给50万彩礼就结婚”,没想到半小时后收到大大小小的红包,却一个200块钱都没有

一个女同事失恋了,她喝醉后群发消息:“不管感情,谁给50万彩礼就结婚”,没想到半小时后收到大大小小的红包,却一个200块钱都没有

背包旅行
2026-06-22 14:20:07
北京考生多少分稳进211?分档解析来了,看完心里瞬间有底了

北京考生多少分稳进211?分档解析来了,看完心里瞬间有底了

娱乐的宅急便
2026-06-21 05:10:07
迪拜首富之女重病赴华寻求中医,中医扎五根银针,开口便让他们傻眼

迪拜首富之女重病赴华寻求中医,中医扎五根银针,开口便让他们傻眼

萧竹轻语
2025-10-13 11:40:11
攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

攻不了,也守不住!中国空军在西藏上空,被印度空军足足欺负40年

小杨侃事
2026-05-30 22:08:46
美伊和谈之际以色列为何频搅局?

美伊和谈之际以色列为何频搅局?

风铃草语
2026-06-22 06:39:13
Claude Code 工程一号位亲自给 Agent 热潮降温:狂烧 Token 时代已过,现在该算ROI了

Claude Code 工程一号位亲自给 Agent 热潮降温:狂烧 Token 时代已过,现在该算ROI了

InfoQ
2026-06-22 16:44:05
周鸿祎套现离场,利润腰斩至8.8亿,留下5.8万投诉

周鸿祎套现离场,利润腰斩至8.8亿,留下5.8万投诉

嘴角上翘
2026-06-10 03:20:40
财神爷庇护,6月底苦尽甘来,惊喜不断,财运水涨船高的3个生肖!

财神爷庇护,6月底苦尽甘来,惊喜不断,财运水涨船高的3个生肖!

毅谈生肖
2026-06-22 11:27:05
塔克拉玛干沙漠边缘地带现洪水,这有多罕见?这水能否存储起来?

塔克拉玛干沙漠边缘地带现洪水,这有多罕见?这水能否存储起来?

之乎者也小鱼儿
2026-06-22 10:43:58
伊朗发布首轮谈判达成的协议五大要点

伊朗发布首轮谈判达成的协议五大要点

界面新闻
2026-06-22 14:58:00
波兰前总统克瓦希涅夫斯基警告政界人士没有乌克兰人波兰无法生存

波兰前总统克瓦希涅夫斯基警告政界人士没有乌克兰人波兰无法生存

魅力乌克兰
2026-06-22 03:11:33
尼克松访华喝酒后,当着所有人说了句大实话,基辛格吓得脸都白了

尼克松访华喝酒后,当着所有人说了句大实话,基辛格吓得脸都白了

历史图鉴
2026-05-27 16:36:31
谈了18个小时!终于迎来结果,伊朗代表当场破防,全程咬牙没离场

谈了18个小时!终于迎来结果,伊朗代表当场破防,全程咬牙没离场

云上乌托邦
2026-06-22 15:37:30
六家银行落地离岸人民币试点,人民币国际化再进一步

六家银行落地离岸人民币试点,人民币国际化再进一步

财经杂志
2026-06-23 01:21:58
沙特惨败西班牙,亚足联三队晋级32强,日本最稳

沙特惨败西班牙,亚足联三队晋级32强,日本最稳

章民解说体育
2026-06-22 03:08:20
2026-06-23 02:28:49
cnBeta.COM incentive-icons
cnBeta.COM
提供IT行业即时资讯
68775文章数 70215关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

头条要闻

媒体:中国"两箭齐发"反制美国 不卖了也不买了

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

旅游
健康
艺术
手机
教育

旅游要闻

“茶和天下”端午游园会在悉尼举行

粽子还没吃完?专家教你“清库存”

艺术要闻

光设计就刷屏!南京“绿洲大厦”,层层像梯田!

手机要闻

一加 16T曝光,6.3英寸超高刷小直屏

教育要闻

这两所医学院,是26年最后的抄底机会!

无障碍浏览 进入关怀版