网易首页 > 网易号 > 正文 申请入驻

苹果炮轰AI推理遭打脸,GitHub大佬神怒怼!复杂任务≠推理能力

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】最近,苹果再次发文指出LLM推理的根本缺陷。相关解读,一夜刷屏。然而,GitHub高级软件工程师怒不可遏,怒斥相关「流言」。

最近,苹果公司发表了预印本论文,指出推理大模型存在重大缺陷。

昨天,Ruben Hassid发布了相关解读的X帖子,认为这是项突破性研究:

苹果证明了Claude等AI推理模型,根本不会思考。

这种解读在社交平台上广泛传播,浏览量已超过1000万,且仍在持续增长。


但这种解读翻车了!

在Reddit和黑客新闻,网友纷纷表示论文争议太大。






左右滑动查看

GitHub高级工程师Sean Goedecke,对该论文持保留态度,尽管他也认为语言模型不是通往超级智能(ASI)的理想路径。

最直接的例证是:当用DeepSeek-V3测试时,模型直接拒绝了要执行上千步的谜题推演

——这并非推理能力崩溃,反而说明模型具备对自身能力边界的认知


虽然Samy没有获得图灵奖,声望不及Yoshua,但其在谷歌学术上的引用次数已超过九万次,是Jeff Dean等知名学者的合作者。


这也不是苹果第一次指出LLM推理有问题,但这次在各大社交平台上得到了广泛传播。




左右滑动查看

那么苹果的新论文到底展示了什么?我们又该如何看待语言模型?

要理解这场争议的核心,我们先看看苹果论文到底说了什么。

苹果到底说了什么?

这篇论文开篇就提出,在数学和编程基准测试中,大家不要太在意推理模型的表现,因为:

  • (a)这些基准测试存在污染;

  • (b)在数学和编程任务上,无法运行高质量实验,因为这些任务缺乏简明的复杂度量标准。

因此,苹果的研究团队选择使用四种人工谜题(puzzle)环境(汉诺塔的变体),再次评估了推理模型,难度从最简单的单盘汉诺塔逐步上升到二十盘汉诺塔。


汉诺塔(Tower of Hanoi)是根据一个传说形成的数学问题:

有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。

要求按下列规则将所有圆盘移至C杆:

(1)每次只能移动一个圆盘;

(2)大盘不能叠在小盘上面。可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。

问题为:应该以何种方式移动?最少要移动多少次?

例如,他们对比了非推理模型DeepSeek-V3与推理模型DeepSeek-R1:


这个对比模式在所有推理/非推理模型对、以及所有谜题任务中基本一致。

论文得出以下几个核心结论:

  • 对非常简单的谜题,非推理模型表现相当甚至更好,因为推理模型有时会「想太多」而导致错误。

  • 对中等难度的谜题,推理模型明显更强。

  • 一旦任务复杂度足够高,即使是推理模型也无法给出正确答案,不管你给它多长时间。

接下来,论文分析了推理模型的内部思维轨迹,验证了上述结论:

在简单问题中,正确答案几乎立刻出现;

在中等问题中,需要更多推理步骤;

而在最困难的问题中,则根本不会出现

论文还指出,随着问题复杂度增加,一旦模型无法解决问题,开始「躺平摸鱼」:

模型不会继续投入更多token来解题,而是直接「放弃」,停止推理。

最后,论文尝试直接将正确的谜题求解算法输入模型,期望这能提高其推理能力。

结果只是「有一点用」:部分模型可以多解出一个盘,但整体效果并不显著。

总结来看,该论文得出以下结论:

  1. 推理模型存在复杂度「天花板」,一旦超出,性能明显下降。

  2. 推理模型可能存在「内在计算扩展上限」,证据是:模型在达到一定复杂度时,会选择放弃。

  3. 推理模型不擅长计算性任务,因为即使将算法直接给它们,也没用。

这样理解:不对

对苹果的这篇论文,Sean Goedecke有三大质疑:

首先,汉诺塔这类谜题不是判断「推理能力」的好例子;

其次,推理模型的复杂性阈值,不一定是固定的;

最后,存在复杂度阈值≠模型「并不真正具备推理能力」。


谜题不是好例子

相比数学和编程,汉诺塔是一个更糟糕的推理测试案例。

如果担心数学和编程基准测试存在训练数据污染,那为何选择训练数据中存在解法的知名谜题?


这是Sean Goedecke对论文最主要的不满。

论文却得出结论「给模型提供解法,也没有提高效果」。

这件事让他感到惊讶:

汉诺塔算法在模型训练数据中反复出现。

所以,给模型算法帮助当然不大——

模型早已经知道算法是什么了!

另外,推理模型是有针对性地被训练用于数学和编程任务的,而不是用于谜题。

也许谜题在某种程度上可以代表推理能力,但也可能根本不相关。

从另一个角度,他完全可以相信:模型在处理数学题或写代码时具备更完善的内部工具链,而不具备用于谜题的工具

用谜题来测推理能力,等同于说「GPT-3.5之后,写彼特拉克式十四行诗没有明显进步,所以语言模型并没真正取得进展」。


彼得拉克式十四行,又称意大利十四行诗。诗标准意式十四行诗由14个十一音节诗行组成,分为前后两部分:前八行(octave)与后六行(sestet)

汉诺塔确实比数学问题更容易缩放复杂度,但正因为这个原因就选它,给人一种「路灯效应」的感觉

——不是因为它最好,而是因为它最方便


路灯效应,指人们倾向于只在最容易寻找的地方进行搜索

复杂度阈值未必固定

假设语言模型在超过一定复杂性点后确实会放弃,就像它们在超过十个盘子的汉诺塔时一样。

换言之,假设之前对谜题作为测试例子的质疑是错误的,而苹果的论文确实具有普适性。

那么,这是否意味着模型无法处理超出某一复杂度的问题?

Sean Goedecke将苹果论文中的一些提示词输入DeepSeek-R1,以下是简化版的推理轨迹开头:

好的,我需要解一个有10个盘的汉诺塔问题。

让我思考如何处理这个问题。我记得经典解法是递归步骤……

n个盘的标准解法需要2^n-1步。对于10个盘是1023步。但手动列出每一步几乎不可能。

所以我需要一种系统化方法来逐步列出每一步。让我回忆一下汉诺塔的迭代解法……

请注意,模型立即决定「手动生成所有这些步骤是不可能的」,因为这需要跟踪上千个步骤。

于是它开始寻找「聪明的捷径」,但最终失败。

这里的关键见解是,超过一定复杂性阈值后,模型决定有太多的步骤需要推理,于是开始寻找巧妙的捷径

模型所面对的任务其实已悄然转变:从「逐步推理完成」变为「发明一种能跳过推理的通用方案」

从测试来看,即使在较低的盘子数量下,DeepSeek-R1也会抱怨几句,说「这会很繁琐」,即使你明确要求它逐步列出解法。

这是可以理解的:推理模型是为推理而训练的,不是为执行数千次机械步骤而训练的。

那么,对于汉诺塔谜题来说,真的存在复杂性阈值吗?

实际上,大家并不知道模型是否能够坚持完成千步序列。

我们所知道的是,模型不想这样做

顺带一提,这也解释了一个「奇怪」的发现:

当问题变得更难时,模型使用的推理token反而减少。

因为任务如果只需几十步,它会积极推理;如果需要几百甚至上千步,它就选择放弃。

注意:Sean Goedecke没有访问其他推理模型轨迹的权限——

如果它们表现不同,那么他愿意承认在这个观点上他是错误的。

复杂任务失败≠0推理能力

假设到目前为止的一切都是错误的:

谜题真的是测试推理的好例子,推理模型真的有个固定的复杂性阈值。

这是否意味着模型不能推理?

当然,这并不意味着模型不能推理!

当然不是!

看到网络上的一些热评,Sean Goedecke情难自禁,简直要疯了。

多少人能真正坐下来,准确写出一千步的汉诺塔解法?

肯定有一些人可以,但也有很多人完全不行。

我们会因此说那些人「不具备推理能力」吗?

当然不会!

他们只是缺乏足够的耐心与专注,从而无法做到手动执行一千次算法而已。

即便只能推理到第十步,未能完成第十一步,也依然体现了推理能力。

能推理三步,也依然是推理,哪怕你无法看清第四步。

这也许不是「超人级」的推理,但绝对属于人类推理能力

严格说来,这对论文可能不太公平——

它本身并没有明确说模型「根本不能推理」(除非你把标题当真)。

然而,互联网上这么说的人太多了,所以他认为值得讨论一下。

总结

苹果的论文《思维的幻觉》,不是特别好。

Sean Goedecke的主要反对意见是,他不认为推理模型像论文暗示的那样不擅长这些谜题:

从我自己的测试来看,模型早早决定几百个算法步骤太多,甚至不值得尝试,所以它们拒绝开始。

你不能比较八盘汉诺塔和十盘汉诺塔,因为你比较的是「模型能否完成算法」和「模型能否想出一个避免完成算法的解决方案」。

更加一般性地,他不相信谜题是评估推理能力的好试验场,因为

(a)它们不是人工智能实验室的重点领域,

(b)它们需要像计算机一样遵循算法,而不是需要解决数学问题的那种推理。

Sean Goedecke认为,推理模型并非像论文暗示的那样不擅长这类谜题。

在他的测试中,模型在面对上百步算法时,往往主动放弃,而非能力崩溃。

他强调,放弃并不意味着无法推理——

就像人类在面对高度重复、枯燥任务时也可能选择中止。

这种行为更多体现的是认知边界,而非思维能力的缺失

因此,他不认同将「未完成复杂任务」等同于「不具备推理能力」的观点。

这篇论文并非一无是处,Sean Goedecke认为它有下列亮点:

  • 推理模型在简单问题上有时会「想太多」,表现不如非推理模型,这一点很有趣;

  • 模型在长算法执行过程中「放弃」的现象也很有意思,尽管它可能并不能很好地说明其普遍推理能力;

  • 他喜欢「问题三阶段」这一观点:简单、中等可推理、以及复杂到模型会放弃的阶段。如果某种模型可以被训练成「永不放弃」,那将非常有趣。

无论如何,苹果的研究提供了重要提醒:

当前语言模型的推理能力远非「通用智能」。

那么,该如何定义「推理」?

又如何测试「思维」?

这可能是下一代AI必须直面的核心问题。

参考资料:

https://www.seangoedecke.com/illusion-of-thinking/

https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/

https://x.com/RubenHssd/status/1931389580105925115

https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/

https://news.ycombinator.com/item?id=44203562


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
维尔茨本场在对方禁区内触球7次+创造5机会+2造良机均为全队最高

维尔茨本场在对方禁区内触球7次+创造5机会+2造良机均为全队最高

直播吧
2025-09-18 07:20:02
中方高层现身泰国,对把佩通坦拉下台的洪森,隔空发出警告

中方高层现身泰国,对把佩通坦拉下台的洪森,隔空发出警告

南权先生
2025-09-17 12:20:05
看完这批工信部的新车,我觉得合资和新势力的两极反转了。

看完这批工信部的新车,我觉得合资和新势力的两极反转了。

差评XPIN
2025-09-18 00:12:58
杨天真纽约被偶遇,脖前倾严重还有双下巴,与本人发的照片差别大

杨天真纽约被偶遇,脖前倾严重还有双下巴,与本人发的照片差别大

八怪娱
2025-09-17 10:33:01
美国在国民党豢养的鹰犬终于出动了,不仅卖台还疯狂攻击大陆

美国在国民党豢养的鹰犬终于出动了,不仅卖台还疯狂攻击大陆

时间最美的安排
2025-09-17 23:53:52
他重回上海交大攻读硕士学位,不久前在九三阅兵方阵中光荣受阅

他重回上海交大攻读硕士学位,不久前在九三阅兵方阵中光荣受阅

澎湃新闻
2025-09-17 10:16:28
欧冠新军炸裂首秀:90分钟天外飞仙 0-2到2-2!改写2大历史

欧冠新军炸裂首秀:90分钟天外飞仙 0-2到2-2!改写2大历史

叶青足球世界
2025-09-18 06:43:37
欧盟委员会将提出对以色列的制裁措施

欧盟委员会将提出对以色列的制裁措施

新京报
2025-09-17 07:25:01
第37周新势力车型周销量TOP20:小米问界包揽前三

第37周新势力车型周销量TOP20:小米问界包揽前三

手机中国
2025-09-17 07:43:06
这个决定,重塑了中华民族的命运!也终将改写全球的未来!

这个决定,重塑了中华民族的命运!也终将改写全球的未来!

一个坏土豆
2025-09-16 19:52:16
33岁韩国女网红购买66亿韩元公寓,和全炫茂成为邻居

33岁韩国女网红购买66亿韩元公寓,和全炫茂成为邻居

君笙的拂兮
2025-09-16 12:19:40
外网传罗本去世,相关人士辟谣并表示他正在享受退休生活

外网传罗本去世,相关人士辟谣并表示他正在享受退休生活

雷速体育
2025-09-17 17:37:05
工资又回到了3000元时代

工资又回到了3000元时代

亚哥谈古论今
2025-09-06 17:38:41
吃饭也要讲政治

吃饭也要讲政治

特例的猫
2025-09-16 16:59:35
道歉也没用!嘎子穿警服卖货,曝直播报价1分钟25万,警方已介入

道歉也没用!嘎子穿警服卖货,曝直播报价1分钟25万,警方已介入

削桐作琴
2025-09-16 18:28:38
38岁刘亦菲碎花连衣裙长发披肩,素颜状态引关注

38岁刘亦菲碎花连衣裙长发披肩,素颜状态引关注

韩小娱
2025-09-18 07:48:51
台海观澜 | 台湾地位未定论,老调重弹为哪般

台海观澜 | 台湾地位未定论,老调重弹为哪般

经济观察报
2025-09-17 14:42:13
陈昱霖:做吴秀波7年小三,被他亲手送进监狱,出狱后高调晒儿子

陈昱霖:做吴秀波7年小三,被他亲手送进监狱,出狱后高调晒儿子

芳芳历史烩
2025-09-16 19:34:10
湖南天气:高温解除!今起降温!低至18℃!

湖南天气:高温解除!今起降温!低至18℃!

三湘都市报
2025-09-18 00:07:59
情人早过时了!当下正流行这5种关系,你占了哪一种?

情人早过时了!当下正流行这5种关系,你占了哪一种?

小小包工头阿汾
2025-09-18 03:29:49
2025-09-18 08:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13467文章数 66156关注度
往期回顾 全部

科技要闻

网易评测iPhone 17系列:今年升级值得买吗

头条要闻

媒体:英国将承认巴勒斯坦美国急了 特朗普上门求人

头条要闻

媒体:英国将承认巴勒斯坦美国急了 特朗普上门求人

体育要闻

海港半场丢三球0-3神户胜利船 亚冠精英联赛5连败

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

美联储重启降息!新任理事投了反对票

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

游戏
时尚
手机
亲子
房产

《如龙:极3》遭官方泄露!官网短暂出现消息分类

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

手机要闻

从高刷普及到影像飞跃:iPhone 17系列带来哪些「真香」升级?

亲子要闻

惊呆!人类幼崽的语言天赋竟如此惊人!

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

无障碍浏览 进入关怀版