网易首页 > 网易号 > 正文 申请入驻

Claude与人类共著论文,苹果再遭打脸!实验黑幕曝光

0
分享至

  

  新智元报道

  编辑:peter东 桃子

  【新智元导读】苹果一篇论文,再遭打脸。研究员联手Claude Opus用一篇4页论文再反击,揭露实验设计漏洞,甚至指出部分测试无解却让模型「背锅」的华点。

  几天前,苹果怒斥大模型根本不会推理论文,引发全网无数讨论与争议。

  在许多人看来,没有站在AI前沿的人, 却质疑当今最领先推理模型o3-mini、DeepSeek-R1推理能力,实在没有说服力。

  论文一出,备受质疑。

  

  一位研究员发文称,其研究方法并不可靠,比如通过在数学题中添加无关内容测试模型的表现。

  最近,Open Philanthropy研究人员联手Anthropic发表的一篇论文——The Illusion of the Illusion of Thinking,再次将矛头指向苹果。

  

  论文地址:https://arxiv.org/pdf/2506.09250

  这篇仅4页论文一针见血,揭露了苹果论文在汉诺塔实验、自动评估框架,以及「过河」基准测试中的三大缺陷。

  甚至,文中还指出部分测试用例在数学上无解,模型却因此被误判为「推理失败」。

  更引人注目的是,论文作者之一,还有一个是AI——Claude Opus。

  

  论文中,具体指出了哪些问题,让我们一探究竟。

  推理大模型失败,是非战之罪

  在The illusion of thinking中,作者给出了四个例子,说明当问题的尺度变大时,大模型的表现变得越来越差。

  他们据此得出结论:大模型实际上只是在进行着模式匹配,从训练数据集中找出对该问题的已有解答。

  

  汉诺塔问题示例

  然而Lawsen和Claude指出上述研究中,推理大模型失败源头在于token数超过了模型的上限。

  例如,在汉诺塔的任务中,模型必须打印指数级数量的步骤——仅15个盘子就需要超过32,000次移动,这导致它们达到输出上限。

  Sonnet 3.7的输出限制是128k,DeepSeek R1是64K,以及o3-mini是100k token。

  这包括他们在输出最终答案之前使用的推理token,所有模型在超过13个盘子的情况下都会出现0准确率,仅仅因为它们无法输出那么多!

  

  不同大模型能够应对的汉诺塔盘子数,不考虑任何推理token,大模型最大可解决规模为DeepSeek: 12个盘子,Sonnet 3.7和o3-mini为13个盘子

  在使用Claude测试时,作者观察到当问题规模过大时,它们甚至不会进行推理,而是会说,「由于移动次数众多,我将解释解决方案方法」,而不是逐一列出所有32,767次移动。

  针对非常小的问题(大约5-6个盘子)的,大模型会进行推理。

  之后,它只是:重复问题,重复算法,打印步骤,然后到了9-10个盘子时,这时模型遇到了其输出的上限,这时,模型也许应该给出回复,「我写不下2^n_圆盘-1步,这超过了我的输出上限」。

  

  不同尺度的问题,大模型输出的token数在9-10个盘子时达到峰值

  此外,大模型给出的解答之所以是错误的,可能的原因是在每一步推理过程中,大模型由于其是概念模型,会忘记之前选定的盘子。

  即使大模型每一步选对正确盘子的概率是99.99%,当盘子数超过11%个时,大模型给出正确回答的概率,也会呈现指数衰减。

  这意味着即使大模型能够进行推理,但由于其在推理过程中,某汉诺塔盘顶的盘子编号从A记错成了B,也会导致其给出的指令无法执行。

  而当前的评价要求大模型给出的回答完全没有错误,这样的评价标准,未免有些过于严苛了。

  

  大模型不同观察准确性下,随着问题复杂度增长其回答准确性的变化

  至于The illusion of thinking文中列出的另一案例过河问题(River Crossing),当问题变为n=6时,问题在数学上就是无解的,这样的不可解的问题数目并不少。将大模型面对这些不可解问题的失败,当做大模型缺少推理能力的证据,这样做无疑是不妥的。

  除了指出The illusion of thinking中的评价缺陷,最新论文也指出对大模型推理能力对正确评价方法。

  即不是让大模型逐行编写每个步骤时,而是其给出一个Lua程序去解答问题,然后运行大模型给出的程序,再判断程序的输出否是正确的解答。

  结果显示,Claude-3.7-Sonnet,Claude Opus 4,OpenAI o3,Google Gemini 2.5都能够在5000个token的限制下,输出能得到正确解答的程序,准确率极高。

  这完全消除了所谓的推理能力崩溃现象,表明模型并非未能进行推理。它们只是未能遵循一个人为的、过于严格的评分标准。

  LLM推理能力引热议

  苹果发布「思考的幻觉」论文的时间,恰逢WWDC之前,这进一步加剧了其影响力,使得其被广泛讨论。

  这其中就包含不少批评的声音,比如有人暗示苹果在大模型方面落后于OpenAI和谷歌等竞争对手,可能试图降低人们的期望。

  他们戏称,提出了一些关于「这一切都是假的,毫无意义」的研究,可以挽救苹果在Siri等表现不佳的AI产品上的声誉。

  

  还有人批评道,即使是人类,也大多无法准确无误的写出针对13个盘子的汉诺塔问题的一步步解法,如果没有进行这样的比较,苹果又如何知道这样随着问题规模变大而遇到的准确性下降,不会出现在人类身上。

  

  而法国高效能AI初创公司Pleias的工程师Alexander Doria指出思考的幻觉一文略了细微差别,认为模型可能在学习部分启发式方法,而不是简单地匹配模式。

  

  而宾夕法尼亚大学沃顿商学院专注于人工智能的教授Ethan Mollick认为,认为大语言模型正在「遇到瓶颈」的观点为时过早,并将此比作那些未能应验的关于「模型崩溃」的类似主张。

  上述争议凸显了一个日益增长的共识:设计合理的大模型评估方案,如今与模型设计同等重要。

  要求大模型枚举每一步可能更多地考验它们的输出上限而非规划能力,而输出程序化答案或给予大模型外部临时工作区则能更清晰地展现其实际推理能力。

  该案例还突出了开发者在部署自主系统时面临的实际限制——上下文窗口、输出预算和任务表述可能决定或破坏用户可见的性能。对于在企业技术决策者构建基于推理大模型的应用而言,这场辩论不仅仅是学术性的。它提出了关于在生产工作流程中何时、何地以及如何信任这些模型的关键问题——尤其是在任务涉及长规划链或需要精确的逐步输出时。

  如果一个模型在处理复杂提示时看似「失败」,问题可能不在于其推理能力,而在于任务如何被构建、需要多少输出,或模型能访问多少内存。这对于构建如协作者、自主代理或决策支持系统等工具的产业尤其相关,在这些产业中,可解释性和任务复杂性都可能很高。

  理解上下文窗口、token预算以及评估中使用的评分标准对于可靠的系统设计至关重要。开发者可能需要考虑外部化内存、分块推理步骤或使用函数或代码等压缩输出,而不是完整的语言解释。

  更重要的是,这篇论文的争议提醒我们,基准测试与现实应用并不相同。

  企业团队应谨慎避免过度依赖那些不能反映实际应用场景的合成基准测试——或者那些无意中限制模型展示其能力的基准测试。对机器学习研究人员来说,一个重要的启示是:在宣称一个人工智能里程碑或讣告之前,务必确保测试本身没有将系统置于一个太小而无法思考的框框之中。

  参考资料:

  https://arxiv.org/pdf/2506.09250

  https://lawsen.substack.com/p/when-your-joke-paper-goes-viral

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
都是亲王为何会有高下之分?实际上,清代的亲王可以分为四个档次

都是亲王为何会有高下之分?实际上,清代的亲王可以分为四个档次

户外钓鱼哥阿旱
2025-11-13 11:06:23
比亚迪“翅膀微扇”,电池圈都沸腾了,高端电池风评“一夜反转”

比亚迪“翅膀微扇”,电池圈都沸腾了,高端电池风评“一夜反转”

小李车评李建红
2025-11-11 07:40:06
日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

日本民宿被曝变身卖淫场,性工作者称中国游客更大方。

环球趣闻分享
2025-11-09 14:20:06
导演回应全运会“大湾鸡爆火”,直言心疼:从不抱怨伤痛,贴贴互动全是小演员们即兴创意

导演回应全运会“大湾鸡爆火”,直言心疼:从不抱怨伤痛,贴贴互动全是小演员们即兴创意

环球网资讯
2025-11-13 15:54:09
虎父无犬子,路易斯-布冯代表捷克U19上演帽子戏法

虎父无犬子,路易斯-布冯代表捷克U19上演帽子戏法

懂球帝
2025-11-13 02:42:07
名记炮轰足协:愚昧!罪大恶极!制定恶规毁掉青训 宋凯维护错误

名记炮轰足协:愚昧!罪大恶极!制定恶规毁掉青训 宋凯维护错误

风过乡
2025-11-13 07:05:04
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

翰飞观事
2025-11-10 19:47:08
农村绝迹的13个老物件!图二至少能卖10万!图七东北老太太喜欢!

农村绝迹的13个老物件!图二至少能卖10万!图七东北老太太喜欢!

今日美食分享
2025-11-13 00:52:48
为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

为什么“战略忽悠局局长”张召忠,突然消失了,去哪里了?

混沌录
2025-11-02 17:13:10
厉害了!53岁男子从深圳出发,花49天徒步1500多公里,抵达蚌埠…

厉害了!53岁男子从深圳出发,花49天徒步1500多公里,抵达蚌埠…

广东活动
2025-11-12 12:15:44
金价创新高!2025年11月13日各大金店黄金价格多少一克?

金价创新高!2025年11月13日各大金店黄金价格多少一克?

金投网
2025-11-13 15:32:58
15元中7397万后续:曝普通村民,中奖前还在买角磨机,有追加习惯

15元中7397万后续:曝普通村民,中奖前还在买角磨机,有追加习惯

花心电影
2025-11-12 18:11:27
快船总裁:医生说比尔的伤势像遭遇了车祸,这非常少见

快船总裁:医生说比尔的伤势像遭遇了车祸,这非常少见

懂球帝
2025-11-13 15:45:12
50岁龚琳娜独居深山,房子后面是一片坟地,离婚后养猫为伴不害怕

50岁龚琳娜独居深山,房子后面是一片坟地,离婚后养猫为伴不害怕

疯说时尚
2025-11-13 16:41:48
突然爆雷!总部解散!曾在全国有300家门店,超10亿资金窟窿…...

突然爆雷!总部解散!曾在全国有300家门店,超10亿资金窟窿…...

鲁中晨报
2025-11-13 16:43:02
陈赓最尊敬的领导是周恩来,晚年相遇,陈赓为何总躲在罗瑞卿身后

陈赓最尊敬的领导是周恩来,晚年相遇,陈赓为何总躲在罗瑞卿身后

雍亲王府
2025-11-13 18:35:03
中方发“斩首”警告后,不到48小时,高市早苗表态了:言辞失当

中方发“斩首”警告后,不到48小时,高市早苗表态了:言辞失当

知鉴明史
2025-11-12 16:31:23
中国外交官已全部离开立陶宛,立总理对华递交建议书,想重建关系

中国外交官已全部离开立陶宛,立总理对华递交建议书,想重建关系

律便利
2025-07-03 15:20:03
东莞男子在宵夜店用餐后中毒洗胃,疑为封装碗具有洗涤剂残留

东莞男子在宵夜店用餐后中毒洗胃,疑为封装碗具有洗涤剂残留

南方都市报
2025-11-13 18:54:39
连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

历史有些冷
2025-11-12 14:30:02
2025-11-13 20:08:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13860文章数 66246关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

头条要闻

荒野求生"刀疤哥"每天吃30多个猕猴桃:一次性采摘40斤

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

家居
亲子
游戏
公开课
军事航空

家居要闻

莫奈时间 重构先锋概念

亲子要闻

何穗产后首晒照,网友:这是刚生完的人吗?

索尼《地平线》MMO新游引不满:这能不上PS5?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版