网易首页 > 网易号 > 正文 申请入驻

AI能力极限之争|苹果“崩溃论”引发新质疑背后的科学真相

0
分享至

Science Partner

Bring you to the side of science

导 读

各位科学的小伙伴们,前不久,苹果研究团队在arXiv上发布了一篇论文,声称主流大语言模型(如Claude、Gemini等)在复杂推理解谜任务面前会出现“推理崩溃”。这一结论不仅在学界引发激辩,还被英国计算机科学家Lawsen的反驳论文《思维幻觉的幻觉》(The Illusion of the Illusion of Thinking)所挑战。Lawsen认为苹果团队的“崩溃”更多是实验设计和评估方式的错觉,并非大模型推理本身的极限。究竟AI的推理能力有多强,我们又该如何科学评价?本篇为您深度解读。

主笔 | 恒意

● ● ●

AI能力极限之争|苹果“崩溃论”引发新质疑背后的科学真相

“推理崩溃”之谜:苹果团队的研究为何引发争议?

2025年6月,苹果研究员Parshin Shojaee与Iman Mirzadeh在arXiv发表论文,设计出一系列经典解谜任务——如汉诺塔、渡河谜题等,测试当今最强语言模型在这些任务上的推理表现。研究将任务难度分为低、中、高三档,数据显示,模型在高复杂度任务上准确率“断崖式下滑”。苹果团队据此提出推理能力遇到“瓶颈”,甚至断言“没有发现正式推理证据,模型行为更像高级模式匹配”。这一结论立刻引发轰动,国内外科技媒体如The Verge、MIT Technology Review等均对此报道。

真相只是一场“错觉”?Lawsen为何提出异议

面对苹果团队“推理崩溃”论断,英国牛津AI研究员Alex Lawsen发表了题为 《思维幻觉的幻觉》 的系统评论。他强调,苹果的实验其实混淆了输出极限(即每次模型最多生成多少字)与推理极限。以汉诺塔为例,8盘及以上的复杂度下,要输出全部操作步骤,Claude模型早已达到输出上限。Lawsen发现,模型甚至在输出中明确标注“为节省长度,后续省略”,并非推理出错。此外,苹果实验还将“无解题目”算作模型失败,比如渡河谜题的“船太小无法完成”,模型理性拒绝解答却被评为“推理崩溃”。Lawsen用优化代码和算法性输出对模型重新测试,发现其在15盘汉诺塔等超高复杂度问题上依然具备严密的推理能力。

AI推理能力究竟应如何科学评估?

Lawsen的质疑让人重新思考:我们该如何科学地测试AI的推理能力?他指出,若仅仅用“枚举每一步骤并完整输出”衡量模型能力,实则受限于token输出上限,无法反映算法层面的真正推理。此外,实验应剔除数学上无解的题目,否则混淆了“无解”与“不会解”的概念。当前AI社区已开始反思,呼吁采用多样化结果表示(如代码、策略函数等)、问题可解性验证及分层评判标准。这不仅有助于更准确地刻画AI认知极限,也为模型训练及应用场景提供有价值的反馈。

“推理”与“输出”的鸿沟:AI的能力边界在哪里?

苹果与Lawsen之争实际上揭示了AI推理领域的一个核心矛盾——模型本身的推理能力与输出方式、评估体系之间存在明显“鸿沟”。正如一位专家所言,“就像你让象棋大师用电报逐步发来每一步棋谱,他一定会受限于电报长度,但这不等于他不会下棋。”当前主流大模型拥有强大的内部推理和规划能力,但受制于输出格式、评估维度,往往被“低估”了真实水平。未来,AI推理任务的评测体系必然向更科学、更智能化方向发展。

恒意说两句:让AI回归本质,推动科学评估

争议的背后,其实是AI科学精神的胜利。苹果团队大胆提出“推理崩溃”假说,推动了业界对AI认知边界的反思。但正如Lawsen等学者所呼吁的,科学的实验方法和评估体系必须尊重技术的本质。只有厘清“推理”与“输出”、“可解”与“误判”的边界,我们才能真正推动AI朝着更智能、更贴近人类思维的方向进化。对科技和AI抱有好奇心的各位科学小伙伴们,也应学会用更严谨的眼光去理解和评价每一项突破——真正的创新,往往在质疑与讨论中成长。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
师徒对决暗藏杀机!阿韦洛亚率皇马迎战穆里尼奥,关键战不容有失

师徒对决暗藏杀机!阿韦洛亚率皇马迎战穆里尼奥,关键战不容有失

星耀国际足坛
2026-01-27 23:54:27
1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

1951年,戴笠独子被处决,蒋介石两年后下令:他的子孙全接回台湾

古书记史
2025-12-11 17:37:45
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

58岁那英改走颜值路线?过度医美变化大到认不出,这是要闹哪出?

锋哥与八卦哥
2026-01-25 13:26:51
0:3!天津女排惨败,狂输29分,替补阵容太差,上海外援高效

0:3!天津女排惨败,狂输29分,替补阵容太差,上海外援高效

跑者排球视角
2026-01-27 23:02:22
快讯!美国爆发大规模混乱,奥巴马痛骂白宫,特朗普被迫“认怂”

快讯!美国爆发大规模混乱,奥巴马痛骂白宫,特朗普被迫“认怂”

现代小青青慕慕
2026-01-27 09:56:37
快报!伊朗的“帮手”开始回归!

快报!伊朗的“帮手”开始回归!

达文西看世界
2026-01-27 15:52:40
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
U23亚洲杯结束第3天 下一届分档曝光:中国队升第三档 也有坏消息

U23亚洲杯结束第3天 下一届分档曝光:中国队升第三档 也有坏消息

侃球熊弟
2026-01-28 00:15:03
塌,都塌,塌点好啊

塌,都塌,塌点好啊

求实处
2026-01-26 19:10:03
支持率暴跌后,高市这下慌了,日本商界发声:绝不能离开中国

支持率暴跌后,高市这下慌了,日本商界发声:绝不能离开中国

阿銍武器装备科普
2026-01-26 21:19:28
是什么逼的国企干部上门打人

是什么逼的国企干部上门打人

阿亮评论
2026-01-27 12:11:01
炸锅了!《纽约时报》急了,中国高校霸榜,西方名校彻底坐不住了

炸锅了!《纽约时报》急了,中国高校霸榜,西方名校彻底坐不住了

解说阿洎
2026-01-27 16:05:21
利好来了!昨晚,这些公司公告业绩大增

利好来了!昨晚,这些公司公告业绩大增

数据宝
2026-01-27 08:08:44
陆游81岁写下一首梅花诗,短短二十八个字,写尽人间最美相思!

陆游81岁写下一首梅花诗,短短二十八个字,写尽人间最美相思!

铭记历史呀
2026-01-26 19:50:33
唐朝大将薛仁贵坑杀13万铁勒人,强迫铁勒公主为妾,却活到了70岁

唐朝大将薛仁贵坑杀13万铁勒人,强迫铁勒公主为妾,却活到了70岁

铭记历史呀
2026-01-27 15:01:12
哇塞!神级交易!湖人老铁太够意思啦!

哇塞!神级交易!湖人老铁太够意思啦!

体育新角度
2026-01-27 17:02:29
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
票房高的吓人的十大烂片,每部都是业界奇耻大辱

票房高的吓人的十大烂片,每部都是业界奇耻大辱

小Q侃电影
2026-01-27 20:21:44
2026-01-28 00:51:00
科学伙伴 incentive-icons
科学伙伴
把科学用通俗易懂的方式带到您身边
173文章数 40关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

头条要闻

因楼下邻居关闭水阀女子家中断水400天 起诉索赔被驳

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

艺术
时尚
本地
游戏
公开课

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

被女队友踢出战队,只因为男队员太想赢了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版