AI能力极限之争｜苹果“崩溃论”引发新质疑背后的科学真相|推理|实验|复杂度|苹果公司|知名企业

AI能力极限之争｜苹果“崩溃论”引发新质疑背后的科学真相

2025-06-15 10:36:00　来源: 科学伙伴

北京举报

分享至

Science Partner

Bring you to the side of science

导读

各位科学的小伙伴们，前不久，苹果研究团队在arXiv上发布了一篇论文，声称主流大语言模型（如Claude、Gemini等）在复杂推理解谜任务面前会出现“推理崩溃”。这一结论不仅在学界引发激辩，还被英国计算机科学家Lawsen的反驳论文《思维幻觉的幻觉》（The Illusion of the Illusion of Thinking）所挑战。Lawsen认为苹果团队的“崩溃”更多是实验设计和评估方式的错觉，并非大模型推理本身的极限。究竟AI的推理能力有多强，我们又该如何科学评价？本篇为您深度解读。

主笔 | 恒意

● ● ●

AI能力极限之争｜苹果“崩溃论”引发新质疑背后的科学真相

“推理崩溃”之谜：苹果团队的研究为何引发争议？

2025年6月，苹果研究员Parshin Shojaee与Iman Mirzadeh在arXiv发表论文，设计出一系列经典解谜任务——如汉诺塔、渡河谜题等，测试当今最强语言模型在这些任务上的推理表现。研究将任务难度分为低、中、高三档，数据显示，模型在高复杂度任务上准确率“断崖式下滑”。苹果团队据此提出推理能力遇到“瓶颈”，甚至断言“没有发现正式推理证据，模型行为更像高级模式匹配”。这一结论立刻引发轰动，国内外科技媒体如The Verge、MIT Technology Review等均对此报道。

真相只是一场“错觉”？Lawsen为何提出异议

面对苹果团队“推理崩溃”论断，英国牛津AI研究员Alex Lawsen发表了题为《思维幻觉的幻觉》的系统评论。他强调，苹果的实验其实混淆了输出极限（即每次模型最多生成多少字）与推理极限。以汉诺塔为例，8盘及以上的复杂度下，要输出全部操作步骤，Claude模型早已达到输出上限。Lawsen发现，模型甚至在输出中明确标注“为节省长度，后续省略”，并非推理出错。此外，苹果实验还将“无解题目”算作模型失败，比如渡河谜题的“船太小无法完成”，模型理性拒绝解答却被评为“推理崩溃”。Lawsen用优化代码和算法性输出对模型重新测试，发现其在15盘汉诺塔等超高复杂度问题上依然具备严密的推理能力。

AI推理能力究竟应如何科学评估？

Lawsen的质疑让人重新思考：我们该如何科学地测试AI的推理能力？他指出，若仅仅用“枚举每一步骤并完整输出”衡量模型能力，实则受限于token输出上限，无法反映算法层面的真正推理。此外，实验应剔除数学上无解的题目，否则混淆了“无解”与“不会解”的概念。当前AI社区已开始反思，呼吁采用多样化结果表示（如代码、策略函数等）、问题可解性验证及分层评判标准。这不仅有助于更准确地刻画AI认知极限，也为模型训练及应用场景提供有价值的反馈。

“推理”与“输出”的鸿沟：AI的能力边界在哪里？

苹果与Lawsen之争实际上揭示了AI推理领域的一个核心矛盾——模型本身的推理能力与输出方式、评估体系之间存在明显“鸿沟”。正如一位专家所言，“就像你让象棋大师用电报逐步发来每一步棋谱，他一定会受限于电报长度，但这不等于他不会下棋。”当前主流大模型拥有强大的内部推理和规划能力，但受制于输出格式、评估维度，往往被“低估”了真实水平。未来，AI推理任务的评测体系必然向更科学、更智能化方向发展。

恒意说两句：让AI回归本质，推动科学评估

争议的背后，其实是AI科学精神的胜利。苹果团队大胆提出“推理崩溃”假说，推动了业界对AI认知边界的反思。但正如Lawsen等学者所呼吁的，科学的实验方法和评估体系必须尊重技术的本质。只有厘清“推理”与“输出”、“可解”与“误判”的边界，我们才能真正推动AI朝着更智能、更贴近人类思维的方向进化。对科技和AI抱有好奇心的各位科学小伙伴们，也应学会用更严谨的眼光去理解和评价每一项突破——真正的创新，往往在质疑与讨论中成长。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.