研究争议焦点
2025年6月13日,Open Philanthropy研究员Alex Lawsen发表论文《思考错觉的错觉》,对苹果公司AI研究团队此前发布的《思考的错觉》报告提出系统性反驳。苹果原报告声称,即使最先进的大语言模型(LRM)在复杂任务中也会出现"推理崩溃"。
实验设计质疑
Lawsen指出苹果研究的三大方法论缺陷:首先,模型在解决"河内塔"8层以上问题时遭遇的失败,实因输出令牌数限制被忽略;其次,测试中混入数学上无解的"渡河难题"样本;最后,自动化评估脚本未能区分真正的推理失败与输出截断。研究特别提到,Anthropic的Claude Opus模型在遇到无解问题时曾明确提示"为节省令牌将终止输出"。
替代实验验证
为验证观点,Lawsen团队改用Lua递归函数生成方式重新测试。结果显示,Claude、Gemini等模型能成功生成解决15层河内塔问题的算法,远超苹果报告中宣称的失效阈值。该实验证实,当解除输出限制后,模型展现的算法推理能力显著优于原结论。
学术争议意义
这场辩论关乎对AI能力的本质评估。Lawsen强调,当前评估体系需要区分"真实推理缺陷"与"工程限制",建议未来研究应改进复杂度度量标准,并采用多元化的解决方案表征方式。不过其论文也承认,大语言模型在算法泛化方面仍存在挑战。
(消息来源:9to5Mac,2025年6月13日报道)
参考链接:
https://9to5mac.com/2025/06/13/new-paper-pushes-back-on-apples-llm-reasoning-collapse-study/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.