网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

研究团队反驳苹果AI论文结论：大语言模型推理能力被低估

2025-06-14 09:20:43　来源: 龙剑秀南

上海举报

0

分享至

研究争议焦点

2025年6月13日，Open Philanthropy研究员Alex Lawsen发表论文《思考错觉的错觉》，对苹果公司AI研究团队此前发布的《思考的错觉》报告提出系统性反驳。苹果原报告声称，即使最先进的大语言模型（LRM）在复杂任务中也会出现"推理崩溃"。

实验设计质疑

Lawsen指出苹果研究的三大方法论缺陷：首先，模型在解决"河内塔"8层以上问题时遭遇的失败，实因输出令牌数限制被忽略；其次，测试中混入数学上无解的"渡河难题"样本；最后，自动化评估脚本未能区分真正的推理失败与输出截断。研究特别提到，Anthropic的Claude Opus模型在遇到无解问题时曾明确提示"为节省令牌将终止输出"。

替代实验验证

为验证观点，Lawsen团队改用Lua递归函数生成方式重新测试。结果显示，Claude、Gemini等模型能成功生成解决15层河内塔问题的算法，远超苹果报告中宣称的失效阈值。该实验证实，当解除输出限制后，模型展现的算法推理能力显著优于原结论。

学术争议意义

这场辩论关乎对AI能力的本质评估。Lawsen强调，当前评估体系需要区分"真实推理缺陷"与"工程限制"，建议未来研究应改进复杂度度量标准，并采用多元化的解决方案表征方式。不过其论文也承认，大语言模型在算法泛化方面仍存在挑战。

（消息来源：9to5Mac，2025年6月13日报道）

参考链接:
https://9to5mac.com/2025/06/13/new-paper-pushes-back-on-apples-llm-reasoning-collapse-study/

声明：内容由AI生成

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

兄弟俩开货车跑货运，在高速上偶遇许久未见同为货车司机的老爸。网友：希望天下所有的爸爸都平平安安！

环球网资讯 2026-06-27 14:04:20
153 跟贴 153
小组第三排名跌至第8位韩国队已命悬一线

封面新闻 2026-06-27 13:54:11
2891 跟贴 2891

我国核聚变堆超导磁体研发取得重要突破

新京报 2026-06-27 10:12:23
2271 跟贴 2271

演员王安宇发布登报声明：本人王安宇，不慎遗失中国传媒大学本科毕业证书和学位证书，现声明作废

都市快报橙柿互动 2026-06-27 16:07:41
801 跟贴 801
卢卡申科“突然”飞抵俄罗斯

上观新闻 2026-06-27 13:05:52
925 跟贴 925

山姆，又出事了！“蠕动的虫子！”

今晚报 2026-06-27 17:03:00
987 跟贴 987

最新：河南省内外高校在豫招生预估分数线汇总

大象新闻 2026-06-27 11:02:16
201 跟贴 201
小姑娘上一次哭得眼眶通红，下一场直接飒爽过桩。最后的回眸惊艳众人！

学申论的谈妹 2026-06-27 20:52:49
105 跟贴 105

中国代表：绝不允许“新型军国主义”成势为患

新华社 2026-06-27 14:25:20
1106 跟贴 1106
欧洲热浪已致上百人死亡，为什么不开空调？

中国能源网 2026-06-25 10:05:41
1113 跟贴 1113
名记：伦纳德已表明他不愿意与活塞签下续约合同

北青网-北京青年报 2026-06-27 12:56:20
242 跟贴 242
陕西省人民政府关于李曙升任职的通知

陕西省人民政府网站 2026-06-28 06:54:06
22 跟贴 22
成渝巴士正式开通运营：单程50元/人，每日7:00至18:00发班

封面新闻 2026-06-27 15:53:12
246 跟贴 246
Siegel：湖人不会在自由球员市场上不惜一切代价留住詹姆斯

北青网-北京青年报 2026-06-27 12:56:07
336 跟贴 336
中国反制裁工具箱将增添"新利器"

澎湃新闻 2026-06-27 16:21:28
65 跟贴 65
中俄空军在日本海等空域联合巡航

新京报 2026-06-27 17:49:52
352 跟贴 352
志愿填报大家谈城市、学校、专业，填报志愿优先考虑哪个

中国青年报 2026-06-27 18:04:14
44 跟贴 44
全民炒股，急踩刹车！韩国股市突变，发生了什么？

证券时报 2026-06-28 07:54:23
2 跟贴 2
比亚迪荣膺可持续发展国际大奖，闪充技术赋能马可波罗新丝路

大象新闻 2026-06-27 19:18:03
101 跟贴 101
中国海军83舰编队结束对俄罗斯友好访问

环球网资讯 2026-06-27 10:48:13
117 跟贴 117
第38届大众电影百花奖投票正火热进行

中国电影报 2026-06-26 12:41:53
6 跟贴 6
30岁男子深夜赶海被海浪卷走漂流8小时后游上岸

闪电新闻 2026-06-28 09:07:22
0 跟贴 0
200万粉丝网红诋毁袁隆平成果，中国食品报痛批

齐鲁壹点 2026-06-28 09:11:15
0 跟贴 0
东鹏辟谣董事长不喝自家饮料，消费者真正关心的是健康问题

映射生活的身影 2026-06-28 09:12:41
0 跟贴 0
男子在马路上遭两车“夹击”！这些离谱行为可能会让你陷入危险

武汉消防 2026-06-28 09:07:47
0 跟贴 0

今天北京有雷阵雨夜间局地雨强较大伴短时大风

今天北京有雷阵雨夜间局地雨强较大伴短时大风

北青网-北京青年报

2026-06-28 07:56:06

四川男生高考692分稳进清华，老师却直言可惜

四川男生高考692分稳进清华，老师却直言可惜

糖逗在娱乐

2026-06-28 03:13:50

活塞与全明星中锋的续约谈判陷入停滞，他可能通过先签后换离队？

活塞与全明星中锋的续约谈判陷入停滞，他可能通过先签后换离队？

稻谷与小麦

2026-06-28 00:05:13

为什么宁可一年掏一万交居民社保，也不碰灵活就业？暗藏4大优势

为什么宁可一年掏一万交居民社保，也不碰灵活就业？暗藏4大优势

王二哥老搞笑

2026-06-27 21:02:13

历史不会重演，但会惊人相似：新能源车，正在重走燃油车的老路

历史不会重演，但会惊人相似：新能源车，正在重走燃油车的老路

沙雕小琳琳

2026-06-27 18:21:33

曝杭州“宋城第一美女”小豆子去世！知情人透露原因，遗体已火化

曝杭州“宋城第一美女”小豆子去世！知情人透露原因，遗体已火化

青梅侃史啊

2026-06-28 07:13:50

为什么小国都不怕中国？伊朗人从外国人的视角，给出了答案。

为什么小国都不怕中国？伊朗人从外国人的视角，给出了答案。

阿七说史

2026-06-24 15:13:01

14个访客31美元，离谱账单背后的真相

14个访客31美元，离谱账单背后的真相

硅屿手记

2026-06-26 10:52:03

白玉兰输给杨紫后续！杨幂不高兴挂脸，知情人曝：这次真不能怪她

白玉兰输给杨紫后续！杨幂不高兴挂脸，知情人曝：这次真不能怪她

可乐谈情感

2026-06-28 00:13:29

2-1！2-0！世界杯L组结局：夺冠热门第1出线韩国又被捅1刀

2-1！2-0！世界杯L组结局：夺冠热门第1出线韩国又被捅1刀

叶青足球世界

2026-06-28 07:04:56

儿子啃老 20 年离世，父亲整理存折，发现密码背后的辛酸往事

儿子啃老 20 年离世，父亲整理存折，发现密码背后的辛酸往事

朝暮书屋

2025-05-15 21:31:28

别羡慕网红赚得多！网红“猴哥”自以为豪的体面，被前妻撕得稀碎

别羡慕网红赚得多！网红“猴哥”自以为豪的体面，被前妻撕得稀碎

君笙的拂兮

2026-06-13 06:55:43

深圳公寓开始“退潮”

小蔡观房

2026-06-27 14:50:32

据爆料：听说某大厂西安研究所一个女员工，终身合同耗了三年不走，今年被hr带着保安抬出公司了。

据爆料：听说某大厂西安研究所一个女员工，终身合同耗了三年不走，今年被hr带着保安抬出公司了。

纯洁的微笑

2026-06-25 12:49:08

韩国队出线只有奇迹小组第三排名跌至第八

韩国队出线只有奇迹小组第三排名跌至第八

韩国观察

2026-06-27 17:39:39

一夜大乱四大影响！魔笛创史凯恩追射手王，葡萄牙迎强敌韩国悲剧

一夜大乱四大影响！魔笛创史凯恩追射手王，葡萄牙迎强敌韩国悲剧

郭夷包工头

2026-06-28 07:53:24

微胖穿搭：那不是遮肉，是重新认识自己的轮廓

微胖穿搭：那不是遮肉，是重新认识自己的轮廓

疾跑的小蜗牛

2026-06-27 21:47:01

阿根廷小组赛门票价格短时间下降25%，阿媒：梅西轮休是主因

阿根廷小组赛门票价格短时间下降25%，阿媒：梅西轮休是主因

兰亭墨未干

2026-06-28 00:19:18

WTT美国大满贯：国乒遇险！直拍名将苦战5局逆转，资格赛艰难晋级

WTT美国大满贯：国乒遇险！直拍名将苦战5局逆转，资格赛艰难晋级

全言作品

2026-06-28 03:50:54

《乘风2026》总决赛成团：范玮琪哽咽感谢大S，与天上的大S对话

《乘风2026》总决赛成团：范玮琪哽咽感谢大S，与天上的大S对话

素素娱乐

2026-06-28 07:41:31

上下东西南北事，往来酸甜苦辣人

4122文章数 68关注度

往期回顾全部

科技要闻

GPT-5.6发布，你暂时用不了！Mythos也放行

头条要闻

佛得角队长被指正因强奸指控接受调查事发于今年3月

头条要闻

佛得角队长被指正因强奸指控接受调查事发于今年3月

体育要闻

世界杯最火门将，站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后，杨紫：仍觉不真实

财经要闻

两只股票撑起的韩国股市，半年熔断 33 次

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

健康

数码

公开课

本地新闻

世界杯球迷节：比球赛更好玩的派对

家居要闻

绿意盎然自然之境

“无糖汤圆”是否隐藏着健康陷阱？

数码要闻

vivo X Fold6体验： AI交互直觉最对味的折叠大屏！

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版