网易首页 > 网易号 > 正文 申请入驻

苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

0
分享至

IT之家 6 月 8 日消息,苹果机器学习研究中心于当地时间 6 月 6 日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 Parshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。

研究团队提出,模型表现可分为三个阶段:

  • 低复杂度任务:传统大模型(IT之家注:如 Claude-3.7 无思维版本)表现更佳;
  • 中等复杂度任务:具备思维机制的大型推理模型(LRMs)更占优势;
  • 高复杂度任务:两类模型均陷入完全失效状态。

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”

参考资料:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
北京3万平米城市奥莱下周闭店!官方回应储值卡…网友发告别贴

北京3万平米城市奥莱下周闭店!官方回应储值卡…网友发告别贴

说故事的阿袭
2026-03-25 17:17:10
赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

林子说事
2026-03-26 14:10:10
农用无人机载客!大疆:吊销“驾照”

农用无人机载客!大疆:吊销“驾照”

热点科技
2026-03-26 11:30:59
正式生效! 澳洲宣布: 今天起暂关边境, 禁止入境, 新申请不批! 6.1万签证持有者受影响

正式生效! 澳洲宣布: 今天起暂关边境, 禁止入境, 新申请不批! 6.1万签证持有者受影响

澳微Daily
2026-03-26 14:25:21
张雪峰,倒在上市前夜

张雪峰,倒在上市前夜

帅真商业
2026-03-25 11:31:43
伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

伊朗大杀器登场,以色列被打疼,美迎来不眠之夜,特朗普被迫让步

谛听骨语本尊
2026-03-26 16:37:43
国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

西莫的艺术宫殿
2026-03-26 15:20:40
江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

江苏一男子为控制血糖,每天坚持走路9000步,半年后他的身体咋样

徐医生健康讲坛
2026-03-26 13:57:18
巴蒂:马拉多纳是个伟大的球员,却像条狗一样孤独死去

巴蒂:马拉多纳是个伟大的球员,却像条狗一样孤独死去

生活新鲜市
2026-03-26 16:48:30
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

1954 年万余战俘抵台,蒋题字蒋经国落泪,竟有人投海

唠叨说历史
2026-03-20 17:26:29
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

好辣眼睛!黄多多穿三点式泳装,20岁身材矮小,在国外思想开放

章眽八卦
2026-03-26 13:22:27
周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

可乐谈情感
2026-03-26 13:42:47
心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

心梗去世的人越来越多?专家提醒:没事宁可做家务,也别做这8事

叙说医疗健康
2026-03-12 22:00:05
人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

人民日报、环球时报接连发出警示:日本的军国主义獠牙已露出来了

贱议你读史
2026-03-24 00:30:08
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
费率0.3%,社保“第六险”来了,退休人员也要交

费率0.3%,社保“第六险”来了,退休人员也要交

财话连篇
2026-03-26 13:09:33
2026-03-26 18:04:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
亲子
数码
房产

教育要闻

中小学家长必看数据,看与不看都会后悔

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版