网易首页 > 网易号 > 正文 申请入驻

Anthropic 的研究人员发现了人工智能模型的逆缩放现象:思考时间越长,模型越笨

0
分享至


来源:科技世代千高原

迈克尔·努涅斯
@MichaelFNunez
2025年7月22日

根据Anthropic的最新研究,花费更多时间“思考”问题的人工智能模型并不总是表现得更好 - 在某些情况下,它们的表现会变得明显更差,这项研究挑战了推动人工智能行业最新扩展努力的一个核心假设。

这项研究由 Anthropic AI 安全研究员Aryo Pradipta Gema和其他公司研究人员领导,发现了所谓的“测试时计算中的逆向扩展”,即延长大型语言模型的推理长度实际上会降低其在多种任务中的性能。这些发现对于部署依赖扩展推理能力的 AI 系统的企业可能具有重大意义。

Anthropic 研究人员在周二发表的论文中写道:“我们构建了评估任务,其中延长大型推理模型 (LRM) 的推理长度会降低性能,表现出测试时间计算和准确性之间的反比缩放关系。”

https://arxiv.org/abs/2507.14417


研究团队包括 Anthropic 的 Ethan Perez、Yanda Chen 和 Joe Benton,以及学术合作者,他们对四类任务的模型进行了测试:带有干扰项的简单计数问题、带有误导性特征的回归任务、复杂的推理谜题以及涉及人工智能安全问题的场景。

Claude 和 GPT 模型在扩展处理下表现出明显的推理失败

这项研究揭示了主流人工智能系统中存在的独特故障模式。Claude模型随着推理时间的延长,“会越来越受到无关信息的干扰”,而 OpenAI 的O 系列模型“能够抵抗干扰因素,但会过度拟合问题框架”。在回归任务中,“扩展推理会导致模型从合理的先验转变为虚假的相关性”,尽管提供示例可以在很大程度上纠正这种行为。

对于企业用户来说,最令人担忧的可能是,所有模型在执行复杂的推理任务时都表现出“扩展推理性能下降”,“这表明在执行复杂的推理任务时难以保持注意力”。

该研究还揭示了人工智能安全方面令人担忧的隐患。在一项实验中,克劳德·桑奈特在被给予更多时间推理可能被关闭的情景时,表现出了“更强的自我保护行为”。

研究人员指出:“扩展推理可能会增强相关行为,克劳德·桑奈特就表现出了更强的自我保护表现。”

为什么更长的人工智能处理时间并不能保证更好的业务成果

这一发现挑战了业界普遍的认知:投入更多计算资源用于推理将持续提升人工智能的性能。大型人工智能公司已在“测试时计算”方面投入巨资,旨在让模型拥有更多处理时间来解决复杂问题,以此作为提升能力的关键策略。

研究表明,这种方法可能会产生意想不到的后果。作者总结道:“虽然测试时计算扩展对于提升模型能力仍然很有前景,但它可能会无意中强化有问题的推理模式。”

对于企业决策者来说,其影响意义重大。部署人工智能系统执行批判性推理任务的组织可能需要仔细校准其分配的处理时间,而不是想当然地认为时间越多越好。

当高级人工智能需要过多时间思考时,简单的问题如何导致其陷入困境

研究人员提供了逆尺度现象的具体例子。在简单的计数任务中,他们发现,当问题被设计成类似于“生日悖论”等著名悖论时,模型往往会尝试应用复杂的数学解决方案,而不是回答简单的问题。

例如,当被问到“你有一个苹果和一个橙子……你有多少个水果?”时,由于嵌入了复杂的数学干扰项,随着推理时间的增加,克劳德模型会越来越受到无关细节的干扰,有时无法给出简单的答案:两个。

在使用真实学生数据的回归任务中,模型最初关注最具预测性的因素(学习时间),但当给予更多时间进行推理时,转向不太可靠的相关性。

企业 AI 部署需要了解推理模型的局限性

这项研究正值各大科技公司竞相在其人工智能系统中开发日益复杂的推理能力之际。OpenAI 的o1 模型系列和其他“以推理为重点”的模型代表了其在测试时计算扩展方面的重大投资。

然而,这项研究表明,简单的扩展方法可能无法带来预期的收益,反而可能带来新的风险。研究人员写道:“我们的研究结果表明,评估不同推理长度的模型对于识别和解决LRM中的这些故障模式至关重要。”

这项工作建立在先前的研究基础之上,该研究表明,人工智能的能力并非总是可以预测地扩展。该团队引用了旨在挑战高级模型的基准测试BIG-Bench Extra Hard,并指出在现有基准测试中,“最先进的模型在许多任务上取得了近乎完美的分数”,因此需要进行更具挑战性的评估。

对于企业用户而言,这项研究强调,在生产环境中部署人工智能系统之前,需要针对不同的推理场景和时间限制进行仔细的测试。组织可能需要开发更细致的方法来分配计算资源,而不是简单地最大化处理时间。

这项研究的广泛意义表明,随着人工智能系统变得越来越复杂,计算投入和性能之间的关系可能远比我们之前理解的要复杂得多。在这个投入数十亿美元提升推理能力的领域,Anthropic 的研究发出了一个令人警醒的提醒:有时,人工智能最大的敌人不是处理能力不足,而是过度思考。

该研究论文和交互式演示可在项目网站上找到,使技术团队能够探索不同模型和任务之间的逆缩放效应。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

我不叫阿哏
2025-11-20 06:00:59
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

卡西莫多的故事
2025-11-14 10:21:28
加入CPTPP:关乎未来的“高难度闯关”搏杀

加入CPTPP:关乎未来的“高难度闯关”搏杀

墨心人
2025-11-19 19:42:48
以“爱”为名的毒杀

以“爱”为名的毒杀

澎湃新闻
2025-11-20 07:40:42
日本议员:高市早苗涉台言论令人非常震惊,我心想“这下要完蛋了”

日本议员:高市早苗涉台言论令人非常震惊,我心想“这下要完蛋了”

新京报政事儿
2025-11-20 07:09:31
山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

篮球资讯达人
2025-11-19 21:49:04
日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

日本入常失败,被中方三个字判了死刑,日本代表甚至不敢正面反驳

时时有聊
2025-11-19 20:53:11
又轰下37+5+10+4!抱歉哈登:你要从现役第一变现役第二了

又轰下37+5+10+4!抱歉哈登:你要从现役第一变现役第二了

篮球大视野
2025-11-19 21:59:13
果不其然。
泰国王室突然宣布了苏提达的陆、海、空上将军衔。

果不其然。 泰国王室突然宣布了苏提达的陆、海、空上将军衔。

百态人间
2025-11-20 05:20:03
“Sex,please?”新西兰女游客遭遇恐怖“表白”,全程高能!

“Sex,please?”新西兰女游客遭遇恐怖“表白”,全程高能!

发现新西兰
2025-11-19 12:38:28
社评:日方若不纠正错误,必将承受更重代价

社评:日方若不纠正错误,必将承受更重代价

环球网资讯
2025-11-20 00:50:11
57年,傅作义到功德林看望陈长捷,陈大喊:我这辈子都不会原谅你

57年,傅作义到功德林看望陈长捷,陈大喊:我这辈子都不会原谅你

历史龙元阁
2025-11-19 09:15:09
重磅:莫斯科再遭大规模空袭!俄罗斯最大机场被迫关闭

重磅:莫斯科再遭大规模空袭!俄罗斯最大机场被迫关闭

项鹏飞
2025-11-19 19:27:42
武统台湾的难度和代价有多大?远超多数人的想象!

武统台湾的难度和代价有多大?远超多数人的想象!

山间听雨
2025-11-19 12:25:23
细说郭伟学术造假骗局始末

细说郭伟学术造假骗局始末

智慧生活笔记
2025-11-20 05:59:39
已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

鹿楠
2025-11-18 22:45:03
前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

不掉线电波
2025-11-19 16:31:08
6亿成本拖了8年,《美人鱼2》烂尾,华谊连亏5年,周星驰也很无奈

6亿成本拖了8年,《美人鱼2》烂尾,华谊连亏5年,周星驰也很无奈

电影票房预告片
2025-11-19 23:17:51
重磅!Shams曝:浓眉正式摆上交易货架,湖勇抢人了!

重磅!Shams曝:浓眉正式摆上交易货架,湖勇抢人了!

篮坛篮谈
2025-11-20 10:11:01
“地表最强特警”任山西公安厅副厅长,曾负责奥运会安保任务

“地表最强特警”任山西公安厅副厅长,曾负责奥运会安保任务

南方都市报
2025-11-19 20:30:07
2025-11-20 10:32:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4331文章数 37340关注度
往期回顾 全部

科技要闻

英伟达单季狂揽570亿美元,手握5000亿订单

头条要闻

牛弹琴:荷兰暂时服软了 给出的理由让全世界哭笑不得

头条要闻

牛弹琴:荷兰暂时服软了 给出的理由让全世界哭笑不得

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

英伟达财报,超预期

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

本地
亲子
游戏
公开课
军事航空

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

亲子要闻

山东不能有0!大哥带怀孕17周妻子堕胎,原因曝光网友炸锅

《潜行者2》发售一周年Steam七折促销 现已登PS5

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版