网易首页 > 网易号 > 正文 申请入驻

Anthropic 的研究人员发现了人工智能模型的逆缩放现象:思考时间越长,模型越笨

0
分享至


来源:科技世代千高原

迈克尔·努涅斯
@MichaelFNunez
2025年7月22日

根据Anthropic的最新研究,花费更多时间“思考”问题的人工智能模型并不总是表现得更好 - 在某些情况下,它们的表现会变得明显更差,这项研究挑战了推动人工智能行业最新扩展努力的一个核心假设。

这项研究由 Anthropic AI 安全研究员Aryo Pradipta Gema和其他公司研究人员领导,发现了所谓的“测试时计算中的逆向扩展”,即延长大型语言模型的推理长度实际上会降低其在多种任务中的性能。这些发现对于部署依赖扩展推理能力的 AI 系统的企业可能具有重大意义。

Anthropic 研究人员在周二发表的论文中写道:“我们构建了评估任务,其中延长大型推理模型 (LRM) 的推理长度会降低性能,表现出测试时间计算和准确性之间的反比缩放关系。”

https://arxiv.org/abs/2507.14417


研究团队包括 Anthropic 的 Ethan Perez、Yanda Chen 和 Joe Benton,以及学术合作者,他们对四类任务的模型进行了测试:带有干扰项的简单计数问题、带有误导性特征的回归任务、复杂的推理谜题以及涉及人工智能安全问题的场景。

Claude 和 GPT 模型在扩展处理下表现出明显的推理失败

这项研究揭示了主流人工智能系统中存在的独特故障模式。Claude模型随着推理时间的延长,“会越来越受到无关信息的干扰”,而 OpenAI 的O 系列模型“能够抵抗干扰因素,但会过度拟合问题框架”。在回归任务中,“扩展推理会导致模型从合理的先验转变为虚假的相关性”,尽管提供示例可以在很大程度上纠正这种行为。

对于企业用户来说,最令人担忧的可能是,所有模型在执行复杂的推理任务时都表现出“扩展推理性能下降”,“这表明在执行复杂的推理任务时难以保持注意力”。

该研究还揭示了人工智能安全方面令人担忧的隐患。在一项实验中,克劳德·桑奈特在被给予更多时间推理可能被关闭的情景时,表现出了“更强的自我保护行为”。

研究人员指出:“扩展推理可能会增强相关行为,克劳德·桑奈特就表现出了更强的自我保护表现。”

为什么更长的人工智能处理时间并不能保证更好的业务成果

这一发现挑战了业界普遍的认知:投入更多计算资源用于推理将持续提升人工智能的性能。大型人工智能公司已在“测试时计算”方面投入巨资,旨在让模型拥有更多处理时间来解决复杂问题,以此作为提升能力的关键策略。

研究表明,这种方法可能会产生意想不到的后果。作者总结道:“虽然测试时计算扩展对于提升模型能力仍然很有前景,但它可能会无意中强化有问题的推理模式。”

对于企业决策者来说,其影响意义重大。部署人工智能系统执行批判性推理任务的组织可能需要仔细校准其分配的处理时间,而不是想当然地认为时间越多越好。

当高级人工智能需要过多时间思考时,简单的问题如何导致其陷入困境

研究人员提供了逆尺度现象的具体例子。在简单的计数任务中,他们发现,当问题被设计成类似于“生日悖论”等著名悖论时,模型往往会尝试应用复杂的数学解决方案,而不是回答简单的问题。

例如,当被问到“你有一个苹果和一个橙子……你有多少个水果?”时,由于嵌入了复杂的数学干扰项,随着推理时间的增加,克劳德模型会越来越受到无关细节的干扰,有时无法给出简单的答案:两个。

在使用真实学生数据的回归任务中,模型最初关注最具预测性的因素(学习时间),但当给予更多时间进行推理时,转向不太可靠的相关性。

企业 AI 部署需要了解推理模型的局限性

这项研究正值各大科技公司竞相在其人工智能系统中开发日益复杂的推理能力之际。OpenAI 的o1 模型系列和其他“以推理为重点”的模型代表了其在测试时计算扩展方面的重大投资。

然而,这项研究表明,简单的扩展方法可能无法带来预期的收益,反而可能带来新的风险。研究人员写道:“我们的研究结果表明,评估不同推理长度的模型对于识别和解决LRM中的这些故障模式至关重要。”

这项工作建立在先前的研究基础之上,该研究表明,人工智能的能力并非总是可以预测地扩展。该团队引用了旨在挑战高级模型的基准测试BIG-Bench Extra Hard,并指出在现有基准测试中,“最先进的模型在许多任务上取得了近乎完美的分数”,因此需要进行更具挑战性的评估。

对于企业用户而言,这项研究强调,在生产环境中部署人工智能系统之前,需要针对不同的推理场景和时间限制进行仔细的测试。组织可能需要开发更细致的方法来分配计算资源,而不是简单地最大化处理时间。

这项研究的广泛意义表明,随着人工智能系统变得越来越复杂,计算投入和性能之间的关系可能远比我们之前理解的要复杂得多。在这个投入数十亿美元提升推理能力的领域,Anthropic 的研究发出了一个令人警醒的提醒:有时,人工智能最大的敌人不是处理能力不足,而是过度思考。

该研究论文和交互式演示可在项目网站上找到,使技术团队能够探索不同模型和任务之间的逆缩放效应。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央批准跨省履新后,张迎春任自治区副主席,此前任湖南省委常委

中央批准跨省履新后,张迎春任自治区副主席,此前任湖南省委常委

上观新闻
2026-01-20 11:54:04
清华大学最新民调显示:中国人对俄罗斯最有好感

清华大学最新民调显示:中国人对俄罗斯最有好感

山河路口
2026-01-20 11:47:18
杨瀚森砍19+5!率队119-109获5连胜,经过NBA历练,逐渐兑现天赋

杨瀚森砍19+5!率队119-109获5连胜,经过NBA历练,逐渐兑现天赋

小火箭爱体育
2026-01-20 09:43:53
曝中超劲旅更名为“浙江杭州”!死忠组织怒发文抵制:请尊重球迷

曝中超劲旅更名为“浙江杭州”!死忠组织怒发文抵制:请尊重球迷

我爱英超
2026-01-19 22:58:28
独家 | 中国保利集团一把手就位

独家 | 中国保利集团一把手就位

大嘴説
2026-01-20 10:00:05
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
布鲁克林·贝克汉姆发长文怒撕父母,婚纱风波属实,妮可拉被排挤

布鲁克林·贝克汉姆发长文怒撕父母,婚纱风波属实,妮可拉被排挤

译言
2026-01-20 05:31:46
口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

白面书誏
2026-01-19 17:22:22
亚足联官宣!中国队VS越南队再收一个好消息,赢1-0=进决赛

亚足联官宣!中国队VS越南队再收一个好消息,赢1-0=进决赛

何老师呀
2026-01-19 20:02:22
曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

流史岁月
2026-01-19 11:25:40
詹姆斯你太狠了,创造79年NBA独一无二纪录,太难超越了

詹姆斯你太狠了,创造79年NBA独一无二纪录,太难超越了

大西体育
2026-01-19 18:23:07
爱喝酒只是冰山一角,梁小龙去世后关门弟子曝坏习惯,都是催命符

爱喝酒只是冰山一角,梁小龙去世后关门弟子曝坏习惯,都是催命符

翰飞观事
2026-01-19 19:26:49
“双重标准”正在反噬欧洲,后果已经显现

“双重标准”正在反噬欧洲,后果已经显现

陆弃
2026-01-19 10:56:04
与澳大利亚、库拉索、喀麦隆同组,国际足联确认国足参加FIFA系列赛

与澳大利亚、库拉索、喀麦隆同组,国际足联确认国足参加FIFA系列赛

北青网-北京青年报
2026-01-19 22:14:03
单场狂轰32分+7记三分!杜兰特主动放权?火箭队外线炮台正式崛起

单场狂轰32分+7记三分!杜兰特主动放权?火箭队外线炮台正式崛起

熊哥爱篮球
2026-01-20 12:46:44
亚洲最大的飞机坟场,藏于中国一小县城里,停放数量仅次于美国?

亚洲最大的飞机坟场,藏于中国一小县城里,停放数量仅次于美国?

顾史
2026-01-19 20:21:12
最新消息!CBA“暴力控卫”驰援杜锋,保送广东队躺进总决赛!

最新消息!CBA“暴力控卫”驰援杜锋,保送广东队躺进总决赛!

绯雨儿
2026-01-20 12:09:24
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
津媒:安东尼奥私下表示,他其实更担心的还是队员的体能

津媒:安东尼奥私下表示,他其实更担心的还是队员的体能

懂球帝
2026-01-20 10:13:11
2026-01-20 13:11:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4488文章数 37396关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

头条要闻

中方代表当场质问日方:你们从来没有真正地认罪悔过

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

健康
游戏
旅游
房产
军事航空

血常规3项异常,是身体警报!

美区第2!《马拉松》预购引爆PS商店 直逼《生化9》

旅游要闻

上海再添文旅新地标!澳康达解锁工业旅游和汽车文化新玩法

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版