网易首页 > 网易号 > 正文 申请入驻

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:LRST

【新智元导读】斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP,在长上下文任务中全面超越了现有的主流框架ReAct,性能提升显著。ReCAP通过独特的递归树结构和三大机制,解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。在多项基准测试中,ReCAP均取得了大幅领先的成绩,展现出强大的通用性和稳定性。尽管计算成本略有增加,但其在关键任务中的表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架提出以来,AI智能体推理领域便进入了百家争鸣的时代,各种复杂架构如雨后春笋般涌现。

然而,这些架构大多昙花一现,因其复杂的结构导致在更换评测基准时需要大幅修改示例,表现远不如ReAct稳定泛用,这也使得ReAct在过去三年中,成为了该领域事实上的主流与标杆。

但是,我们真的不能再做得更好了吗?

面对大模型在长上下文任务中走几步就忘的短期记忆顽疾,业界是否只能止步于此?

来自斯坦福大学与MIT的研究团队给出了肯定答案,正式发布的AI Agent推理新框架——ReCAP(递归上下文感知推理与规划),从真正意义上统一了序列推理和层级推理,在多种任务中全面战胜了ReAct,且继承了ReAct示例简单、高通用性,和即插即用的优势。


论文链接:https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1(一次通过)的评测原则下,ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%(同步)和112.5%(异步)的巨大性能提升。

长上下文任务的三大「死穴」

团队指出,当今大语言模型在执行复杂任务时普遍有三种问题:


简单说,LLM就像一个短期记忆型天才,而主流推理框架各有局限:

ReCAP

让序列推理和层级推理有机结合


ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区,其三大机制环环相扣:

实验结果

长上下文任务性能大幅跃升


团队在多个典型长上下文推理基准上验证了ReCAP的效果。结果令人瞩目:

值得注意的是,团队在实验中始终秉持pass@1的实验原则,即不使用样本层面的重试、多数投票或者束搜索。这意味着ReCAP能在真实多步环境中,更好地保持目标一致性与执行连贯性——不仅「想得对」,还能「做得稳」。

ReCAP是除ReAct之外,又一个能够在具身推理、以及代码编辑这两种截然不同的任务上都取得稳健表现的通用推理架构。

论文中排除了THREAD、Reflexion等其他基线,因其在实验设置中难以稳定复现或与 pass@1 协议不兼容,这进一步凸显了ReCAP作为新一代通用推理基线的潜力。

优势与成本的权衡

任何强大的能力都伴随着成本。团队对此进行了透明分析:ReCAP的总计算成本约为ReAct的三倍。这主要来自于其核心的计划前瞻分解机制所额外需要的LLM调用。

然而,考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。

递归,是通往通用智能的钥匙?

从人类思维到图灵机,递归始终是智能的底层逻辑。ReCAP的提出,可视为AI迈向通用推理系统的关键一步。

其潜力远不止于论文所验证的任务范畴。任何依赖复杂决策回路与长期上下文记忆的大型任务,都是ReCAP的理想应用场景。

例如在深度研究中自主遍历文献、整合多源信息并生成洞察报告;或在复杂软件工程中管理庞大代码库与依赖关系,推进需多步验证的系统项目。

长远来看,ReCAP的递归规划能力可以与空间智能相结合,解决更为复杂的现实世界问题。李飞飞教授近日指出,空间智能——即理解、推理并与三维世界交互的能力,是AI的下一个前沿。

ReCAP可以为具身智能机器人规划复杂的长期任务序列,而空间智能模型则负责处理实时感知与动作控制,二者结合实现机器人在动态环境中的自主规划与可靠执行。

随着代码的开源,一个更擅长长期规划、稳健执行的AI时代或许即将到来。

作者介绍

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均为斯坦福大学工程学院计算机系硕士研究生

Alex Pentland教授,麻省理工学院媒体实验室 创始人之一,美国国家工程院院士,Toshiba Professor at MIT,斯坦福大学 HAI Fellow。

Jiaxin Pei博士,斯坦福大学博士后研究员,研究兴趣集中在大语言模型、人机交互、Agentic AI,即将前往得克萨斯大学奥斯汀分校任教。

参考资料:

https://arxiv.org/pdf/2510.23822

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA最新消息!曝亨特加盟辽宁男篮,刘炜离开新疆男篮

CBA最新消息!曝亨特加盟辽宁男篮,刘炜离开新疆男篮

体坛瞎白话
2026-01-03 08:09:21
长公主,李小冉。国民气质女神。看美女,心情好

长公主,李小冉。国民气质女神。看美女,心情好

阿废冷眼观察所
2026-01-03 13:18:26
广东伤情报告!徐杰开始力量训练 奎因进行有球训练 麦考尔拆掉护

广东伤情报告!徐杰开始力量训练 奎因进行有球训练 麦考尔拆掉护

郝小小看体育
2026-01-03 13:25:20
特朗普为何想结束俄乌冲突?原来最可怕的结果是:俄乌分出了输赢

特朗普为何想结束俄乌冲突?原来最可怕的结果是:俄乌分出了输赢

近史博览
2026-01-03 13:42:14
快船重大喜讯!祖巴茨火速回归或打替补,驰援哈登小卡冲7连胜

快船重大喜讯!祖巴茨火速回归或打替补,驰援哈登小卡冲7连胜

体坛小李
2026-01-03 10:29:59
2026有望爆发的十大科技趋势!(附龙头名单)

2026有望爆发的十大科技趋势!(附龙头名单)

林子说事
2026-01-02 15:36:28
哈登被指控不负责任!一女子要求他抚养儿子:该拿出成年人的态度

哈登被指控不负责任!一女子要求他抚养儿子:该拿出成年人的态度

罗说NBA
2026-01-03 08:37:43
人形机器人真相:这8家公司才是真核心,手握机器人“关键命脉”

人形机器人真相:这8家公司才是真核心,手握机器人“关键命脉”

侃故事的阿庆
2026-01-02 15:39:25
湖人队主教练雷迪克在球队近期战绩不佳之际,更新了文森特的伤情

湖人队主教练雷迪克在球队近期战绩不佳之际,更新了文森特的伤情

好火子
2026-01-03 13:39:44
王薇薇在美国豪宅过年,太豪气,老母亲请年轻帅气的厨师做中餐!

王薇薇在美国豪宅过年,太豪气,老母亲请年轻帅气的厨师做中餐!

乐悠悠娱乐
2026-01-03 12:17:57
油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价大降超0.53元/升,元旦假期油价跌到6元时代后,1月6日或上涨

油价早知道
2026-01-03 00:15:43
贪官落马后,钱流到哪里去?留给家人?别做梦了!

贪官落马后,钱流到哪里去?留给家人?别做梦了!

李博世财经
2026-01-03 11:18:55
朱进回应起诉一事 亲生母亲要和朱进断绝关系 弟弟直播晒证据澄清

朱进回应起诉一事 亲生母亲要和朱进断绝关系 弟弟直播晒证据澄清

TVB的四小花
2026-01-03 12:58:51
鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

萌神木木
2026-01-03 10:37:59
43岁孙俪苏州拍戏一脸凶相!对粉丝翻白眼好吓人,助理追着路人撵

43岁孙俪苏州拍戏一脸凶相!对粉丝翻白眼好吓人,助理追着路人撵

观察鉴娱
2026-01-01 13:04:06
烟草开门红变开门雷,仓库堆满高档烟谁来买单?

烟草开门红变开门雷,仓库堆满高档烟谁来买单?

诗意世界
2025-11-13 09:42:21
16GB+1TB!新机官宣:搭载骁龙8 Elite Gen5+双卫星通信!

16GB+1TB!新机官宣:搭载骁龙8 Elite Gen5+双卫星通信!

科技堡垒
2026-01-01 11:32:37
潘晓婷一杆将2025打成2026,网友:差点以为是AI,看你明年怎么打出2027

潘晓婷一杆将2025打成2026,网友:差点以为是AI,看你明年怎么打出2027

极目新闻
2026-01-02 11:27:05
张治中问伟人:能否给“蒋介石”留一条退路?伟人只回了一句话!

张治中问伟人:能否给“蒋介石”留一条退路?伟人只回了一句话!

鹤羽说个事
2025-12-19 14:39:02
毛主席的专职厨子程汝明,晚年透露伟人爱吃3样食物,分别是哪3样

毛主席的专职厨子程汝明,晚年透露伟人爱吃3样食物,分别是哪3样

南书房
2026-01-03 13:00:03
2026-01-03 14:31:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1898307文章数 5146关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

头条要闻

孩子后脑勺摔出一个大口子 夫妻看监控"眼泪就下来了"

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

人工智能四问:投资泡沫出现了吗?

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

亲子
时尚
家居
房产
本地

亲子要闻

如果孩子有这几个特征,长大可能会很聪明

伊姐元旦热推:电视剧《人之初》;电视剧《轻年》......

家居要闻

无形有行 自然与灵感诗意

房产要闻

海大誉府新年家年华暨2号楼耀世加推发布会圆满落幕

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

无障碍浏览 进入关怀版