网易首页 > 网易号 > 正文 申请入驻

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

0
分享至


新智元报道

编辑:LRST

【新智元导读】斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP,在长上下文任务中全面超越了现有的主流框架ReAct,性能提升显著。ReCAP通过独特的递归树结构和三大机制,解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。在多项基准测试中,ReCAP均取得了大幅领先的成绩,展现出强大的通用性和稳定性。尽管计算成本略有增加,但其在关键任务中的表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架提出以来,AI智能体推理领域便进入了百家争鸣的时代,各种复杂架构如雨后春笋般涌现。

然而,这些架构大多昙花一现,因其复杂的结构导致在更换评测基准时需要大幅修改示例,表现远不如ReAct稳定泛用,这也使得ReAct在过去三年中,成为了该领域事实上的主流与标杆。

但是,我们真的不能再做得更好了吗?

面对大模型在长上下文任务中走几步就忘的短期记忆顽疾,业界是否只能止步于此?

来自斯坦福大学与MIT的研究团队给出了肯定答案,正式发布的AI Agent推理新框架——ReCAP(递归上下文感知推理与规划),从真正意义上统一了序列推理和层级推理,在多种任务中全面战胜了ReAct,且继承了ReAct示例简单、高通用性,和即插即用的优势。


论文链接:https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1(一次通过)的评测原则下,ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%(同步)和112.5%(异步)的巨大性能提升。

长上下文任务的三大「死穴」

团队指出,当今大语言模型在执行复杂任务时普遍有三种问题:

  • 目标漂移(Goal Drift):执行几步后就逐渐忽略了原本的目标,使得执行结果与期望不符。

  • 上下文断层(Context Loss):高层的规划信息在长序列执行中丢失,导致高层思考与低层执行不协调。

  • 成本爆炸(Prompt Explosion):每次递归都重新铺开上下文示例和提示词,推理成本指数增长。


简单说,LLM就像一个短期记忆型天才,而主流推理框架各有局限:

  • 序列推理(例如Chain of Thoughts,ReAct)虽然上下文连贯,但常常因为任务太长导致目标漂移;

  • 层级推理(例如ADaPT,THREAD)将任务分解为子任务来明确目标,但给子任务单独分配上下文示例和提示词,导致上下文断层和成本爆炸。


ReCAP

让序列推理和层级推理有机结合


ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区,其三大机制环环相扣:

  • 计划前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一个完整的子任务列表,但只执行第一个子任务,完成后再动态优化后续计划。

  • 结构化父任务再注入(Consistent Multi-level Context and Structured Injection):整个执行流程只有一个上下文,由所有任务共享。每次子任务递归返回时,父任务会将自身的思考和计划再次注入上下文,使父任务在重新计划时可以参考上次的思维和执行结果,规划出能真正达成任务目标的底层操作。

  • 滑动窗口记忆(Sliding Window and Scalable Memory Efficiency):通过滑动窗口机制,在统一上下文中只保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸。


实验结果

长上下文任务性能大幅跃升


团队在多个典型长上下文推理基准上验证了ReCAP的效果。结果令人瞩目:

  • 在Robotouille(同步)上取得70%成功率,较ReAct(38%)提升84.2%

  • 在Robotouille(异步)上取得53%成功率,较ReAct(24%)提升112.5%

  • 在ALFWorld上取得91%成功率,稳定优于ReAct(84%)

  • 在SWE-bench Verified取得44.8%的成功率,优于ReAct基线(39.58%)

值得注意的是,团队在实验中始终秉持pass@1的实验原则,即不使用样本层面的重试、多数投票或者束搜索。这意味着ReCAP能在真实多步环境中,更好地保持目标一致性与执行连贯性——不仅「想得对」,还能「做得稳」。

ReCAP是除ReAct之外,又一个能够在具身推理、以及代码编辑这两种截然不同的任务上都取得稳健表现的通用推理架构。

论文中排除了THREAD、Reflexion等其他基线,因其在实验设置中难以稳定复现或与 pass@1 协议不兼容,这进一步凸显了ReCAP作为新一代通用推理基线的潜力。

优势与成本的权衡

任何强大的能力都伴随着成本。团队对此进行了透明分析:ReCAP的总计算成本约为ReAct的三倍。这主要来自于其核心的计划前瞻分解机制所额外需要的LLM调用。

然而,考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本的增加在对准确性要求高的实际应用中是可以接受的。这为开发者提供了一个清晰的性价比权衡选项。

递归,是通往通用智能的钥匙?

从人类思维到图灵机,递归始终是智能的底层逻辑。ReCAP的提出,可视为AI迈向通用推理系统的关键一步。

其潜力远不止于论文所验证的任务范畴。任何依赖复杂决策回路与长期上下文记忆的大型任务,都是ReCAP的理想应用场景。

例如在深度研究中自主遍历文献、整合多源信息并生成洞察报告;或在复杂软件工程中管理庞大代码库与依赖关系,推进需多步验证的系统项目。

长远来看,ReCAP的递归规划能力可以与空间智能相结合,解决更为复杂的现实世界问题。李飞飞教授近日指出,空间智能——即理解、推理并与三维世界交互的能力,是AI的下一个前沿。

ReCAP可以为具身智能机器人规划复杂的长期任务序列,而空间智能模型则负责处理实时感知与动作控制,二者结合实现机器人在动态环境中的自主规划与可靠执行。

随着代码的开源,一个更擅长长期规划、稳健执行的AI时代或许即将到来。

作者介绍

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均为斯坦福大学工程学院计算机系硕士研究生

Alex Pentland教授,麻省理工学院媒体实验室 创始人之一,美国国家工程院院士,Toshiba Professor at MIT,斯坦福大学 HAI Fellow。

Jiaxin Pei博士,斯坦福大学博士后研究员,研究兴趣集中在大语言模型、人机交互、Agentic AI,即将前往得克萨斯大学奥斯汀分校任教。

参考资料:

https://arxiv.org/pdf/2510.23822

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

缅北明氏11口,节前全抄斩,大过年的,一家人最重要就是齐齐整整

小虎新车推荐员
2026-02-01 05:45:13
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

我的护球最独特
2026-02-02 02:31:40
“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

“极度抑郁,无颜面对所有同事员工”,深圳一公司年会取消!留几手发文

南方都市报
2026-02-01 12:50:46
夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

夏朝如果存在,甲骨文为何只字不提?考古证明:商朝灭的不叫夏朝

铭记历史呀
2026-02-01 07:10:26
1斤瓜子贵过猪肉,新“刺客”来了

1斤瓜子贵过猪肉,新“刺客”来了

中国新闻周刊
2026-02-01 19:27:25
女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

女子退货误寄6000元奔驰车钥匙,逼商家自证清白,网友吵翻了

一盅情怀
2026-02-01 19:17:39
石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

千秋文化
2026-02-01 20:14:28
国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

证券时报
2026-02-02 07:31:07
深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

深度 | 一边兵临城下,一边喊话谈判:特朗普到底想怎么搞伊朗?

上观新闻
2026-02-01 21:19:06
美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

美智库:俄军伤亡竟然大幅下降!北约终于发现:为何打不赢俄罗斯

混沌录
2026-01-31 16:29:05
黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

黄仁勋台北“夜宴”:汇聚近40位台企高管,还有1位陆企董事长!

芯智讯
2026-01-31 22:45:50
汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

汇川技术董事长朱兴明3小时深度反省:我们这两年最大的问题,不是战略,而是“人”

36氪
2026-02-01 09:18:11
退市前暴涨192%,3万股民前赴后继,根本没人在意它已经重大违法

退市前暴涨192%,3万股民前赴后继,根本没人在意它已经重大违法

壹只灰鸽子
2026-01-30 16:49:41
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

金价大跳水后,男子斥资20多万元抄底买入200克,称“不在意短期涨跌”,还有人称“肯定会回调”,工行、农行、交行公告

每日经济新闻
2026-02-01 10:38:04
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 12:16:42
2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

2016年肯尼亚单方面撕毁与中企的合作合同,拒不赔付176亿违约金,还逼迫中方退还43亿

史海孤雁
2026-02-01 17:32:24
以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻
2026-02-01 16:43:12
2026-02-02 08:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
亲子
数码
教育
旅游

耳石症分类型,症状大不同

亲子要闻

2-5岁孩子如何在家做早教?用好这些小道具,孩子进步超快!

数码要闻

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本,7999元

教育要闻

现在看易中天大师的金句,感觉买德云社的门票太亏了(三)

旅游要闻

西宁:点亮灯光景观 喜迎新春佳节

无障碍浏览 进入关怀版