网易首页 > 网易号 > 正文 申请入驻

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

0
分享至


新智元报道

编辑:LRST

【新智元导读】传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

当前AI Agent的发展正陷入两难的境地:

一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;

另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化


论文地址:https://arxiv.org/abs/2510.05592

项目主页:https://agentflow.stanford.edu/

开源代码:https://github.com/lupantech/AgentFlow

在线展示:https://huggingface.co/spaces/AgentFlow/agentflow

视频教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。


实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和 Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了极大的关注。





该工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 项目。



长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配(multi-turn credit assignment)问题:在长时跨度、奖励稀疏的环境中,如何准确判断每一步决策对最终结果的贡献?


传统的单一模型方法将所有功能集成在一个LLM中,通过特殊标签(如 )一体化输出思考、工具调用和回复。

这种方式在短链任务中有效,但在复杂场景下容易出现:推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统(如 LangGraph、OWL、Pydantic、AutoGen)虽然实现了模块化,但大多依赖固定的 prompt 工程,缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是:将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块能够在交互中持续学习


四模块协同架构

系统由四个具备记忆能力的专门化智能体组成:

  • 规划器(Action Planner):分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块,也是唯一需要训练的部分。

  • 执行器(Tool Executor):负责实际调用工具API,整合工具返回结果。

  • 验证器(Verifier):基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。

  • 生成器(Generator):整合所有信息和验证反馈,生成最终答案或下一步行动建议。

关键创新在于:规划器不是静态的,而是通过在线(on-policy)强化学习在推理流中实时优化

每轮交互后,系统会根据最终结果的成功或失败,更新规划器的决策策略,并将优化结果整合到系统记忆中,形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号(成功/失败)广播到每一步动作,把复杂的多轮强化学习问题转化为一系列单轮策略更新。



具体做法是:

1. 收集完整的推理轨迹(从初始任务到最终结果);

2. 根据最终结果计算 outcome reward;

3. 将这个 reward 分配给轨迹中每个规划动作;

4. 使用相对优势函数计算每个动作的优势,进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题,同时保持了训练的稳定性。

在线学习使系统能够:快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果:小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测,覆盖知识检索、智能体任务、数学推理和科学推理四大类。

性能对比

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow 在所有类别中均显著领先。

知识检索:相比基线提升14.9%

智能体推理:提升14.0%

数学推理:提升14.5%

科学推理:提升4.1%

更令人惊讶的是跨规模对比结果:

  • 7B的AgentFlow在搜索任务上比GPT-4o(约200B)高8.2%

  • 在智能体任务上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多项任务中超越405B的基线模型



消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示,如果用传统SFT方式训练规划器,性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件


2. 自主探索新策略

根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search) 和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。


3. 动态推理深度

在多跳搜索等密集推理任务中,训练后的AgentFlow展现出「智能的懒惰」:对简单任务保持较少的推理步数,对复杂任务才会增加推理深度。

随着最大步数限制的提升,性能稳步上升但平均步数不会同比例增长。



4. 模块协作的价值

虽然推理流本身就能带来性能提升,但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后,系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。


在这个例子中,在经过Flow-GRPO训练前的推理系统,一旦遇到了诸如这里的python变量定义错误,便会反复输出相同的子目标和工具调用,极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后,动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤,并且经过这样的随机应变后,一步成功。

这个例子也极大程度展现了,在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于:

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力,且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下,小模型通过模块化协作和持续学习,可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到:Agentic AI的发展不必完全依赖模型规模的堆砌,系统架构创新+高效训练方法可能是更值得探索的方向。

参考资料:

https://arxiv.org/abs/2510.05592

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天呐,这是黄晓明?不得不说,差点没认出来啊

天呐,这是黄晓明?不得不说,差点没认出来啊

乡野小珥
2025-10-21 14:40:30
太好了!东城这里要腾退了!

太好了!东城这里要腾退了!

东西城早知道
2025-11-05 15:20:14
2.11GB大更新!鸿蒙6持续提速,老机型真的跟不上,黯然退场

2.11GB大更新!鸿蒙6持续提速,老机型真的跟不上,黯然退场

小8说科技
2025-11-06 00:47:29
上海U20男足进全运8强,蒯纪闻:没有徐根宝指导我们出不了线

上海U20男足进全运8强,蒯纪闻:没有徐根宝指导我们出不了线

懂球帝
2025-11-05 21:45:46
日本人全球最长寿,这5种食物,他们顿顿都要吃,你吃过几种

日本人全球最长寿,这5种食物,他们顿顿都要吃,你吃过几种

削桐作琴
2025-11-03 19:29:12
别找年龄借口 43岁陈自瑶靠自律拿下丰胸代言 这才是“姐感”天花板

别找年龄借口 43岁陈自瑶靠自律拿下丰胸代言 这才是“姐感”天花板

阿废冷眼观察所
2025-10-17 12:20:16
阿森纳挖到宝了!夏窗新援闪耀欧冠:8次对抗全部成功

阿森纳挖到宝了!夏窗新援闪耀欧冠:8次对抗全部成功

球事百科吖
2025-11-05 18:07:05
男子突患尿毒症住进ICU急需用钱,妻子把自己的“五金”卖了6万多元救丈夫的命

男子突患尿毒症住进ICU急需用钱,妻子把自己的“五金”卖了6万多元救丈夫的命

观威海
2025-11-05 16:50:13
关于陈志和太子集团,网友们发现我们媒体曾经这样报道过

关于陈志和太子集团,网友们发现我们媒体曾经这样报道过

清晖有墨
2025-10-19 11:00:21
这是黄圣依?差点没认出来,气质完全不一样了呀,像是变了一个人

这是黄圣依?差点没认出来,气质完全不一样了呀,像是变了一个人

东方不败然多多
2025-10-23 14:31:14
全红婵退赛真相曝光搭档王伟莹700分夺冠:她的隐忍藏着更大野心

全红婵退赛真相曝光搭档王伟莹700分夺冠:她的隐忍藏着更大野心

TVB的四小花
2025-11-06 00:10:23
曝60岁弗里克明夏欲逃离巴萨!不满高层纵容亚马尔:吃饭都要人送

曝60岁弗里克明夏欲逃离巴萨!不满高层纵容亚马尔:吃饭都要人送

风过乡
2025-11-05 08:17:32
顶碗大妈正式回归!现身公牛主场表演 穿乔丹45号球衣宣布复出

顶碗大妈正式回归!现身公牛主场表演 穿乔丹45号球衣宣布复出

罗说NBA
2025-11-05 10:51:02
C罗差评金球奖!差评世界足球先生!开始差评世界杯!

C罗差评金球奖!差评世界足球先生!开始差评世界杯!

氧气是个地铁
2025-11-05 13:53:44
四川省纪委监委通报:1人主动投案,1人退休1年后被查

四川省纪委监委通报:1人主动投案,1人退休1年后被查

鲁中晨报
2025-11-05 16:31:08
火箭队进攻第一!美媒晒开季6大惊喜:里夫斯蜕变76人探花淘到宝

火箭队进攻第一!美媒晒开季6大惊喜:里夫斯蜕变76人探花淘到宝

锅子篮球
2025-11-05 20:05:51
快船19分惨败雷霆!哈登下半场3分,这一战,彻底看清4个不争事实

快船19分惨败雷霆!哈登下半场3分,这一战,彻底看清4个不争事实

金风说
2025-11-05 15:22:32
真没法打了!乌克兰被17完俄兵猛攻,退路只剩一条死亡走廊

真没法打了!乌克兰被17完俄兵猛攻,退路只剩一条死亡走廊

锐器
2025-11-05 23:58:11
卢秀燕突遭厄运,于北辰公然戴面具嘲讽,但她却开始和郑丽文较劲

卢秀燕突遭厄运,于北辰公然戴面具嘲讽,但她却开始和郑丽文较劲

兰妮搞笑分享
2025-11-06 00:08:33
蒙古如今开始后悔,独立已成定局,面对现实只剩下无可奈何

蒙古如今开始后悔,独立已成定局,面对现实只剩下无可奈何

科普启示录小强哥
2025-11-05 09:37:12
2025-11-06 01:36:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13794文章数 66238关注度
往期回顾 全部

科技要闻

大转弯!特朗普再提名马斯克盟友任NASA局长

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

头条要闻

丈夫突然病亡2天后妻子也离世留下一儿一女 妹妹发声

体育要闻

赢下皇马,会是利物浦的转折点吗?

娱乐要闻

港星林尚武突发心脏病去世

财经要闻

事关加快建设金融强国 中央金融办发声

汽车要闻

智己LS9入局"9系"混战 全尺寸SUV市场迎来新变量

态度原创

房产
手机
数码
家居
军事航空

房产要闻

最新!海南楼市10月热销榜单出炉!

手机要闻

苹果Shazam更新26.0版:液态玻璃界面焕新登场

数码要闻

小米POCO X1平板现身Geekbench 搭载骁龙7+ Gen 3

家居要闻

别样府院 畅享诗意生活

军事要闻

美国“福特”号航母驶往加勒比海

无障碍浏览 进入关怀版