网易首页 > 网易号 > 正文 申请入驻

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

0
分享至

当前AI Agent的发展正陷入两难的境地:

一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;

另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化。


论文地址:

https://arxiv.org/abs/2510.05592

项目主页: https://agentflow.stanford.edu/

开源代码: https://github.com/lupantech/AgentFlow

在线展示:https://huggingface.co/spaces/AgentFlow/agentflow

视频教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。


实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和 Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了极大的关注。





该工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 项目。



长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配(multi-turn credit assignment)问题:在长时跨度、奖励稀疏的环境中,如何准确判断每一步决策对最终结果的贡献?


传统的单一模型方法将所有功能集成在一个LLM中,通过特殊标签(如

)一体化输出思考、工具调用和回复。

这种方式在短链任务中有效,但在复杂场景下容易出现:推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统(如 LangGraph、OWL、Pydantic、AutoGen)虽然实现了模块化,但大多依赖固定的 prompt 工程,缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是:将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块能够在交互中持续学习。



四模块协同架构

系统由四个具备记忆能力的专门化智能体组成:

  • 规划器(Action Planner):分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块,也是唯一需要训练的部分。

  • 执行器(Tool Executor):负责实际调用工具API,整合工具返回结果。

  • 验证器(Verifier):基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。

  • 生成器(Generator):整合所有信息和验证反馈,生成最终答案或下一步行动建议。

关键创新在于:规划器不是静态的,而是通过在线(on-policy) 强化学习在推理流中实时优化。

每轮交互后,系统会根据最终结果的成功或失败,更新规划器的决策策略,并将优化结果整合到系统记忆中,形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号(成功/失败)广播到每一步动作,把复杂的多轮强化学习问题转化为一系列单轮策略更新。



具体做法是:

1. 收集完整的推理轨迹(从初始任务到最终结果);

2. 根据最终结果计算 outcome reward;

3. 将这个 reward 分配给轨迹中每个规划动作;

4. 使用相对优势函数计算每个动作的优势,进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题,同时保持了训练的稳定性。

在线学习使系统能够:快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果:小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测,覆盖知识检索、智能体任务、数学推理和科学推理四大类。


性能对比

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow 在所有类别中均显著领先。

知识检索:相比基线提升14.9%

智能体推理:提升14.0%

数学推理:提升14.5%

科学推理:提升4.1%

更令人惊讶的是跨规模对比结果:

  • 7B的AgentFlow在搜索任务上比GPT-4o(约200B)高8.2%

  • 在智能体任务上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多项任务中超越405B的基线模型




消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示,如果用传统SFT方式训练规划器,性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件。


2. 自主探索新策略

根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search) 和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。


3. 动态推理深度

在多跳搜索等密集推理任务中,训练后的AgentFlow展现出「智能的懒惰」:对简单任务保持较少的推理步数,对复杂任务才会增加推理深度。

随着最大步数限制的提升,性能稳步上升但平均步数不会同比例增长。



4. 模块协作的价值

虽然推理流本身就能带来性能提升,但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后,系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。


在这个例子中,在经过Flow-GRPO训练前的推理系统,一旦遇到了诸如这里的python变量定义错误,便会反复输出相同的子目标和工具调用,极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后,动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤,并且经过这样的随机应变后,一步成功。

这个例子也极大程度展现了,在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于:

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力,且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下,小模型通过模块化协作和持续学习,可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到:Agentic AI的发展不必完全依赖模型规模的堆砌,系统架构创新+高效训练方法可能是更值得探索的方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南某三甲医院男副院长与女眼科主任的瓜

湖南某三甲医院男副院长与女眼科主任的瓜

吃瓜体
2025-11-06 09:22:47
尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

诡谲怪谈
2025-04-30 23:32:55
竞争对手爆发终结雷霆 杨瀚森开拓者生涯提前结束

竞争对手爆发终结雷霆 杨瀚森开拓者生涯提前结束

体坛周报
2025-11-06 14:46:33
刚刚,20%涨停!利好消息,来袭!

刚刚,20%涨停!利好消息,来袭!

证券时报
2025-11-06 14:43:05
拆迁全面叫停?2025年以后,楼龄超过20年的房子,统一这样处理?

拆迁全面叫停?2025年以后,楼龄超过20年的房子,统一这样处理?

巢客HOME
2025-11-06 04:25:03
三星S26 Ultra:从直到弯再到圆!

三星S26 Ultra:从直到弯再到圆!

手机评测室
2025-11-06 12:01:24
25年“双一流”名单公布,多所大学无奈出局,目标院校上榜了吗?

25年“双一流”名单公布,多所大学无奈出局,目标院校上榜了吗?

王晓爱体彩
2025-11-06 13:25:57
中国将迎来“死亡高峰期”,一代人集体老去,人口天平彻底倾斜

中国将迎来“死亡高峰期”,一代人集体老去,人口天平彻底倾斜

纪中百大事
2025-11-01 21:13:44
这一次,英达终于反击高调宣布喜讯,众多明星前来捧场挣足了面子

这一次,英达终于反击高调宣布喜讯,众多明星前来捧场挣足了面子

以茶带书
2025-11-04 14:13:20
富商郭台铭母亲去世!不设灵不办公祭,曾支持儿子娶小24岁曾馨莹

富商郭台铭母亲去世!不设灵不办公祭,曾支持儿子娶小24岁曾馨莹

阿纂看事
2025-11-06 14:13:03
俄军夺取85%红军城,却没发现乌军主力:数千乌军全躲藏在哪里?

俄军夺取85%红军城,却没发现乌军主力:数千乌军全躲藏在哪里?

泠泠说史
2025-11-06 15:37:53
西部第2轰然倒下,湖人赢球有方法,4策略回报大,2人价值翻倍

西部第2轰然倒下,湖人赢球有方法,4策略回报大,2人价值翻倍

体坛大辣椒
2025-11-06 14:23:03
终于等到这天!官媒发文,高调官宣44岁郭晶晶喜讯,霍震霆说对了

终于等到这天!官媒发文,高调官宣44岁郭晶晶喜讯,霍震霆说对了

白面书誏
2025-11-06 10:42:14
米切尔46+8赛季新高骑士力克76人 马克西27+7+9探花14中3

米切尔46+8赛季新高骑士力克76人 马克西27+7+9探花14中3

醉卧浮生
2025-11-06 10:36:33
女同事上班穿丁字裤被拍发网上爆火!这拍到的倒三角大家看是穿反了吗?

女同事上班穿丁字裤被拍发网上爆火!这拍到的倒三角大家看是穿反了吗?

经典段子
2025-11-05 22:36:41
荷兰政府花200亿挽留无效!光刻机巨头ASML为何要从老家搬走?

荷兰政府花200亿挽留无效!光刻机巨头ASML为何要从老家搬走?

南宫一二
2025-11-06 13:38:57
买鲈鱼,聪明人从不只看大小!牢记这“3不选”,鱼贩不敢忽悠你

买鲈鱼,聪明人从不只看大小!牢记这“3不选”,鱼贩不敢忽悠你

阿龙美食记
2025-10-31 16:36:27
电商纳税新规来了,销售超10万必须升级个体或公司,有人直接关门

电商纳税新规来了,销售超10万必须升级个体或公司,有人直接关门

眼光很亮
2025-11-06 10:26:13
A股:大家要做好心理预期,种种迹象表明,周五A股随时会大变盘了

A股:大家要做好心理预期,种种迹象表明,周五A股随时会大变盘了

财经大拿
2025-11-06 13:35:16
造价10亿地标13.6亿起拍!广州圆大厦第三次上架找买家

造价10亿地标13.6亿起拍!广州圆大厦第三次上架找买家

南方都市报
2025-11-06 11:51:15
2025-11-06 16:27:00
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
210文章数 5954关注度
往期回顾 全部

科技要闻

苹果“认输”!曝每年10亿美元租用谷歌AI

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

头条要闻

男子打车将手机遗忘车内 司机将手机"丢"到300公里外

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

健康
艺术
家居
房产
公开课

超声探头会加重受伤情况吗?

艺术要闻

“塑料凳”大厦?西安新地标213米造型引热议!

家居要闻

别样府院 畅享诗意生活

房产要闻

中旅·三亚蓝湾,以一座城市会客厅回应世界的滨海想象

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版