网易首页 > 网易号 > 正文 申请入驻

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

0
分享至


新智元报道

编辑:LRST

【新智元导读】传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

当前AI Agent的发展正陷入两难的境地:

一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;

另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化


论文地址:https://arxiv.org/abs/2510.05592

项目主页:https://agentflow.stanford.edu/

开源代码:https://github.com/lupantech/AgentFlow

在线展示:https://huggingface.co/spaces/AgentFlow/agentflow

视频教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。


实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和 Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了极大的关注。





该工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 项目。



长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配(multi-turn credit assignment)问题:在长时跨度、奖励稀疏的环境中,如何准确判断每一步决策对最终结果的贡献?


传统的单一模型方法将所有功能集成在一个LLM中,通过特殊标签(如 )一体化输出思考、工具调用和回复。

这种方式在短链任务中有效,但在复杂场景下容易出现:推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统(如 LangGraph、OWL、Pydantic、AutoGen)虽然实现了模块化,但大多依赖固定的 prompt 工程,缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是:将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块能够在交互中持续学习


四模块协同架构

系统由四个具备记忆能力的专门化智能体组成:

  • 规划器(Action Planner):分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块,也是唯一需要训练的部分。

  • 执行器(Tool Executor):负责实际调用工具API,整合工具返回结果。

  • 验证器(Verifier):基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。

  • 生成器(Generator):整合所有信息和验证反馈,生成最终答案或下一步行动建议。

关键创新在于:规划器不是静态的,而是通过在线(on-policy)强化学习在推理流中实时优化

每轮交互后,系统会根据最终结果的成功或失败,更新规划器的决策策略,并将优化结果整合到系统记忆中,形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号(成功/失败)广播到每一步动作,把复杂的多轮强化学习问题转化为一系列单轮策略更新。



具体做法是:

1. 收集完整的推理轨迹(从初始任务到最终结果);

2. 根据最终结果计算 outcome reward;

3. 将这个 reward 分配给轨迹中每个规划动作;

4. 使用相对优势函数计算每个动作的优势,进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题,同时保持了训练的稳定性。

在线学习使系统能够:快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果:小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测,覆盖知识检索、智能体任务、数学推理和科学推理四大类。

性能对比

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow 在所有类别中均显著领先。

知识检索:相比基线提升14.9%

智能体推理:提升14.0%

数学推理:提升14.5%

科学推理:提升4.1%

更令人惊讶的是跨规模对比结果:

  • 7B的AgentFlow在搜索任务上比GPT-4o(约200B)高8.2%

  • 在智能体任务上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多项任务中超越405B的基线模型



消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示,如果用传统SFT方式训练规划器,性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件


2. 自主探索新策略

根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search) 和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。


3. 动态推理深度

在多跳搜索等密集推理任务中,训练后的AgentFlow展现出「智能的懒惰」:对简单任务保持较少的推理步数,对复杂任务才会增加推理深度。

随着最大步数限制的提升,性能稳步上升但平均步数不会同比例增长。



4. 模块协作的价值

虽然推理流本身就能带来性能提升,但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后,系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。


在这个例子中,在经过Flow-GRPO训练前的推理系统,一旦遇到了诸如这里的python变量定义错误,便会反复输出相同的子目标和工具调用,极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后,动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤,并且经过这样的随机应变后,一步成功。

这个例子也极大程度展现了,在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于:

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力,且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下,小模型通过模块化协作和持续学习,可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到:Agentic AI的发展不必完全依赖模型规模的堆砌,系统架构创新+高效训练方法可能是更值得探索的方向。

参考资料:

https://arxiv.org/abs/2510.05592

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防科技大学历任校长

国防科技大学历任校长

祁州校尉
2026-04-05 17:30:05
刚刚,集体上涨!霍尔木兹,大消息!

刚刚,集体上涨!霍尔木兹,大消息!

中国基金报
2026-04-06 15:22:28
国轩高科:2GWh全固态电池量产线建设受技术、研发、市场等多项因素影响

国轩高科:2GWh全固态电池量产线建设受技术、研发、市场等多项因素影响

澎湃新闻
2026-04-06 19:33:04
杨元庆个人捐资2亿元,联想未来5年3亿元支持与上海交大升级合作

杨元庆个人捐资2亿元,联想未来5年3亿元支持与上海交大升级合作

上观新闻
2026-04-06 21:00:08
好久没见过这么大阵仗了!

好久没见过这么大阵仗了!

中国民航人
2026-04-05 21:55:04
江苏89-88险胜北控,里勒28分错失绝平罚球,贾尔斯30+13

江苏89-88险胜北控,里勒28分错失绝平罚球,贾尔斯30+13

懂球帝
2026-04-06 21:45:09
小米汽车卖不动了

小米汽车卖不动了

新浪财经
2026-04-05 18:47:28
特朗普病重住院?白宫回应

特朗普病重住院?白宫回应

新京报政事儿
2026-04-06 09:02:02
六台主持人:姆巴佩在皇马根本不跑动,就等楚阿梅尼给他填坑

六台主持人:姆巴佩在皇马根本不跑动,就等楚阿梅尼给他填坑

懂球帝
2026-04-06 17:00:09
蔡正元真会给自己找事!进监狱都不闲着,开起了“蔡正元讲堂”!

蔡正元真会给自己找事!进监狱都不闲着,开起了“蔡正元讲堂”!

达文西看世界
2026-04-06 16:34:17
古力娜扎:真空上阵是放飞自我还是资本博弈?

古力娜扎:真空上阵是放飞自我还是资本博弈?

娱乐领航家
2026-04-02 21:00:03
广东核心常规赛报销!3主力不打,后面8场都难打,杜锋要选新大外

广东核心常规赛报销!3主力不打,后面8场都难打,杜锋要选新大外

老吴说体育
2026-04-06 15:22:16
就在刚刚!CBA官宣第8位主帅下课!接替者是名帅,曾带队获总冠军

就在刚刚!CBA官宣第8位主帅下课!接替者是名帅,曾带队获总冠军

老吴说体育
2026-04-05 23:29:05
日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

行者聊官
2026-04-04 16:05:43
中科院向全世界正式宣布:停止一切拨款,西方学界哀嚎一片

中科院向全世界正式宣布:停止一切拨款,西方学界哀嚎一片

春之寞陌
2026-04-06 07:31:27
李泽楷被她迷得疯狂,林丹为她不顾孕妻,她有什么魅力?

李泽楷被她迷得疯狂,林丹为她不顾孕妻,她有什么魅力?

观察鉴娱
2026-04-05 21:26:05
56岁毛新宇被搀扶着祭扫!18岁漂亮女儿曝出,儿子一行为信息量大

56岁毛新宇被搀扶着祭扫!18岁漂亮女儿曝出,儿子一行为信息量大

温柔看世界
2026-04-06 13:18:12
快讯!以色列宣布了!

快讯!以色列宣布了!

达文西看世界
2026-04-06 14:38:49
阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

阿尔忒弥斯2号拍的地球和月球,和我们平时看到的不一样

空天论道
2026-04-06 20:30:03
青岛险胜双杀山西:韦瑟斯庞35+6+6 吕俊虎19+10盖伊30分

青岛险胜双杀山西:韦瑟斯庞35+6+6 吕俊虎19+10盖伊30分

醉卧浮生
2026-04-06 21:51:04
2026-04-06 22:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14910文章数 66753关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

头条要闻

特朗普咆哮式发帖威胁伊朗 美政界人士:他像精神错乱

体育要闻

球员系列赛大满贯!赵心童10-3世界第一 加冕赛季第4冠

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

本地
旅游
游戏
艺术
数码

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

别人放假,四川“带娃”:春假清明接力,这波“天降流量”接住了吗?

PS5预购榜单《星空》稳坐欧美第一 港服偏爱小萝莉

艺术要闻

725米,16亿美元!迪拜“世界第二高楼”,战火中推进

数码要闻

微星泰坦18 Ultra 2026游戏本上市,顶配售价47999元

无障碍浏览 进入关怀版