网易首页 > 网易号 > 正文 申请入驻

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

0
分享至

新智元报道

编辑:LRST

【新智元导读】传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

当前AI Agent的发展正陷入两难的境地:

一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;

另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化

论文地址:https://arxiv.org/abs/2510.05592

项目主页:https://agentflow.stanford.edu/

开源代码:https://github.com/lupantech/AgentFlow

在线展示:https://huggingface.co/spaces/AgentFlow/agentflow

视频教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。

实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和 Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了极大的关注。

该工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 项目。

长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配(multi-turn credit assignment)问题:在长时跨度、奖励稀疏的环境中,如何准确判断每一步决策对最终结果的贡献?

传统的单一模型方法将所有功能集成在一个LLM中,通过特殊标签(如 )一体化输出思考、工具调用和回复。

这种方式在短链任务中有效,但在复杂场景下容易出现:推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统(如 LangGraph、OWL、Pydantic、AutoGen)虽然实现了模块化,但大多依赖固定的 prompt 工程,缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是:将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块能够在交互中持续学习

四模块协同架构

系统由四个具备记忆能力的专门化智能体组成:

  • 规划器(Action Planner):分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块,也是唯一需要训练的部分。

  • 执行器(Tool Executor):负责实际调用工具API,整合工具返回结果。

  • 验证器(Verifier):基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。

  • 生成器(Generator):整合所有信息和验证反馈,生成最终答案或下一步行动建议。

关键创新在于:规划器不是静态的,而是通过在线(on-policy)强化学习在推理流中实时优化

每轮交互后,系统会根据最终结果的成功或失败,更新规划器的决策策略,并将优化结果整合到系统记忆中,形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号(成功/失败)广播到每一步动作,把复杂的多轮强化学习问题转化为一系列单轮策略更新。

具体做法是:

1. 收集完整的推理轨迹(从初始任务到最终结果);

2. 根据最终结果计算 outcome reward;

3. 将这个 reward 分配给轨迹中每个规划动作;

4. 使用相对优势函数计算每个动作的优势,进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题,同时保持了训练的稳定性。

在线学习使系统能够:快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果:小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测,覆盖知识检索、智能体任务、数学推理和科学推理四大类。

性能对比

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow 在所有类别中均显著领先。

知识检索:相比基线提升14.9%

智能体推理:提升14.0%

数学推理:提升14.5%

科学推理:提升4.1%

更令人惊讶的是跨规模对比结果:

  • 7B的AgentFlow在搜索任务上比GPT-4o(约200B)高8.2%

  • 在智能体任务上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多项任务中超越405B的基线模型

消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示,如果用传统SFT方式训练规划器,性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件

2. 自主探索新策略

根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search) 和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。

3. 动态推理深度

在多跳搜索等密集推理任务中,训练后的AgentFlow展现出「智能的懒惰」:对简单任务保持较少的推理步数,对复杂任务才会增加推理深度。

随着最大步数限制的提升,性能稳步上升但平均步数不会同比例增长。

4. 模块协作的价值

虽然推理流本身就能带来性能提升,但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后,系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。

在这个例子中,在经过Flow-GRPO训练前的推理系统,一旦遇到了诸如这里的python变量定义错误,便会反复输出相同的子目标和工具调用,极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后,动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤,并且经过这样的随机应变后,一步成功。

这个例子也极大程度展现了,在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于:

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力,且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下,小模型通过模块化协作和持续学习,可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到:Agentic AI的发展不必完全依赖模型规模的堆砌,系统架构创新+高效训练方法可能是更值得探索的方向。

参考资料:

https://arxiv.org/abs/2510.05592

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回顾首年执教便带队进总决赛的十位主帅,你认为米奇未来会达到怎样的高度?

回顾首年执教便带队进总决赛的十位主帅,你认为米奇未来会达到怎样的高度?

桃叶渡春
2026-05-31 16:26:23
梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

梁朝伟和汤唯在《色戒》里“假戏真做”?网友爆出截图:一目了然

姜糖先生
2025-06-08 19:31:00
50岁影帝屠家换钱:13年杀2妻3子换600万!每杀一人都拜佛装善!

50岁影帝屠家换钱:13年杀2妻3子换600万!每杀一人都拜佛装善!

莫地方
2026-05-22 01:50:03
前国足主帅加盟新鹏城?知名媒体人称陈涛下课并非因为成绩

前国足主帅加盟新鹏城?知名媒体人称陈涛下课并非因为成绩

梅亭谈
2026-05-31 13:37:48
太阳每秒消耗428万吨物质,已经烧了46亿年,为什么能烧这么久?

太阳每秒消耗428万吨物质,已经烧了46亿年,为什么能烧这么久?

向航说
2026-05-30 03:20:03
活久见!车主要张雪书面保证,承诺车辆永不出问题,张雪怒怼发飙

活久见!车主要张雪书面保证,承诺车辆永不出问题,张雪怒怼发飙

火山詩话
2026-05-29 06:54:36
一天两条总统令,让西方看到俄军惨重伤亡?波兰:普京不行了

一天两条总统令,让西方看到俄军惨重伤亡?波兰:普京不行了

风干迷茫人
2026-05-30 16:45:01
CBA总决赛G3前瞻:广厦后卫线集体迷失,上海队双喜临门剑指横扫

CBA总决赛G3前瞻:广厦后卫线集体迷失,上海队双喜临门剑指横扫

刘哥谈体育
2026-05-31 16:12:51
异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

异性对接吻一定要慎重,一旦“接吻”了,关系就会发生重大变化!

皓皓情感说
2026-05-15 12:29:38
人社部定调,2026年养老金调整在即,工龄15年涨幅会比40年多吗?

人社部定调,2026年养老金调整在即,工龄15年涨幅会比40年多吗?

虎哥闲聊
2026-05-31 15:26:45
三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

三峡大坝收支出炉:运行20余年,总投资近2500亿,如今回本了吗?

梦史
2026-05-25 00:39:04
马刺淘汰雷霆,文班亚马的时代就此开启?为何雷霆总是十恶不赦?

马刺淘汰雷霆,文班亚马的时代就此开启?为何雷霆总是十恶不赦?

司峰阿道
2026-05-31 14:51:02
赴台南激励妇女大军,郑丽文喊话:你们都是国民党的“小太阳”

赴台南激励妇女大军,郑丽文喊话:你们都是国民党的“小太阳”

海峡导报社
2026-05-30 15:50:14
发现没有只要个子高,皮肤白皙,站在人群里就会比较显眼

发现没有只要个子高,皮肤白皙,站在人群里就会比较显眼

岁月有情1314
2026-05-23 16:33:47
蒋万安沈伯洋最新民调投票率超高,蓝营青年分析原因:“恐熊感”强烈

蒋万安沈伯洋最新民调投票率超高,蓝营青年分析原因:“恐熊感”强烈

海峡导报社
2026-05-31 12:42:21
贵阳花果园闪婚骗局调查:娶妻流水线,女子上午离婚下午结婚,有新娘婚检梅毒呈阳性,目前多人报案获刑事立案,当地多部门成立专项工作组

贵阳花果园闪婚骗局调查:娶妻流水线,女子上午离婚下午结婚,有新娘婚检梅毒呈阳性,目前多人报案获刑事立案,当地多部门成立专项工作组

大风新闻
2026-05-31 15:45:03
姆巴佩尴尬,巴黎大将:追随恩里克,集体大于任何人

姆巴佩尴尬,巴黎大将:追随恩里克,集体大于任何人

体坛周报
2026-05-31 06:46:23
雷霆103-111马刺,戴格诺特赛后采访表无奈

雷霆103-111马刺,戴格诺特赛后采访表无奈

郭夷包工头
2026-05-31 12:55:11
文班亚马动情落泪7尺4西决MVP创八纪录:22岁将签五年3.03亿顶薪

文班亚马动情落泪7尺4西决MVP创八纪录:22岁将签五年3.03亿顶薪

阿晞体育
2026-05-31 15:15:34
枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

易玄
2026-05-29 09:47:13
2026-05-31 17:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15349文章数 66894关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

江苏一飞行营地坠机乘客身亡 家属获赔256万称将上诉

头条要闻

江苏一飞行营地坠机乘客身亡 家属获赔256万称将上诉

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

房产
健康
手机
艺术
军事航空

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

尝试干细胞疗法如何避免踩坑?

手机要闻

国产旗舰单品过百万盘点,这个结果意外吗?

艺术要闻

明代一位“得道高僧”,写出最美《春江花月夜》,启功:这字500年来未曾见!

军事要闻

解放军代表质问日防卫大臣:日本何时道歉

无障碍浏览 进入关怀版