网易首页 > 网易号 > 正文 申请入驻

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

0
分享至


新智元报道

编辑:LRST

【新智元导读】传统智能体系统难以兼顾稳定性和学习能力,斯坦福等学者提出AgentFlow框架,通过模块化和实时强化学习,在推理中持续优化策略,并使小规模模型在多项任务中超越GPT-4o,为AI发展开辟新思路。

当前AI Agent的发展正陷入两难的境地:

一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;

另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。

如何突破这一瓶颈?

斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化


论文地址:https://arxiv.org/abs/2510.05592

项目主页:https://agentflow.stanford.edu/

开源代码:https://github.com/lupantech/AgentFlow

在线展示:https://huggingface.co/spaces/AgentFlow/agentflow

视频教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构,通过4个专门化智能体协同工作,配合专门设计的Flow-GRPO算法,使系统能够在真实交互环境中持续优化决策策略。


实验结果显示,仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o(约200B参数)和 Llama-3.1-405B。

团队负责人在推特上分享了工作,获得了极大的关注。





该工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 项目。



长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配(multi-turn credit assignment)问题:在长时跨度、奖励稀疏的环境中,如何准确判断每一步决策对最终结果的贡献?


传统的单一模型方法将所有功能集成在一个LLM中,通过特殊标签(如 )一体化输出思考、工具调用和回复。

这种方式在短链任务中有效,但在复杂场景下容易出现:推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统(如 LangGraph、OWL、Pydantic、AutoGen)虽然实现了模块化,但大多依赖固定的 prompt 工程,缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是:将复杂的推理任务分解给专门化的智能体模块,同时让核心决策模块能够在交互中持续学习


四模块协同架构

系统由四个具备记忆能力的专门化智能体组成:

  • 规划器(Action Planner):分析任务需求,制定执行策略,选择最合适的工具。这是系统的核心决策模块,也是唯一需要训练的部分。

  • 执行器(Tool Executor):负责实际调用工具API,整合工具返回结果。

  • 验证器(Verifier):基于系统累积的历史记忆,评估中间结果是否符合任务目标和约束条件。

  • 生成器(Generator):整合所有信息和验证反馈,生成最终答案或下一步行动建议。

关键创新在于:规划器不是静态的,而是通过在线(on-policy)强化学习在推理流中实时优化

每轮交互后,系统会根据最终结果的成功或失败,更新规划器的决策策略,并将优化结果整合到系统记忆中,形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号(成功/失败)广播到每一步动作,把复杂的多轮强化学习问题转化为一系列单轮策略更新。



具体做法是:

1. 收集完整的推理轨迹(从初始任务到最终结果);

2. 根据最终结果计算 outcome reward;

3. 将这个 reward 分配给轨迹中每个规划动作;

4. 使用相对优势函数计算每个动作的优势,进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题,同时保持了训练的稳定性。

在线学习使系统能够:快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果:小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测,覆盖知识检索、智能体任务、数学推理和科学推理四大类。

性能对比

以Qwen-2.5-7B-Instruct为基座模型,AgentFlow 在所有类别中均显著领先。

知识检索:相比基线提升14.9%

智能体推理:提升14.0%

数学推理:提升14.5%

科学推理:提升4.1%

更令人惊讶的是跨规模对比结果:

  • 7B的AgentFlow在搜索任务上比GPT-4o(约200B)高8.2%

  • 在智能体任务上比Llama-3.1-405B高15.8%

  • 3B模型的AgentFlow也能在多项任务中超越405B的基线模型



消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示,如果用传统SFT方式训练规划器,性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件


2. 自主探索新策略

根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search) 和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。


3. 动态推理深度

在多跳搜索等密集推理任务中,训练后的AgentFlow展现出「智能的懒惰」:对简单任务保持较少的推理步数,对复杂任务才会增加推理深度。

随着最大步数限制的提升,性能稳步上升但平均步数不会同比例增长。



4. 模块协作的价值

虽然推理流本身就能带来性能提升,但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后,系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。


在这个例子中,在经过Flow-GRPO训练前的推理系统,一旦遇到了诸如这里的python变量定义错误,便会反复输出相同的子目标和工具调用,极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后,动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤,并且经过这样的随机应变后,一步成功。

这个例子也极大程度展现了,在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于:

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力,且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下,小模型通过模块化协作和持续学习,可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到:Agentic AI的发展不必完全依赖模型规模的堆砌,系统架构创新+高效训练方法可能是更值得探索的方向。

参考资料:

https://arxiv.org/abs/2510.05592

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
傅艺伟守着何晴,其实根本不是什么报恩。她守的,是她自己的命。

傅艺伟守着何晴,其实根本不是什么报恩。她守的,是她自己的命。

小光侃娱乐
2025-12-24 10:55:03
丰田打响“第一枪”! 22万直接砍到10万,油耗5L喝92粗粮?

丰田打响“第一枪”! 22万直接砍到10万,油耗5L喝92粗粮?

侃故事的阿庆
2025-12-24 12:31:24
中信建投女总监联络资金中介,私下吃返费逾540万,一审获刑十年半

中信建投女总监联络资金中介,私下吃返费逾540万,一审获刑十年半

大风新闻
2025-12-23 21:58:04
前万科集团的副总称,不建议购买2018年以后建的房子,质量不好

前万科集团的副总称,不建议购买2018年以后建的房子,质量不好

我心纵横天地间
2025-12-22 20:19:01
医生直言:直肠癌早期不是便血,是身上出现4大异常,千万别忽视

医生直言:直肠癌早期不是便血,是身上出现4大异常,千万别忽视

游古史
2025-08-26 13:19:02
尼克松想游览长城遭遇大雪,李先念果断建议,让80公里路无积雪

尼克松想游览长城遭遇大雪,李先念果断建议,让80公里路无积雪

朝夕说史
2025-12-22 09:40:12
蓝营春天来了,郑丽文提名四人选,王金平获重用,江启臣无地自容

蓝营春天来了,郑丽文提名四人选,王金平获重用,江启臣无地自容

蛙斯基娱乐中
2025-12-24 15:32:43
冷空气杀到!今夜雨夹雪或雪?直跌至-2℃~-5℃!这回真的要冷了...

冷空气杀到!今夜雨夹雪或雪?直跌至-2℃~-5℃!这回真的要冷了...

浙江天气
2025-12-24 11:17:54
马龙,获国家级教练资格

马龙,获国家级教练资格

扬子晚报
2025-12-24 12:34:27
放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才知道她有多清醒

梦史
2025-12-16 11:07:49
万万没想到,46条中日航线刚全部取消,就炸出来一群“妖魔鬼怪”

万万没想到,46条中日航线刚全部取消,就炸出来一群“妖魔鬼怪”

阿柒的讯
2025-12-23 11:19:49
香港网友谈金信煜被解约:他拒绝在人工草训练,而且拿着高薪

香港网友谈金信煜被解约:他拒绝在人工草训练,而且拿着高薪

懂球帝
2025-12-24 12:26:29
奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

解读热点事件
2025-12-21 00:05:08
年纪大了减肥是硬伤!看54岁的陈松伶减27斤的样子就知道了

年纪大了减肥是硬伤!看54岁的陈松伶减27斤的样子就知道了

木子爱娱乐大号
2025-12-23 20:34:34
第125旅强力改革,不合格军官送往前线当步兵:新旅长是个狠人

第125旅强力改革,不合格军官送往前线当步兵:新旅长是个狠人

鹰眼Defence
2025-12-22 18:08:02
明年发黄图真违法了,微信聊天会被监控吗?不知道的就真可惜了!

明年发黄图真违法了,微信聊天会被监控吗?不知道的就真可惜了!

CG说科技
2025-12-23 16:33:43
美女美图7832期

美女美图7832期

乡野小珥
2025-12-22 03:52:03
难以想象!上海“富二代”1年花光1300万,“每顿饭一万多,出去一次一百多万……”

难以想象!上海“富二代”1年花光1300万,“每顿饭一万多,出去一次一百多万……”

环球网资讯
2025-12-23 19:51:46
在钢铁与梦想之间:一名女销售的无声叙事

在钢铁与梦想之间:一名女销售的无声叙事

疾跑的小蜗牛
2025-12-24 13:31:39
牡丹花下死,“纵欲过度”的张雨绮,终究为自己的行为付出了代价

牡丹花下死,“纵欲过度”的张雨绮,终究为自己的行为付出了代价

娱乐看阿敞
2025-12-17 14:11:15
2025-12-24 17:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14170文章数 66395关注度
往期回顾 全部

科技要闻

马斯克没想到的"中国速度"!2026值得期待

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

假冒的“晴王”葡萄,还在卖

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

艺术
健康
数码
教育
军事航空

艺术要闻

2026第一福!孙晓云亲笔“福”字出炉

这些新疗法,让化疗不再那么痛苦

数码要闻

三星电子放缓DDR4停产进程,拟与客户签订“不可取消”长期协议以锁定高利润

教育要闻

成都盐外芙蓉学校第六届教育教学研讨会:探索素养导向育人新路径

军事要闻

"九三"受阅女民兵:96米需踢出128个正步 每步75厘米

无障碍浏览 进入关怀版