网易首页 > 网易号 > 正文 申请入驻

AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

斯坦福等新框架,用在线强化学习让智能体系统“以小搏大”,领先GPT-4o——

AgentFlow,是一种能够在线优化智能体系统的新范式,可以持续提升智能体系统对于复杂问题的推理能力

它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作,利用新方法Flow-GRPO,在系统内部直接对其规划器智能体进行实时优化。



以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出:

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

多项任务表现甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。



AgentFlow发布后,受到业界不少广泛关注与看好。



网友纷纷表示方向很棒:

  • 多智能体流(multi-agentflow)给人的感觉就像“相位耦合推理”(phase-coupled reasoning)。很期待看到“协同能力”取代“规模”,成为衡量智能的指标。



  • Flow-GRPO采用共享内存的多智能体架构设计精妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能显著减少智能体工作流中典型的多步推理链误差传播。



所以,AgentFlow究竟长啥样?



工具集成的智能体系统+流中强化学习训练

自“AI下半场”开启以来,智能体(Agent)在垂直领域与通用场景中呈现出井喷式发展。然而,在复杂决策与持续优化能力方面,当前智能体仍存在一定局限。如何将智能体的推理能力与强化学习的自我进化机制深度融合,成为突破这一瓶颈的关键所在。

在今年早些时候,随着DeepSeek-R1的发布,推理模型的训练方式迎来了新的启发。不久之后,伊利诺伊大学香槟分校(UIUC)发布Search-R1,系统揭示了如何通过强化学习,训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。

而在此之前,智能体系统(Agentic System)的发展也从系统层面推动了智能体协作与可扩展性的提升,为后续相关研究奠定了坚实基础。

例如,LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化的探索,为智能体生态的快速演进提供了有力支撑。



而AgentFlow提出了一种新范式,其中由四个具备记忆能力的专门化智能体协同配合:

规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息生成最终答案。



对于每个新任务,规划器在智能体交互的“流”中根据环境变化及其他智能体的反馈实时进行on-policy优化,各模块在推理流中协同演化并不断调整决策策略。这些优化随后被整合到系统的记忆中,形成一个闭环的自适应推理过程,使整个智能体系统在复杂环境下实现鲁棒的工具调用与持续进化。

其中,AgentFlow包含了以下几个关键组件:

模块化智能体结构。

AgentFlow采用了四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现“即时学习”:

(i)规划器(Action Planner):分析任务、制定策略并选择最合适的工具;
(ii)执行器(Tool Executor):调用工具集并整合工具执行结果;
(iii)验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束;
(iv)生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议。

AgentFlow流中强化学习。

AgentFlow的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的”流”(flow)中实时进行on-policy优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。集成过程分为三个步骤:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。

Flow-GRPO:流中强化学习优化算法。

实现智能体流中强化学习训练的核心挑战在于多轮信用分配(multi-turn credit assignment):即如何在长时跨度(long-horizon)且奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)的多轮推理优化目标。



如图2所示,通过将轨迹最终结果的成功或失败信号(outcome reward)广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。



实验结果

为了充分评估AgentFlow的泛化能力与高效性,研究团队在10个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。



以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均超越现有领先方法:

  • 知识检索(Search):提升14.9%
  • 智能体推理(Agentic Reasoning):提升14.0%
  • 数学推理(Math):提升14.5%
  • 科学推理(Science):提升4.1%

值得注意的是,AgentFlow的表现甚至超过了大规模的专有模型,如GPT-4o(~200B)。





表1、2展示了AgentFlow在不同类型任务上的评估结果,表明了在有效性(相对提高高达14.9%)和效率(平均推理步数优化)上均优于基准方法。

研究团队在10个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。一些有趣的发现:

1、模型规模不是唯一答案

使用7B参数的AgentFlow在多个任务上超过了约200B参数的GPT-4o,Llama3.1-405B,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练All in one的大模型更有效。

2、“在流中学习”至关重要

对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低19%。

这表明,智能体在真实交互环境“流”中进行在线学习是实现高效推理的必要条件。

此外,尽管AgentFlow的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。

这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。





3、自主发现新的解决路径

有意思的是,经过Flow-GRPO的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。



4、动态推理深度与性能提升

对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow在经过 FlowGRPO训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。





总之,AgentFlow为智能体训练提供了一种全新的思路:

与其追求一个功能完备的单一大语言模型或“一次性完美”的智能体系统,不如让智能体在系统中自我适应与持续学习。

通过将群体智能与“边做边学”的范式相结合,AgentFlow使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际应用仍有较长的距离,但这让团队看见Agentic AI依然蕴藏着巨大的潜力与想象空间。

论文地址:https://arxiv.org/abs/2510.05592
项目主页:https://agentflow.stanford.edu/
Github仓库:https://github.com/lupantech/AgentFlow
在线Demo:https://huggingface.co/spaces/AgentFlow/agentflow
YouTube视频:https://www.youtube.com/watch?v=kIQbCQIH1SI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
火箭112-106雷霆!乌度卡谈申京把话挑明,杜兰特赛后表态成关键

火箭112-106雷霆!乌度卡谈申京把话挑明,杜兰特赛后表态成关键

鱼崖大话篮球
2026-02-08 09:55:56
孙艺珍难得穿红裙露性感长腿,小蛮腰完全看不出是44岁的女人

孙艺珍难得穿红裙露性感长腿,小蛮腰完全看不出是44岁的女人

素素娱乐
2026-02-08 09:36:15
马杜罗被抓后,我亲眼所见的古巴:总是停电、几乎没网,鸡蛋每人每月领5个

马杜罗被抓后,我亲眼所见的古巴:总是停电、几乎没网,鸡蛋每人每月领5个

健身狂人
2026-02-06 19:08:37
和老伴在广州住了一个月,我实话实说:广州跟我想象的完全不一样!

和老伴在广州住了一个月,我实话实说:广州跟我想象的完全不一样!

小蜜情感说
2026-02-07 20:25:11
中央明确!退休新规实施,公务员及事业编制,还能够延迟退休吗?

中央明确!退休新规实施,公务员及事业编制,还能够延迟退休吗?

另子维爱读史
2026-02-07 20:06:47
美国华人直言:中国手机扫码支付是最不智能的发明!

美国华人直言:中国手机扫码支付是最不智能的发明!

阿伧说事
2026-01-20 12:53:01
12306显示售罄,微信却能买票?重庆女子上车傻眼:空座成片!

12306显示售罄,微信却能买票?重庆女子上车傻眼:空座成片!

娱乐圈见解说
2026-02-07 15:25:38
1977年,刘源联系邓小平,信中连提了4个“不”字,邓小平:准予

1977年,刘源联系邓小平,信中连提了4个“不”字,邓小平:准予

大运河时空
2026-02-07 08:20:03
2-0!卡里克神了:疯狂4连胜,曼联掀翻克星,只落后曼城3分

2-0!卡里克神了:疯狂4连胜,曼联掀翻克星,只落后曼城3分

足球狗说
2026-02-07 22:26:38
没有萨卡 阿森纳真流畅 约克雷斯双响近6场5球 3-0桑德兰9分领跑

没有萨卡 阿森纳真流畅 约克雷斯双响近6场5球 3-0桑德兰9分领跑

智道足球
2026-02-08 08:41:40
加冕蓝军帽王!帕尔默成为切尔西英超帽子戏法次数最多的球员

加冕蓝军帽王!帕尔默成为切尔西英超帽子戏法次数最多的球员

懂球帝
2026-02-08 00:11:15
采访100位盈利交易者:唯一共用指标,居然是最基础的它

采访100位盈利交易者:唯一共用指标,居然是最基础的它

一方聊市
2026-02-04 17:18:25
迈阿密国际客战巴塞罗那SC:梅西领衔,新援贝尔泰拉梅出战

迈阿密国际客战巴塞罗那SC:梅西领衔,新援贝尔泰拉梅出战

懂球帝
2026-02-08 07:29:08
男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

男子参加公司年会抽中苹果17ProMax,回家给老婆惊喜,打开发现是瓷砖:手机可以不要,策划人必须向我道歉

极目新闻
2026-02-07 10:04:57
卫冕失败?不,苏翊鸣勇夺铜牌!北奥12人仅他坚守 4年2牌历史第1

卫冕失败?不,苏翊鸣勇夺铜牌!北奥12人仅他坚守 4年2牌历史第1

风过乡
2026-02-08 06:29:16
1969年,苏联为何放弃用核武器轰炸中国?多年以后,叛逃的苏方高层终于说出了缘由

1969年,苏联为何放弃用核武器轰炸中国?多年以后,叛逃的苏方高层终于说出了缘由

史海孤雁
2026-01-23 15:26:12
一场95-39!中国女篮狂胜56分!张子宇21分6板2助,赛后数据出炉

一场95-39!中国女篮狂胜56分!张子宇21分6板2助,赛后数据出炉

老吴说体育
2026-02-07 21:14:08
A股:下周稳了!工信部突发特利好,这几个板块将直接起飞!

A股:下周稳了!工信部突发特利好,这几个板块将直接起飞!

云鹏叙事
2026-02-08 00:00:07
最高74层的住宅开始交付了

最高74层的住宅开始交付了

童童聊娱乐啊
2026-02-08 01:47:53
江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

江苏杨某军,没批文让老板垫1个亿,硬是把52个老小区给翻新了。

林子说事
2026-02-01 09:40:29
2026-02-08 10:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
12132文章数 176373关注度
往期回顾 全部

科技要闻

惨遭“兄弟”封禁的腾讯元宝,干得过豆包千问吗?

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

头条要闻

牛弹琴:美又创造历史 一些美国人感叹"沦落到和俄一样"

体育要闻

铜牌与苏翊鸣的这四年,他说:我对得起自己

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金银震荡144小时 大爷大妈排队「抄底」

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
艺术
教育
时尚
亲子

从07年运营到现在,为什么《穿越火线》还能保持不错的热度?

艺术要闻

浓艳的静物花卉,英国当代画家Emma Dunbar

教育要闻

聚焦“四个关键” 扎实推进中小学校党组织领导的校长负责制落地生效

真爱大牌|| 过年5分钟搞定好气色,用了一整年才来分享

亲子要闻

汤淼艰难的育女经历:为要孩子游走各大医院,感叹生育实在不容易

无障碍浏览 进入关怀版