网易首页 > 网易号 > 正文 申请入驻

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

0
分享至

来源:市场资讯

(来源:机器之心)


如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。


该方法创新性地将智能体协作推理与强化学习融为一体,提出流中强化学习机制,让智能体系统在推理流中协同演化,形成「动态共振」效应。使其在长期规划能力、工具调用效率和动态推理深度上实现大幅提升,并在搜索、数学、科学及智能体任务等多个领域展现优秀的泛化能力。


  • 项目主页:https://agentflow.stanford.edu/

  • 论文链接:https://huggingface.co/papers/2510.05592

  • 开源代码:https://github.com/lupantech/AgentFlow

  • 开源模型:https://huggingface.co/AgentFlow

  • 在线 Demo:https://huggingface.co/spaces/AgentFlow/agentflow

  • YouTube 视频:https://www.youtube.com/watch?v=kIQbCQIH1SI


该工作目前不仅在 X 上收获了超高的关注度,同时荣登 Huggingface Paper 日榜第二名!



研究动机:

从「单兵作战」到「团队协作」

目前,让语言模型学会使用工具进行复杂任务推理主要有两种思路:一种是训练一个「全能型」模型,让它既要思考又要调用工具,所有操作都在一个完整的上下文中交织进行;另一种是采用「智能体系统」,将任务分解给多个专门化的智能体模块协同完成。


第一种方法在简单场景中表现良好,但在面对长链推理、多样化工具调用以及动态环境反馈时,训练过程往往不稳定,难以实现良好的可扩展性。第二种方法虽然具备更高的灵活性,但多数系统依赖人工设计的提示词与逻辑,缺乏从经验中自我学习与优化的能力。

这使得研究团队思考:能否让智能体系统也具备「边做边学」的能力,使其能够在交互中不断进化?

AgentFlow:

在流中学习的智能体系统

为了解决以上挑战,研究团队提出了 AgentFlow —— 一个可训练的、工具集成的智能体系统,旨在突破现有方法在可扩展性与泛化能力上的限制。AgentFlow 采用了模块化的智能体结构,由四个具备记忆能力的专门化智能体协同配合,共同完成复杂推理,从而实现「即时学习」:

  • 规划器(Action Planner):分析任务、制定策略并选择最合适的工具

  • 执行器(Tool Executor):调用工具集并整合工具执行结果

  • 验证器(Verifier):基于系统维护的累积记忆评估中间结果是否满足目标与约束

  • 生成器(Generator):整合所有信息与验证反馈,生成最终答案或行动建议

AgentFlow 的关键创新在于:规划器(Planner)并非固定不变,而是能够在智能体交互的「流」(flow)中实时进行 on-policy 优化,使决策过程随着环境变化及其他智能体的反馈不断自适应进化。通过这一机制,各模块在推理流中协同演化,使整个智能体系统在复杂环境下实现自适应推理(adaptive reasoning)与鲁棒工具调用(robust tool-calling)。


Flow-GRPO:

流中强化学习优化算法

实现智能体流中强化学习训练的核心挑战在于多轮信用分配(multi-turn credit assignment):即如何在长时跨度(long-horizon)且奖励稀疏(sparse reward)的条件下,稳定且高效地训练。为此团队提出动作级别的(Action Level)的多轮推理优化目标:


通过将轨迹最终结果的成功或失败信号(outcome reward)广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。


实验结果:

AgentFlow 全面基准测试

为了充分评估 AgentFlow 的泛化能力与高效性,研究团队在 10 个跨各个领域的基准测试上进行了系统评测,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 以 Qwen-2.5-7B-Instruct 为基座模型的 AgentFlow 在各项基准上均超越现有领先方法:

  • 知识检索(Search):提升 +14.9%

  • 智能体推理(Agentic Reasoning):提升 +14.0%

  • 数学推理(Math):提升 +14.5%

  • 科学推理(Science):提升 +4.1%

值得注意的是,AgentFlow 的表现甚至超过了大规模的专有模型,如 GPT-4o(~200B)。



实验发现:

小模型的「大智慧」

研究团队在 10 个基准测试上进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。 一些有趣的发现:

  • 模型规模不是唯一答案

使用 7B 参数的 AgentFlow 在多个任务上超过了约 200B 参数的 GPT-4o,Llama3.1-405B,在搜索任务上领先 8.2%,在智能体任务上领先 15.8%。这再一次展现了,合理的系统设计和训练方法可能比单纯堆砌参数训练 All in one 的大模型更有效。

  • 「在流中学习」至关重要

对比实验显示,若采用离线监督学习(SFT)方式训练规划器,性能反而显著下降,平均降低 19%。这表明,智能体在真实交互环境「流」中进行在线学习是实现高效推理的必要条件。此外,尽管 AgentFlow 的推理流本身能够利用其强大的任务分解能力带来显著性能提升,但仍可能出现循环错误或卡顿问题。通过在真实环境中的训练,智能体系统展现出快速修正错误的工具调用、更精细的子任务规划,以及全局任务解决性能的提升。

这些结果进一步证明了模块协作机制以及流中强化学习在提升多轮智能体系统稳定性与效率方面的显著作用。



  • 自主发现新的解决路径

有意思的是,经过 Flow-GRPO 的强化训练规划器,系统学会了根据任务特点选择合适的工具组合;同时,经过训练的系统会自发探索出新的工具使用模式,比如组合使用维基百科搜索(Wikipedia Search)和特定网页增强搜索(Web Search)的连招,通过工具链获得更加深入地信息挖掘,而这些模式几乎没有在未训练的推理流中出现。


  • 动态推理深度与性能提升

对于相同的数据集下的不同难度任务:譬如说多跳搜索(Multihop Search),智能体任务中的密集长链推理任务,AgentFlow 在经过 Flow-GRPO 训练后能够随着最大限制推理步数的上升稳步提升性能,同时又不会大幅提升平均推理步数——这表示对于长难任务会增加有效的推理步数来提升正确率,而不会一味地所有任务都随着最大轮数限制而延长推理步数。


结语

AgentFlow 为智能体训练提供了一种全新的思路:与其追求一个功能完备的单一大语言模型或「一次性完美」的智能体系统,不如让智能体在系统中自我适应与持续学习。通过将群体智能与「边做边学」的范式相结合,AgentFlow 使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际应用仍有较长的距离,但这样的工作让我们看到:Agentic AI 依然蕴藏着巨大的潜力与想象空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狂飙!涨幅一度超黄金!不少人天天喝

狂飙!涨幅一度超黄金!不少人天天喝

极目新闻
2025-11-09 08:17:25
71岁吴海燕现状:消瘦太多神情落寞,丈夫去世后,如今的她很孤单

71岁吴海燕现状:消瘦太多神情落寞,丈夫去世后,如今的她很孤单

白面书誏
2025-11-08 12:53:23
耗资84亿造不出一辆车,员工却花5000万吃零食,被央视痛批后破产

耗资84亿造不出一辆车,员工却花5000万吃零食,被央视痛批后破产

振华观史
2025-10-31 16:25:53
27岁赵露思太丰满,黑色紧身裙都兜不住好身材,难怪直男都喜欢她

27岁赵露思太丰满,黑色紧身裙都兜不住好身材,难怪直男都喜欢她

蓓小西
2025-11-09 09:54:54
10连胜+8场零封戛然而止!补时被绝平,阿尔特塔赛后怒批球队防守

10连胜+8场零封戛然而止!补时被绝平,阿尔特塔赛后怒批球队防守

听我说球
2025-11-09 10:42:04
30年没见过!广东渔民市区捞上1只“通天河神兽”,收网时吓一跳

30年没见过!广东渔民市区捞上1只“通天河神兽”,收网时吓一跳

万象硬核本尊
2025-11-08 18:16:56
湖人102-122老鹰 球员评价:3人及格,7人低迷

湖人102-122老鹰 球员评价:3人及格,7人低迷

篮球资讯达人
2025-11-09 12:10:44
今日金价:大家不必等待了!接下来,金价很可能会重演历史了

今日金价:大家不必等待了!接下来,金价很可能会重演历史了

前沿天地
2025-11-09 11:38:37
10.7挟持以色列婴儿拍炫耀视频的哈马斯被击毙

10.7挟持以色列婴儿拍炫耀视频的哈马斯被击毙

桂系007
2025-11-08 14:12:39
国民党内斗升级,郑丽文临阵换大将!

国民党内斗升级,郑丽文临阵换大将!

再战五百回合
2025-11-08 10:24:17
央视实锤,蒸汽弹射改电弹,福建舰甲板设计存缺陷,依然全球最强

央视实锤,蒸汽弹射改电弹,福建舰甲板设计存缺陷,依然全球最强

阿龙聊军事
2025-11-09 13:06:28
马斯克涨完工资一高兴,把FSD对华开放时间自曝了

马斯克涨完工资一高兴,把FSD对华开放时间自曝了

智能车参考
2025-11-07 18:51:56
台湾美女替爷爷回大陆寻根,谁料找到老家时,却发现爷爷已成独苗

台湾美女替爷爷回大陆寻根,谁料找到老家时,却发现爷爷已成独苗

山河月明史
2025-10-18 10:41:00
全球独此两棵!1960年在荒废的别墅中找到,嫁接后年产值81亿元

全球独此两棵!1960年在荒废的别墅中找到,嫁接后年产值81亿元

不写散文诗
2025-10-27 18:03:24
斯洛文尼亚媒体:谢什科接受初步医学检查,初步迹象令人乐观

斯洛文尼亚媒体:谢什科接受初步医学检查,初步迹象令人乐观

懂球帝
2025-11-09 07:44:11
300元以下买不到真羽绒服?胖东来工作人员称自营羽绒马甲利润不超30%

300元以下买不到真羽绒服?胖东来工作人员称自营羽绒马甲利润不超30%

闪电新闻
2025-11-09 13:19:49
掘金大胜步行者豪取4连胜 约基奇32+14+14第170次三双

掘金大胜步行者豪取4连胜 约基奇32+14+14第170次三双

醉卧浮生
2025-11-09 12:35:55
不吹牛?河南队主帅:我们的实力是中超前3,仅次于海港、国安

不吹牛?河南队主帅:我们的实力是中超前3,仅次于海港、国安

国足风云
2025-11-09 09:50:25
央视新剧《四喜》开播遭群嘲!理由出奇一致,实力派蒋欣也救不回

央视新剧《四喜》开播遭群嘲!理由出奇一致,实力派蒋欣也救不回

潘殤旅行浪子
2025-11-08 00:15:36
降温,为什么劝中年女人别穿“冲锋衣”出门?看这几组对比就懂了

降温,为什么劝中年女人别穿“冲锋衣”出门?看这几组对比就懂了

时尚穿搭生活馆
2025-11-02 22:03:48
2025-11-09 14:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1322929文章数 4420关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

张家界荒野求生最后17人中又有1人退出 大赞泡面好吃

头条要闻

张家界荒野求生最后17人中又有1人退出 大赞泡面好吃

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》剧组又回应了?

财经要闻

10月CPI同比上涨0.2% CPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

教育
手机
时尚
本地
数码

教育要闻

真正的因材施教!一高中实行单科分层走班制,家长:建议全国推广

手机要闻

iQOO 15对比红米K90 Pro Max,iQOO Neo11对比红米K90

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

天马携多款Micro-LED透明技术亮相进博会

无障碍浏览 进入关怀版