网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

斯坦福7B智能体全面超越GPT-4o，推理流登顶HF

2025-11-04 18:30:59　来源: 我不叫阿哏

广东举报

0

分享至

当前AI Agent的发展正陷入两难的境地：

一方面，训练「全能型」大模型让其同时承担推理、规划与工具调用，虽具一体化优势，但在长链推理中往往训练不稳定、扩展性受限；

另一方面，基于prompt的智能体系统虽具灵活性，却缺乏学习与自我优化能力，无法从交互中持续进化。

如何突破这一瓶颈？

斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和Lambda的研究团队给出了新答案：让智能体系统在推理「流」中进行在线强化学习，从而实现持续的自我提升与能力进化。

论文地址：

https://arxiv.org/abs/2510.05592

项目主页： https://agentflow.stanford.edu/

开源代码： https://github.com/lupantech/AgentFlow

在线展示：https://huggingface.co/spaces/AgentFlow/agentflow

视频教程：https://www.youtube.com/watch?v=kIQbCQIH1SI

他们提出AgentFlow框架采用模块化架构，通过4个专门化智能体协同工作，配合专门设计的Flow-GRPO算法，使系统能够在真实交互环境中持续优化决策策略。

实验结果显示，仅7B参数的AgentFlow在搜索、数学、科学等多个任务上全面超越GPT-4o（约200B参数）和 Llama-3.1-405B。

团队负责人在推特上分享了工作，获得了极大的关注。

该工作目前已登上HuggingFace Paper日榜第二名，以及周最火Huggingface 项目。

长链推理中的信用分配难题

训练智能体系统面临的核心挑战是多轮信用分配（multi-turn credit assignment）问题：在长时跨度、奖励稀疏的环境中，如何准确判断每一步决策对最终结果的贡献？

传统的单一模型方法将所有功能集成在一个LLM中，通过特殊标签（如

）一体化输出思考、工具调用和回复。

这种方式在短链任务中有效，但在复杂场景下容易出现：推理链过长导致训练不稳定、工具选择错误难以追溯、无法根据环境反馈动态调整策略。

而现有的智能体系统（如 LangGraph、OWL、Pydantic、AutoGen）虽然实现了模块化，但大多依赖固定的 prompt 工程，缺乏从经验中学习的机制。

AgentFlow多模块实时交互

在「流」中学习

AgentFlow的设计思路是：将复杂的推理任务分解给专门化的智能体模块，同时让核心决策模块能够在交互中持续学习。

四模块协同架构

系统由四个具备记忆能力的专门化智能体组成：

规划器（Action Planner）：分析任务需求，制定执行策略，选择最合适的工具。这是系统的核心决策模块，也是唯一需要训练的部分。
执行器（Tool Executor）：负责实际调用工具API，整合工具返回结果。
验证器（Verifier）：基于系统累积的历史记忆，评估中间结果是否符合任务目标和约束条件。
生成器（Generator）：整合所有信息和验证反馈，生成最终答案或下一步行动建议。

关键创新在于：规划器不是静态的，而是通过在线（on-policy）强化学习在推理流中实时优化。

每轮交互后，系统会根据最终结果的成功或失败，更新规划器的决策策略，并将优化结果整合到系统记忆中，形成闭环的自适应学习过程。

Flow-GRPO算法

解决信用分配问题

团队提出Flow-GRPO（Flow-based Group Relative Policy Optimization）算法，专门针对多轮推理场景设计。核心思想是将轨迹最终的奖励信号（成功/失败）广播到每一步动作，把复杂的多轮强化学习问题转化为一系列单轮策略更新。

具体做法是：

1. 收集完整的推理轨迹（从初始任务到最终结果）；

2. 根据最终结果计算 outcome reward；

3. 将这个 reward 分配给轨迹中每个规划动作；

4. 使用相对优势函数计算每个动作的优势，进行策略梯度更新。

这种方法有效缓解了奖励稀疏问题，同时保持了训练的稳定性。

在线学习使系统能够：快速纠正错误的工具调用、探索更优的子任务分解方式、根据环境反馈动态调整推理深度。

实验结果：小模型的逆袭

研究团队在10个跨领域基准上进行了系统评测，覆盖知识检索、智能体任务、数学推理和科学推理四大类。

性能对比

以Qwen-2.5-7B-Instruct为基座模型，AgentFlow 在所有类别中均显著领先。

知识检索：相比基线提升14.9%

智能体推理：提升14.0%

数学推理：提升14.5%

科学推理：提升4.1%

更令人惊讶的是跨规模对比结果：

7B的AgentFlow在搜索任务上比GPT-4o（约200B）高8.2%
在智能体任务上比Llama-3.1-405B高15.8%
3B模型的AgentFlow也能在多项任务中超越405B的基线模型

消融实验的关键发现

1. 在线学习 vs 离线学习

对比实验显示，如果用传统SFT方式训练规划器，性能反而会平均下降19%。这证明在真实交互环境中的在线学习是实现高效推理的必要条件。

2. 自主探索新策略

根据任务特点选择合适的工具组合；同时，经过训练的系统会自发探索出新的工具使用模式，比如组合使用维基百科搜索（Wikipedia Search）和特定网页增强搜索（Web Search）的连招，通过工具链获得更加深入地信息挖掘，而这些模式几乎没有在未训练的推理流中出现。

3. 动态推理深度

在多跳搜索等密集推理任务中，训练后的AgentFlow展现出「智能的懒惰」：对简单任务保持较少的推理步数，对复杂任务才会增加推理深度。

随着最大步数限制的提升，性能稳步上升但平均步数不会同比例增长。

4. 模块协作的价值

虽然推理流本身就能带来性能提升，但未经训练的系统容易出现循环错误或卡顿。

通过强化学习训练后，系统在工具调用准确性、子任务规划精细度和全局性能上都有明显改善。作者团队提供过了一个例子来生动展示了在实验中的有趣发现。

在这个例子中，在经过Flow-GRPO训练前的推理系统，一旦遇到了诸如这里的python变量定义错误，便会反复输出相同的子目标和工具调用，极大地浪费时间和推理效率。

在经过Flow-GRPO在线更新后，动作规划器能够根据之前的错误自动调整用更确切的子目标和任务描述来指导后续步骤，并且经过这样的随机应变后，一步成功。

这个例子也极大程度展现了，在智能体系统真实推理中进行强化学习的极大潜力。

技术意义与未来展望

AgentFlow的工作价值在于：

1. 提供了新的训练范式证明了智能体系统可以通过在线强化学习获得类似大模型的学习能力，且在特定任务上效率更高。

2. 验证了「小而精」的可行性在合理的系统设计下，小模型通过模块化协作和持续学习，可以在复杂推理任务中超越大规模通用模型。

3. 为可扩展AI提供思路模块化架构使得系统可以灵活添加新工具、调整模块功能。

AgentFlow至少让我们看到：Agentic AI的发展不必完全依赖模型规模的堆砌，系统架构创新+高效训练方法可能是更值得探索的方向。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

智东西 2025-11-05 17:53:14
19 跟贴 19
Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0

智能体驱动：企业从“界面操作”到“智能助力”的必然路径

钛媒体APP 2025-10-20 16:40:12
0 跟贴 0

27万小时的真实数据，终于验证了机器人领域的Scaling Law？

DeepTech深科技 2025-11-05 21:55:30
1 跟贴 1
AI跌价900倍，连一瓶矿泉水都比它贵！

新智元 2025-11-05 19:51:51
43 跟贴 43

聚焦手机AI“超级入口”，中兴Nebula小模型让手机秒变“小秘”？

量子位 2025-11-04 14:30:47
0 跟贴 0

AI实盘投资哪家强？专访Nof1人工智能负责人：表现最佳的都是开源模型

每日经济新闻 2025-11-05 23:20:06
0 跟贴 0
亚马逊与Perplexity打起来了！互联网平台与智能体水火不容？

雷科技 2025-11-05 21:29:34
0 跟贴 0

ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
银河通用&清华推出DexNDM，用神经动力学重塑灵巧操作

机器之心Pro 2025-11-06 14:18:33
0 跟贴 0
开源即爆火！英伟达重磅推出OmniVinci全模态大模型

机器之心Pro 2025-11-06 15:54:29
0 跟贴 0
一句录音，现场让余承东“说阿拉伯语”！科大讯飞掏出AI落地最新成果

智东西 2025-11-06 15:23:06
0 跟贴 0
让学习更有兴趣！科大讯飞AI学习机发布“AI大咖 1对1 答疑辅导”新功能

经济观察报 2025-11-06 15:35:10
0 跟贴 0
多Agent驱动的AI投顾解决方案：覆盖75%核心投顾场景，问题解决率超90% | 创新场景

钛媒体APP 2025-09-05 18:01:12
0 跟贴 0
阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o

量子位 2025-06-27 14:00:19
67 跟贴 67
男子通过模型讲解自建房结构，“圈梁构造柱楼板马牙槎”，网友：楼板才是砖混结构的灵魂

鹤壁焦点 2025-11-03 16:34:57
367 跟贴 367
神秘策略曝光：中美关系颠覆在即？

和明艳 2025-11-04 07:57:14
3 跟贴 3
丑女易容后的报复，最被忽视的推理神作《回廊亭杀人事件》

壹哥追剧 2025-11-05 19:42:43
1 跟贴 1
美国发射洲际弹道导弹俄方回应

央视新闻客户端 2025-11-06 05:35:52
13822 跟贴 13822
足协官宣 45岁邵佳一出任国足新主帅

央视新闻客户端 2025-11-05 17:36:01
13064 跟贴 13064
中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

机器之心Pro 2025-11-06 16:11:29
0 跟贴 0
1斤豆芽卖28.8元？网友直呼“吃不起”，知名餐饮品牌回应

都市快报橙柿互动 2025-11-02 16:20:16
8617 跟贴 8617
科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

DeepTech深科技 2025-10-12 19:05:00
0 跟贴 0
新领导处处针对我，我递辞呈她急眼：为你调岗想跑？没门！

晓艾故事汇 2025-11-02 18:06:56
1 跟贴 1
地球级AI智能体爆诞！谷歌地球开外挂，一夜为20亿人洪水预警

新智元 2025-11-05 19:52:11
8 跟贴 8
国务院公告后搜索暴涨3倍上海人立马出手：怕抢不到

极目新闻 2025-11-05 15:06:20
737 跟贴 737
红壹科技获数千万元B轮融资，发布“AI智能体工厂” | 融资首发

钛媒体APP 2025-11-05 21:24:44
0 跟贴 0
重庆行政区划调整撤销江北区、渝北区

央视新闻客户端 2025-11-06 12:04:05
607 跟贴 607
造价10亿地标13.6亿起拍！广州圆大厦第三次上架找买家

南方都市报 2025-11-06 11:51:15
38 跟贴 38
三亚海滩“长满”了俄罗斯人！网友调侃：我在这里反而成了“老外”

封面新闻 2025-11-02 12:57:02
148 跟贴 148
智能油车破局：上汽奥迪A5L Sportback的科技进化

路咖汽车 2025-11-05 10:17:11
14 跟贴 14
热血传奇：升级武器时垫刀到底有没有用？

道哥説传奇 2025-11-05 06:25:03
30 跟贴 30
西部第2轰然倒下，湖人赢球有方法，4策略回报大，2人价值翻倍

体坛大辣椒 2025-11-06 14:23:03
0 跟贴 0
美国肯塔基州州长：本州进入紧急状态

央视新闻客户端 2025-11-06 05:30:35
725 跟贴 725
一图速成！行车安全必备知识，避开这些陷阱少出事故

洒脱一点p 2025-11-06 02:42:15
1 跟贴 1
从此，请叫“贝爵爷”！贝克汉姆获封英国王室最高爵士头衔

封面新闻 2025-11-05 16:29:05
1100 跟贴 1100
全运会|1：2不敌浙江队，山东U20男足惊险晋级八强

齐鲁壹点 2025-11-05 22:37:14
311 跟贴 311
小鹏全新飞行汽车亮相：续航超500公里！何小鹏打出“安全牌”：高管先飞，必须飞满5000公里

每日经济新闻 2025-11-05 19:25:06
2549 跟贴 2549
智能体帮我做实盘？如何让口袋安安全全

卡尔的AI沃茨 2025-11-06 03:42:16
0 跟贴 0
医疗“黑科技”亮相乌镇峰会 “生命预警表”实现对人体器官深度监测

中国网财经 2025-11-06 13:34:09
0 跟贴 0

湖南某三甲医院男副院长与女眼科主任的瓜

湖南某三甲医院男副院长与女眼科主任的瓜

吃瓜体

2025-11-06 09:22:47

尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

尼日尔撕毁4亿美元合同,驱逐中国高管,我方暗藏后手,给它狠狠教训

诡谲怪谈

2025-04-30 23:32:55

竞争对手爆发终结雷霆杨瀚森开拓者生涯提前结束

竞争对手爆发终结雷霆杨瀚森开拓者生涯提前结束

体坛周报

2025-11-06 14:46:33

刚刚，20%涨停！利好消息，来袭！

刚刚，20%涨停！利好消息，来袭！

证券时报

2025-11-06 14:43:05

拆迁全面叫停？2025年以后，楼龄超过20年的房子，统一这样处理？

拆迁全面叫停？2025年以后，楼龄超过20年的房子，统一这样处理？

巢客HOME

2025-11-06 04:25:03

三星S26 Ultra：从直到弯再到圆！

三星S26 Ultra：从直到弯再到圆！

手机评测室

2025-11-06 12:01:24

25年“双一流”名单公布，多所大学无奈出局，目标院校上榜了吗？

25年“双一流”名单公布，多所大学无奈出局，目标院校上榜了吗？

王晓爱体彩

2025-11-06 13:25:57

中国将迎来“死亡高峰期”，一代人集体老去，人口天平彻底倾斜

中国将迎来“死亡高峰期”，一代人集体老去，人口天平彻底倾斜

纪中百大事

2025-11-01 21:13:44

这一次，英达终于反击高调宣布喜讯，众多明星前来捧场挣足了面子

这一次，英达终于反击高调宣布喜讯，众多明星前来捧场挣足了面子

以茶带书

2025-11-04 14:13:20

富商郭台铭母亲去世！不设灵不办公祭，曾支持儿子娶小24岁曾馨莹

富商郭台铭母亲去世！不设灵不办公祭，曾支持儿子娶小24岁曾馨莹

阿纂看事

2025-11-06 14:13:03

俄军夺取85%红军城，却没发现乌军主力：数千乌军全躲藏在哪里？

俄军夺取85%红军城，却没发现乌军主力：数千乌军全躲藏在哪里？

泠泠说史

2025-11-06 15:37:53

西部第2轰然倒下，湖人赢球有方法，4策略回报大，2人价值翻倍

西部第2轰然倒下，湖人赢球有方法，4策略回报大，2人价值翻倍

体坛大辣椒

2025-11-06 14:23:03

终于等到这天！官媒发文，高调官宣44岁郭晶晶喜讯，霍震霆说对了

终于等到这天！官媒发文，高调官宣44岁郭晶晶喜讯，霍震霆说对了

白面书誏

2025-11-06 10:42:14

米切尔46+8赛季新高骑士力克76人马克西27+7+9探花14中3

米切尔46+8赛季新高骑士力克76人马克西27+7+9探花14中3

醉卧浮生

2025-11-06 10:36:33

女同事上班穿丁字裤被拍发网上爆火！这拍到的倒三角大家看是穿反了吗？

女同事上班穿丁字裤被拍发网上爆火！这拍到的倒三角大家看是穿反了吗？

经典段子

2025-11-05 22:36:41

荷兰政府花200亿挽留无效！光刻机巨头ASML为何要从老家搬走？

荷兰政府花200亿挽留无效！光刻机巨头ASML为何要从老家搬走？

南宫一二

2025-11-06 13:38:57

买鲈鱼，聪明人从不只看大小！牢记这“3不选”，鱼贩不敢忽悠你

买鲈鱼，聪明人从不只看大小！牢记这“3不选”，鱼贩不敢忽悠你

阿龙美食记

2025-10-31 16:36:27

电商纳税新规来了，销售超10万必须升级个体或公司，有人直接关门

电商纳税新规来了，销售超10万必须升级个体或公司，有人直接关门

眼光很亮

2025-11-06 10:26:13

A股：大家要做好心理预期，种种迹象表明，周五A股随时会大变盘了

A股：大家要做好心理预期，种种迹象表明，周五A股随时会大变盘了

财经大拿

2025-11-06 13:35:16

造价10亿地标13.6亿起拍！广州圆大厦第三次上架找买家

造价10亿地标13.6亿起拍！广州圆大厦第三次上架找买家

南方都市报

2025-11-06 11:51:15

我不叫阿哏

分享有趣、有用的故事！

210文章数 5954关注度

往期回顾全部

科技要闻

苹果“认输”！曝每年10亿美元租用谷歌AI

头条要闻

男子打车将手机遗忘车内司机将手机"丢"到300公里外

头条要闻

男子打车将手机遗忘车内司机将手机"丢"到300公里外

体育要闻

送走两位全明星，公牛成了东部第一

娱乐要闻

白百何好友揭露争奖细节

财经要闻

南银法巴加速发展背后：资金饥渴症待解

汽车要闻

是我眼花了么？怎么大猩猩都来参加新车发布了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

艺术

家居

房产

公开课

超声探头会加重受伤情况吗？

艺术要闻

“塑料凳”大厦？西安新地标213米造型引热议！

家居要闻

别样府院畅享诗意生活

房产要闻

中旅·三亚蓝湾，以一座城市会客厅回应世界的滨海想象

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版