网易首页 > 网易号 > 正文 申请入驻

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

0
分享至

来源:市场资讯

(来源:机器之心)


对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法,将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。

在 11 个知识密集型、网络搜索问答任务数据集中,Tree-GRPO 在多种模型规模上更省预算、更高表现,显著优于链式 RL 方法,甚至能在 1/4 预算的情况下超越 GRPO 基线,为 Agentic RL 的高效训练提供了新的解决思路。


  • 论文标题:Tree Search for LLM Agent Reinforcement Learning

  • 论文地址:https://arxiv.org/abs/2509.21240

  • 代码链接:https://github.com/AMAP-ML/Tree-GRPO


树方法相较链方法的区别与优势

Agentic RL 的痛点


(左)链采样,(中)token/sentence-level 树采样,(右)agent-level 树采样

在 Agentic RL 中,LLM 不再是被动的文本生成器,而是一个在动态环境中的自主决策智能体。在 ReAct 视角下,LLM Agent 的决策轨迹由一段连续的多步行动构成,在每一步中,智能体都会进行思考(Think)、行动(Action)、观察(Observation)三个行为。

这样的开放式多轮轨迹在 RL 中面临两点关键瓶颈:

  • Rollout 采样成本高:多回合交互的轨迹中包含成千上万 Token 和多次 tool-calls。现有链式采样为同一任务反复生成多跳独立轨迹,采样冗余高,训练时间几乎被 rollout 吞噬,且外部工具(如搜索 API)费用不菲;

  • 多轮长轨迹的监督稀疏:绝大多数方法仅能依赖最终奖励评估整条轨迹好坏,难以定位「哪一步/哪一次行动」贡献了成败,导致在预算增长时有效训练信号并未同比增加,学习过程失衡甚至出现训练崩溃。

Tree-GRPO:

以「智能体步骤」为节点进行树搜索


Tree-GRPO 训练总览,左上为采样流程,右上为两个主要优势,下方为训练流程

已有的树搜索 RL 方法通常在 Token 级或句式级别上进行,对于有明确步骤级语义结构的智能体来说并不适合。该团队提出以「智能体步骤」为树节点单位的树搜索,即每个树节点对应一个完整的思考、行动、观察步骤。为适配现有 LLM 并行推理框架,我们采用「先初始化—后扩张」的策略:

初始化 M 条独立轨迹;

每条轨迹随机采样 N 个节点,以根节点到采样节点作为完整上下文进行扩张;

通过重复步骤 2 L 次,最终获得分散在 M 棵树的反应轨迹。这样的树搜索能够在一定的 rollout 预算下获得更多的 Agent 轨迹。


基于树的优势计算

通过树结构的样本轨迹,该方法还能够在仅凭结果奖励下构造出 step-level 的偏好目标,形式与离线构造 DPO 数据优化目标一致。

对每棵树而言,在每个分支节点,从叶节点回溯得到的奖励差值天然形成一个偏好优化目标,而兄弟子树的深度决定了该过程信号的粒度。


为进一步提升 RL 训练中优势估计的稳定性,避免因单棵树轨迹数量过少导致的偏差或方差,Tree-GRPO 还对所有树间的轨迹优势进行归一化,并将归一化结果与原始优势相加,作为最终的优势估计。


最终的优化目标为:


值得注意的是,这样的树内 GRPO 在梯度形式上和 step-level DPO 的优化目标保持一致


实验结果:

11 个 Agent 问答任务评测

本文在包括 Llama3.2 和 Qwen2.5 系列的多个参数规模模型上进行了评测。实验结果表明,Tree-GRPO 在所有任务上均稳定优于链式 RL 方法,其中多跳问答(QA)性能提升尤为显著:在较小模型 Qwen2.5-1.5b 上有 69% 相对提升,在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。


在 Web-Agent QA 实验设定中,Tree-GRPO 在各项指标上也均有稳定提升,在 GAIA 中有相对 28% 性能提升。


进一步分析:

树搜索 RL 的更多优势

由于 Rollout 预算是 Agentic RL 中一个重要限制,本文在不同预算设定下进行了实验,结果表明 Tree-based 方法在各种设定中均稳定优于 Chain-based 方法,尤其是在预算极其受限情况下(每个 prompt 仅 2 条完整轨迹),Tree-GRPO 相较 Chain-based 方法有 112% 提升;另外,该方法能够在 1/4 预算情况下获得更优性能(36.8 vs 33.9)。


除了性能上的提升,团队还发现 Tree-based 方法能够激发模型学习到更多轮的交互次数,这对于更加复杂的 Agent 任务有重要意义。


总结与未来展望

团队提出的 Tree-GRPO 算法给 Agentic RL 带来了全新思路,解决了现有方法中 rollout 预算大、监督信号稀疏的两大问题。通过树结构的采样和优势估计方法,Tree-GRPO 能够在多轮 Agent 任务中实现更高效、稳定的 RL 训练。

团队表示,树搜索方法是一种探索与利用的权衡,如何动态地调整 RL 训练中彼此的权重是优化学习效果的重要因素。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国安硬刚背后的模糊地带:李明送礼时未上任,俱乐部“获益”存疑

国安硬刚背后的模糊地带:李明送礼时未上任,俱乐部“获益”存疑

中国足球的那些事儿
2026-01-29 17:30:38
热搜上“女儿洗头后最恐怖的一幕”:“皇帝瘾”型父母,逼疯孩子

热搜上“女儿洗头后最恐怖的一幕”:“皇帝瘾”型父母,逼疯孩子

小椰子专栏
2026-01-29 13:06:13
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2026-01-29 14:17:49
中国博士意大利山区旅行失联11天 当地警方:持续搜索暂无收获,近两天山区降雪

中国博士意大利山区旅行失联11天 当地警方:持续搜索暂无收获,近两天山区降雪

红星新闻
2026-01-29 17:08:20
钟汉良在成都农村摆摊!皮肉松垮白发遮不住,蹲街边卖菜像小老头

钟汉良在成都农村摆摊!皮肉松垮白发遮不住,蹲街边卖菜像小老头

说历史的老牢
2026-01-28 14:37:26
申花第二阶段冬训迎来久违强援回归,曾跟刘诚宇齐名,值得期待

申花第二阶段冬训迎来久违强援回归,曾跟刘诚宇齐名,值得期待

振刚说足球
2026-01-29 19:18:57
伊朗目前的武力值,还能不能打一打?

伊朗目前的武力值,还能不能打一打?

黄娜老师
2026-01-29 00:44:55
从30胜13负,到字母哥申请交易!说里弗斯亲手毁了雄鹿一点不为过

从30胜13负,到字母哥申请交易!说里弗斯亲手毁了雄鹿一点不为过

移动挡拆
2026-01-29 08:53:30
Here we go!罗马诺:水晶宫将签下狼队前锋拉森,总价5000万镑

Here we go!罗马诺:水晶宫将签下狼队前锋拉森,总价5000万镑

懂球帝
2026-01-29 20:08:46
马云露面最新发声:不要再犹豫用不用AI,而是教孩子如何用

马云露面最新发声:不要再犹豫用不用AI,而是教孩子如何用

南方都市报
2026-01-28 11:37:30
海南大消息!融资客扫货8股

海南大消息!融资客扫货8股

数据宝
2026-01-29 19:46:57
5位省部级领导,当选新职务

5位省部级领导,当选新职务

上观新闻
2026-01-29 12:40:04
比西部材料还猛?火箭最强赛道—隔热材料  仅7家公司提前卡位

比西部材料还猛?火箭最强赛道—隔热材料 仅7家公司提前卡位

元芳说投资
2026-01-29 07:00:08
白骨案受害者儿子再发声:我的人生被毁了!如今38岁的他还在租房

白骨案受害者儿子再发声:我的人生被毁了!如今38岁的他还在租房

丁丁鲤史纪
2026-01-29 09:37:39
76岁上海知青回江西访友,竟发现当年的女友终生未嫁:我对不住你

76岁上海知青回江西访友,竟发现当年的女友终生未嫁:我对不住你

五元讲堂
2026-01-19 11:13:16
1976年9月8日,毛主席临终前拼尽全力敲了三下,叶帅当时没懂,后来全明白了

1976年9月8日,毛主席临终前拼尽全力敲了三下,叶帅当时没懂,后来全明白了

寄史言志
2026-01-13 18:22:07
巴特勒+4首轮 vs 唐斯+4互换!四队报价雄鹿字母哥,勇士断层领先

巴特勒+4首轮 vs 唐斯+4互换!四队报价雄鹿字母哥,勇士断层领先

奕辰说球
2026-01-29 12:01:39
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

娱乐圈见解说
2026-01-29 10:06:00
武汉理工毕业生当保安被母校约谈后,被开除了

武汉理工毕业生当保安被母校约谈后,被开除了

半岛晨报
2026-01-28 19:47:13
2026-01-29 20:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057550文章数 5302关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

亲子
本地
时尚
公开课
军事航空

亲子要闻

萌娃偷偷告诉妈妈:下次你再选老公,我来帮你

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

28亿次播放:她这段感情,后劲越来越猛

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版