网易首页 > 网易号 > 正文 申请入驻

阿里高德提出Tree-GRPO,高效破解智能体RL难题

0
分享至



对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。

来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的Tree-GRPO方法,将独立的链式采样改造为智能体步骤级的树搜索。该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。

在 11 个知识密集型、网络搜索问答任务数据集中,Tree-GRPO 在多种模型规模上更省预算、更高表现,显著优于链式 RL 方法,甚至能在 1/4 预算的情况下超越 GRPO 基线,为 Agentic RL 的高效训练提供了新的解决思路。



  • 论文标题:Tree Search for LLM Agent Reinforcement Learning
  • 论文地址:https://arxiv.org/abs/2509.21240
  • 代码链接:
  • https://github.com/AMAP-ML/Tree-GRPO



树方法相较链方法的区别与优势

Agentic RL 的痛点



(左)链采样,(中)token/sentence-level 树采样,(右)agent-level 树采样

在 Agentic RL 中,LLM 不再是被动的文本生成器,而是一个在动态环境中的自主决策智能体。在 ReAct 视角下,LLM Agent 的决策轨迹由一段连续的多步行动构成,在每一步中,智能体都会进行思考(Think)、行动(Action)、观察(Observation)三个行为。

这样的开放式多轮轨迹在 RL 中面临两点关键瓶颈:

  • Rollout 采样成本高:多回合交互的轨迹中包含成千上万 Token 和多次 tool-calls。现有链式采样为同一任务反复生成多跳独立轨迹,采样冗余高,训练时间几乎被 rollout 吞噬,且外部工具(如搜索 API)费用不菲;

  • 多轮长轨迹的监督稀疏:绝大多数方法仅能依赖最终奖励评估整条轨迹好坏,难以定位「哪一步/哪一次行动」贡献了成败,导致在预算增长时有效训练信号并未同比增加,学习过程失衡甚至出现训练崩溃。

Tree-GRPO:

以「智能体步骤」为节点进行树搜索



Tree-GRPO 训练总览,左上为采样流程,右上为两个主要优势,下方为训练流程

已有的树搜索 RL 方法通常在 Token 级或句式级别上进行,对于有明确步骤级语义结构的智能体来说并不适合。该团队提出以「智能体步骤」为树节点单位的树搜索,即每个树节点对应一个完整的思考、行动、观察步骤。为适配现有 LLM 并行推理框架,我们采用「先初始化—后扩张」的策略:

  1. 初始化 M 条独立轨迹;
  2. 每条轨迹随机采样 N 个节点,以根节点到采样节点作为完整上下文进行扩张;

通过重复步骤 2 L 次,最终获得分散在 M 棵树的反应轨迹。这样的树搜索能够在一定的 rollout 预算下获得更多的 Agent 轨迹。



基于树的优势计算

通过树结构的样本轨迹,该方法还能够在仅凭结果奖励下构造出step-level 的偏好目标,形式与离线构造 DPO 数据优化目标一致。

对每棵树而言,在每个分支节点,从叶节点回溯得到的奖励差值天然形成一个偏好优化目标,而兄弟子树的深度决定了该过程信号的粒度。



为进一步提升 RL 训练中优势估计的稳定性,避免因单棵树轨迹数量过少导致的偏差或方差,Tree-GRPO 还对所有树间的轨迹优势进行归一化,并将归一化结果与原始优势相加,作为最终的优势估计。



最终的优化目标为:



值得注意的是,这样的树内 GRPO 在梯度形式上和 step-level DPO 的优化目标保持一致



实验结果:

11 个 Agent 问答任务评测

本文在包括 Llama3.2 和 Qwen2.5 系列的多个参数规模模型上进行了评测。实验结果表明,Tree-GRPO 在所有任务上均稳定优于链式 RL 方法,其中多跳问答(QA)性能提升尤为显著:在较小模型 Qwen2.5-1.5b 上有 69% 相对提升,在 Qwen2.5-3b 上取得了 36.8 的平均 EM 得分。



在 Web-Agent QA 实验设定中,Tree-GRPO 在各项指标上也均有稳定提升,在 GAIA 中有相对 28% 性能提升。



进一步分析:

树搜索 RL 的更多优势

由于 Rollout 预算是 Agentic RL 中一个重要限制,本文在不同预算设定下进行了实验,结果表明 Tree-based 方法在各种设定中均稳定优于 Chain-based 方法,尤其是在预算极其受限情况下(每个 prompt 仅 2 条完整轨迹),Tree-GRPO 相较 Chain-based 方法有 112% 提升;另外,该方法能够在 1/4 预算情况下获得更优性能(36.8 vs 33.9)。



除了性能上的提升,团队还发现 Tree-based 方法能够激发模型学习到更多轮的交互次数,这对于更加复杂的 Agent 任务有重要意义。



总结与未来展望

团队提出的 Tree-GRPO 算法给 Agentic RL 带来了全新思路,解决了现有方法中 rollout 预算大、监督信号稀疏的两大问题。通过树结构的采样和优势估计方法,Tree-GRPO 能够在多轮 Agent 任务中实现更高效、稳定的 RL 训练。

团队表示,树搜索方法是一种探索与利用的权衡,如何动态地调整 RL 训练中彼此的权重是优化学习效果的重要因素。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

闫学晶送祝福光速复活,网友炸锅:这哪是拜年,是赤裸裸的挑衅!

好贤观史记
2026-01-27 09:39:55
官宣!广州推动申办世界杯,将配合体育总局部署

官宣!广州推动申办世界杯,将配合体育总局部署

广州楼市发布
2026-01-29 11:13:17
马卡:居莱尔被换下时非常愤怒,他向阿韦洛亚摊手表示不满

马卡:居莱尔被换下时非常愤怒,他向阿韦洛亚摊手表示不满

懂球帝
2026-01-29 08:37:27
勇士140分创赛季新高,送爵士4连败!库里复出27分,穆迪26分5板

勇士140分创赛季新高,送爵士4连败!库里复出27分,穆迪26分5板

无术不学
2026-01-29 12:47:06
42岁王宝强整容了!戴金框眼镜很像汪小菲,为配学霸女友不惜一切

42岁王宝强整容了!戴金框眼镜很像汪小菲,为配学霸女友不惜一切

喜欢历史的阿繁
2026-01-29 12:37:58
当医生自己得了癌症,他们是如何应对的?

当医生自己得了癌症,他们是如何应对的?

特约前排观众
2026-01-29 00:20:03
76人遭禁足!媒体人热议:没有国脚级球员,漏了多少人或有第三批

76人遭禁足!媒体人热议:没有国脚级球员,漏了多少人或有第三批

奥拜尔
2026-01-29 12:37:00
2026异地就医大调整,不用备案直接报,这三类人享专属福利

2026异地就医大调整,不用备案直接报,这三类人享专属福利

复转这些年
2026-01-29 03:00:03
特斯拉Model S和X将停产,加州工厂变机器人生产基地

特斯拉Model S和X将停产,加州工厂变机器人生产基地

南方都市报
2026-01-29 12:21:45
萨哈:引进谢什科太错误了,比选错主教练还要糟糕

萨哈:引进谢什科太错误了,比选错主教练还要糟糕

懂球帝
2026-01-29 12:20:06
为高芙发声!德约科维奇嘲讽澳网官方:洗澡居然没装监控镜头

为高芙发声!德约科维奇嘲讽澳网官方:洗澡居然没装监控镜头

体育妞世界
2026-01-29 12:10:46
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

兴史兴谈
2026-01-27 05:18:52
申花外租阿苏埃至莱加内斯,背后竟藏着这些秘密

申花外租阿苏埃至莱加内斯,背后竟藏着这些秘密

烟浔渺渺
2026-01-29 12:35:26
沙特王储突然站队,中国三年前留下的后手,关键时刻拉了伊朗一把

沙特王储突然站队,中国三年前留下的后手,关键时刻拉了伊朗一把

肖兹探秘说
2026-01-28 18:29:02
蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

吕醿极限手工
2025-12-29 18:33:00
特朗普调停有力度,克宫正式发出邀请,泽连斯基应亲自到莫斯科谈

特朗普调停有力度,克宫正式发出邀请,泽连斯基应亲自到莫斯科谈

小陈讲史
2026-01-29 10:22:32
送詹姆斯+布朗尼回家!美媒晒3方10人交易方案:湖人获2大全明星

送詹姆斯+布朗尼回家!美媒晒3方10人交易方案:湖人获2大全明星

锅子篮球
2026-01-28 21:34:45
向太晒红宝石首饰!1666万耳环,搭配24万项链,承诺让孙女捐出去

向太晒红宝石首饰!1666万耳环,搭配24万项链,承诺让孙女捐出去

艺能八卦局
2026-01-29 00:38:08
严禁强制打卡 严禁事事留痕

严禁强制打卡 严禁事事留痕

南方都市报
2026-01-29 07:05:12
高人预测:不出意外,2月开始将呈现5大现象,老百姓需做好准备

高人预测:不出意外,2月开始将呈现5大现象,老百姓需做好准备

好贤观史记
2026-01-27 09:52:53
2026-01-29 13:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12213文章数 142552关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

82岁大爷背包独自出国旅行10年 1个月花掉近1年退休金

头条要闻

82岁大爷背包独自出国旅行10年 1个月花掉近1年退休金

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

黄金价格太高了吗

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

数码
艺术
健康
时尚
军事航空

数码要闻

内存、显卡暴涨被小偷盯上!实体店求生欲拉满:展示机被迫拆空

艺术要闻

梵高全集(高清350张)震撼……

耳石症分类型,症状大不同

冬天大衣怎么穿才更好看?选好颜色、找对单品,高级简约又大气

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版