网易首页 > 网易号 > 正文 申请入驻

从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述

0
分享至



本文第一作者为新加坡国立大学博士生 张桂彬、牛津大学研究员 耿鹤嘉、帝国理工学院博士生 于晓航;通讯作者为上海人工智能实验室青年领军科学家 白磊 和 牛津大学博士后 / 上海人工智能实验室星启研究员 尹榛菲

过去几年,大语言模型(LLM)的训练大多依赖于基于人类或数据偏好的强化学习(Preference-based Reinforcement Fine-tuning, PBRFT):输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明显:缺乏长期规划、环境交互与持续学习能力

为了突破这样的瓶颈,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式获得空前热度以后,一种新的训练范式 ——Agentic Reinforcement Learning(Agentic RL),愈发到社区关注。它试图让 LLM 从「被动对齐」进化为「主动决策」的智能体,在动态环境中规划、行动、学习。



  • 论文标题:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
  • arXiv 地址:https://arxiv.org/pdf/2509.02547
  • GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

为了捋清这一新兴领域,一篇长达 100 页、由牛津大学、新加坡国立大学、伊利诺伊大学厄巴纳-香槟分校,伦敦大学学院、帝国理工学院、上海人工智能实验室等 16 家海内外顶级研究机构联合完成的最新综述论文,全面系统地梳理了作用于 LLM 的 Agentic RL 这一方向,覆盖 500 + 相关研究,构建了 Agentic RL 的理论框架、演化脉络与资源版图,并讨论了可信性、扩展性和复杂环境等未来挑战。



范式迁移:从 PBRFT 到 Agentic RL



从 LLM-RL 到 Agentic RL 范式迁移概览

该综述首先给出范式迁移的形式化定义:早期 RL 研究多基于 PBRFT 范式,可被视为退化的单步 MDP(单 prompt、一次性文本输出、立即终止),而 Agentic RL 则将 LLM 置于部分可观测马尔可夫决策过程(POMDP)下进行多步交互:





一句话:PBRFT 让模型更会一次地说,Agentic RL 让模型更会长程地做



强化学习优化算法层面,当前实践形成了一条从通用策略梯度到偏好优化的谱系,Table 2 汇总比较了三类算法家族及其代表方法,便于读者快速对照「训练用什么算法」与「对齐目标/信号形态」 的对应关系。



六大核心能力:智能体的「内功」

要让 LLM 真正成为智能体,仅有动作空间还不够,它必须发展出一套完整的能力体系。该综述将其总结为六大核心模块,并对每个模块提出了前瞻性讨论:

1.规划(Planning):为复杂任务设定子目标与多步行动序列。通过外部引导(外部打分生成奖励)或内部驱动(自主规划并修正)实现。

2.工具使用(Tool Use):调用外部工具完成任务。从 ReAct 等静态提示模仿演进到 Tool-integrated RL (TIR),让智能体学会自主选择组合工具。



Agentic Tool Using 演化路径

3.记忆(Memory):保持上下文连贯并积累知识,包括基于外部数据库检索记忆、Token 级别记忆和结构化记忆。其中,值得关注的工作包括来自字节跳动的 MemAgent 和麻省理工大学的 MEM1,他们都通过强化学习让 LLM Agent 拥有自行管理记忆窗口的能力。



4.自我改进(Self-Improvement)同样是目前 Agent 最热门的发展方向。该综述高屋建瓴地将目前 Agent 自我提升的能力划分为以下三类:

  1. 基于语言强化学习,即类似于 Reflexion、Self-Critic 等风格的自我纠正;
  2. 通过强化学习训练内化自提升能力,譬如来自 MIT-IBM Watson AI Lab 的 Satori 便通过强化学习内化 Agent 在测试阶段自我纠正的能力;类似的工作还有来自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;
  3. 通过迭代自训练,譬如来自清华的 Absolute Zero、来自斯坦福的 Sirius 等等。

5.推理(Reasoning):解决复杂问题的推导能力,分为快速直觉推理(凭经验直觉迅速答题)和慢速缜密推理(多步演绎得出严谨结论)。

6.感知(Perception):理解多模态输入的信息获取能力。模型从被动识别走向主动感知,可通过定位驱动(将推理锚定具体对象)、工具驱动(借助外部工具辅助)和生成驱动(生成图像草图辅助推理)等方式提升感知效果。



智能体与环境交互闭环示意

借助强化学习,这些能力由人工启发式转变为可学习的策略,规划不再依赖硬编码流程、工具使用也可由模型自主决定、端到端训练。



Agentic RL 6 大核心能力板块

任务落地与演化路径



不同任务领域的 Agent RL 进化树

Agentic RL 也在横向拓展应用边界,涌现出多种智能体雏形:

  • 搜索与研究:优化多轮检索与证据整合策略,学会何时继续搜索、何时下结论;



  • 代码:将编译错误与单元测试结果用作奖励,推动智能体能力从一次性代码生成进化到自动调试以及自动化软件工程流程;



  • 数学:在非形式化 (informal) 推理中,利用正确率或中间过程奖励来塑造推理轨迹;在形式化 (formal) 推理中,交互式定理证明器 (ITPs) 提供可验证的二值信号,使智能体能在严格规则下探索证明路径;



  • 图形界面 (GUI):在网页和桌面环境中让智能体学习点击、输入、导航等操作,从静态脚本模仿走向交互式操作,提升对真实应用的适配性;



  • 视觉与具身:融合视觉感知与决策规划,实现「看-思-做」的连续决策闭环,增强智能体在多模态问答、导航与机器人操作等任务中的表现;
  • 多智能体系统:通过奖励设计促使多个模型在竞争或合作中逐渐涌现沟通与分工能力。



  • 其他探索:RL 也被应用于数据分析、科学发现等场景,显示出 Agentic RL 在更多任务中的潜在适应性。

总体来看,Agentic RL 已在多个场景初步落地,并正从单一任务逐渐迈向更复杂、更贴近现实的任务生态。

环境与框架

Agentic RL 的发展离不开可复用的实验环境与工具链。现有工作已涵盖网页、GUI、代码、游戏等多种开源平台,并配套了相应的评测基准与框架,为研究者提供了开展实验和对比的基础设施。





此外,这份综述还整合了 500+ 篇相关研究,并在 GitHub 上开源了 Awesome-AgenticLLM-RL-Papers,将论文、环境、基准与框架一站式汇总,为后续研究提供了全景式的参考地图。

挑战与前瞻

尽管 Agentic RL 已展现出广阔潜力,但要真正走向稳健和实用,还存在若干核心挑战:

  • 可信性与安全性:相比传统 LLM,Agentic RL 智能体集成了规划、工具调用和记忆等能力,攻击面显著扩大;同时,RL 的奖励驱动机制也可能导致 reward hacking,使不安全行为被强化,带来更持久的风险。
  • Scale Up 智能体训练:大规模 Agentic RL 训练面临算力、数据和算法效率的瓶颈。当前 RL 方法成本高昂,难以在长时程决策或复杂环境中稳定扩展,需要发展更高效的优化范式。
  • Scale Up 智能体环境:现有的交互环境难以覆盖真实世界的复杂性。未来应探索环境与智能体的「协同进化」,例如通过自动化奖励设计、课程生成和环境自适应优化,让环境在训练中发挥「主动教学」的作用,而不仅仅作为静态测试平台。

这些挑战构成了 Agentic RL 进一步发展的关键门槛,也为未来研究提供了明确方向。

结语

这篇综述系统化梳理了 Agentic RL 的理论框架、能力维度、任务应用与资源生态,确立了其作为 LLM 演进的重要训练范式。

综述强调:单步对齐已难以支撑复杂任务,LLM 训练范式由此进入 Agentic RL 的下半场,而强化学习是将规划、工具使用、记忆、推理等核心能力从启发式功能转化为稳健智能行为的关键机制。

未来,随着可信性、可扩展性和复杂环境等挑战的逐步突破,LLM 将有望真正从 「会说」迈向「会做」,成长为更通用、更自主的智能体。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

保姆想让雇主嫁给儿子这是啥心理?网友:这算盘打得好 想身份互换

另子维爱读史
2026-01-30 18:18:16
两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

两被击毙港人去乌做雇佣兵原因曝光,接受军事训练以在香港使用

侠客栈
2026-02-01 13:50:37
145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

书纪文谭
2026-02-01 18:43:11
马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

马斯克证实,对俄罗斯使用星链的限制取得成效,将进一步提供支持

山河路口
2026-02-01 18:31:19
中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

中超“恒大系”复燃?曝郑智刚上任,就招募多名前恒大队友加盟!

罗掌柜体育
2026-02-01 10:52:47
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
谷歌Chrome觉醒!Gemini 3全面接管,38亿用户一夜进入Agent时代

谷歌Chrome觉醒!Gemini 3全面接管,38亿用户一夜进入Agent时代

新智元
2026-02-01 09:03:04
台湾GDP靓眼   跃居亚洲第三

台湾GDP靓眼 跃居亚洲第三

跟着老李看世界
2026-02-01 11:44:55
曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

曼联3-2富勒姆!被连追2球+新援替补压哨绝杀 卡里克上任后3连胜

我爱英超
2026-02-02 00:05:34
2月1日俄乌:马斯克终于出手了

2月1日俄乌:马斯克终于出手了

山河路口
2026-02-01 18:23:05
员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

员工刘某一个月内11次长时间滞留卫生间,单日最长达6小时21分钟,被公司解雇,法院:超出合理生理需求,属变相旷工,被解雇合法

极目新闻
2026-02-01 09:11:11
金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

金价暴跌后实探北京金店:有消费者拖行李箱“抄底”,回收变现需排队3个半小时

红星新闻
2026-02-01 17:17:29
跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

跌成白菜价,电视却卖不动了!14亿人干不过3亿美国人,太扎心

阿器谈史
2026-01-31 23:19:36
细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

细节令人发指!爱泼斯坦在厨房追逐女孩,安德鲁跪伏在女性身上,马斯克问“最疯狂的派对”……

新民周刊
2026-02-01 15:53:41
突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

突发史诗级暴跌!工行、农行、中行、建行、交行等五大行,紧急出手!

中国基金报
2026-02-01 15:36:35
2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

2-2!哈兰德7轮1球,曼城痛失好局,热刺让二追二,阿森纳收大礼

我的护球最独特
2026-02-02 02:31:40
1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

1岁幼童喂兔子被咬断手指,家长为找断指将兔子开膛破肚……医生提醒→

纵相新闻
2026-02-01 15:09:04
高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

高一女生被人造黄谣,妈妈24小时硬核维权:你的清白,无需自证

右右细毛和爸妈
2026-01-31 21:17:02
就剩日本了

就剩日本了

新民周刊
2026-02-01 09:09:29
“多杀多”引发惨剧 华尔街基金经理讲述黄金白银史诗级大跌日经历

“多杀多”引发惨剧 华尔街基金经理讲述黄金白银史诗级大跌日经历

经济观察报
2026-02-01 15:22:06
2026-02-02 04:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142562关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

手机
游戏
亲子
家居
公开课

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

末期癌症玩家圆梦《毁灭战士》!id公开致敬

亲子要闻

兰姐带玥儿看北京新学校,玥儿一待俩小时,筱梅的话终于有人信了

家居要闻

蓝调空舍 自由与个性

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版