网易首页 > 网易号 > 正文 申请入驻

大模型的智能体转向:Agentic 强化学习全景综述

0
分享至


投稿作者:黎羿江(UC San Diego 二年级博士生)

过去两年,生成式人工智能(AI)的浪潮席卷全球。从 ChatGPT 到 Claude,再到国内的 GLM、通义千问、文心等,大语言模型(LLM)已成为推动 AI 发展的核心引擎。

它们能写论文、写代码、生成故事,甚至参与科研。但与此同时,研究者逐渐发现了一个根本性问题:

这些模型虽然能生成高质量语言,却并不具备真实的行动能力。当模型面对需要计划、工具使用或环境交互的任务时,它们往往显得无能为力。

如何让语言模型不只是“回答问题”,而是能够“自主执行任务”?这是当前人工智能研究中最具挑战性的问题之一。

近期,由来自 Oxford、UCSD、NUS、ICL、UIUC、UCL、上海人工智能实验室等十六家顶尖机构的学者联合完成的一篇综述论文给出了系统性的答案。


论文链接:https://arxiv.org/abs/2509.02547

开源项目:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

这篇长达百页的综述整合了超过 500 篇相关研究,首次对 Agentic Reinforcement Learning(具身智能体强化学习)的概念、框架和应用进行了系统梳理。

从被动响应到主动决策:Agentic RL 的核心思想

在传统的强化学习(RLHF、DPO 等)中,语言模型被设计为“单步响应系统”。它接收输入,生成输出,并根据人类反馈或偏好调整参数。这种范式的代表就是 ChatGPT 的训练方式。

然而,这一机制只适用于单轮优化,无法处理需要长期规划和环境交互的任务。

Agentic RL 则提供了一种全新的视角。该框架将大语言模型视为嵌入在动态环境中的智能体(Agent),通过强化学习机制,让模型具备持续感知、连续决策、工具使用与自我优化的能力。

研究者将这一过程形式化为部分可观测马尔可夫决策过程(POMDP):模型可以在不完全了解环境的情况下,基于当前信息进行决策、执行行动,并通过反馈信号持续更新策略。

换言之,Agentic RL 的目标不是让模型“生成更好的答案”,而是让它“学习如何行动以实现目标”



六大关键能力:从语言到智能的跃迁

论文中提出,真正的智能体必须具备六项核心能力,这也是 Agentic RL 的构成基础。


规划(Planning)

模型能够拆解复杂任务,制定多步行动计划,并根据反馈动态调整路径。 例如,科研助理可以自动规划文献检索、数据分析和论文撰写步骤。

工具使用(Tool Use)

传统方法依赖人工提示调用外部工具,而通过 RL,模型可以自主判断何时调用搜索引擎、代码执行器或数据库查询接口。

记忆(Memory)

Agentic RL 让模型在长期交互中保留关键信息,并学会“什么值得记住”。 这类记忆机制不仅包括显式文本记忆,还包括隐式向量表征与语义检索。

推理(Reasoning)

模型可以根据任务需求在“快速直觉推理”与“深度链式推理”之间切换。 强化学习通过奖励信号引导模型生成更稳定、更具逻辑一致性的推理路径。

自我改进(Self-Improvement)

智能体能够通过经验积累进行反思、自我修正,形成闭环学习机制。 例如,通过对错误输出的反思训练(Reflexion),模型的长期性能显著提升。

感知(Perception)

语言模型不再局限于文本输入,而是能够理解图像、音频、视频等多模态信息,并与外部世界建立联系。

这六个能力的结合,使得 LLM 从“被动语言生成器”迈向“主动学习与行动的认知系统”。

七类核心任务:Agentic RL 的应用版图

除了理论框架,论文还总结了 Agentic RL 在实践中的七大主要任务场景。


  • 信息检索与研究智能体:自动检索、阅读和整合信息,用于学术或新闻研究。

  • 代码智能体:实现自动代码生成、调试与测试(如 SWE-Bench、AgentCoder)。

  • 数学与逻辑推理:解决复杂的计算、证明和公式生成问题。

  • GUI 操作智能体:在图形界面中执行操作,实现人机交互任务。

  • 视觉与多模态智能体:将图像感知与语言推理结合,支持跨模态任务。

  • 具身智能体(Embodied Agents):在虚拟或物理环境中完成多步任务。

  • 多智能体系统(Multi-Agent Systems):多个模型协同完成复杂目标,如自动科研或群体协作任务。

这些任务展示了一个清晰的趋势: Agentic RL 正在推动语言模型从“文字世界”走向“行动世界”, 让 AI 真正具备与现实环境交互的能力。

生态构建:开放环境与基础框架

论文还系统地整理了 Agentic RL 研究所依赖的开放环境、评测基准和训练框架

  • 环境(Environments)如 AlfWorld、GAIA、BrowseComp、SWE-Bench 等,支持多模态和多任务训练。

  • 评测基准(Benchmarks):覆盖搜索、推理、工具使用、交互操作等任务维度。

  • 训练框架(RL Frameworks):包括 PPO、DPO、GRPO 等多种强化学习算法及其改进版本。

作者团队还开源了一个综合资源清单:Awesome-AgenticLLM-RL-Papers,其中汇总了论文、环境、基准测试与开源实现, 为研究人员提供了从理论到实验的系统参考。

未来挑战与研究方向

尽管 Agentic RL 展现出巨大潜力,但仍面临若干挑战。

  • 可信性(Trustworthiness):如何保证智能体在复杂环境下的行为安全、可解释、可控?

  • 训练扩展性(Training Scalability):长期交互任务往往需要大量计算资源,如何在效率与性能间取得平衡?

  • 环境扩展性(Environment Scalability):当前的仿真环境仍然有限,如何构建更贴近真实世界的交互空间?

此外,智能体的伦理、安全与社会影响也成为研究的重要议题。Agentic RL 的发展不仅是算法创新,更是人类如何与智能系统共生的探索过程。

迈向智能体时代

Agentic RL 标志着语言模型研究从“生成”迈向“行动”的重大转折。它让模型不再依赖预设脚本,而是在环境中自主探索、持续学习,并根据反馈不断优化。

对于研究者,这一框架提供了新的理论基础与系统视角;对于开发者,它是构建具备决策与操作能力的 AI 系统的关键路径;对于整个 AI 生态而言,它意味着从“语言智能”走向“通用智能”的新阶段。

未来的 AI,不仅能对话、写作,更能观察、思考、执行与反思。Agentic RL 为这种真正意义上的“具身智能”打开了大门。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

一瓶3块,爆卖2亿!喝一口能把人送走的广东神饮,让老表们疯抢了

毒sir财经
2026-03-16 21:37:01
里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

里子面子都丢了,森林北自曝身体出了问题,汪峰的体面被撕碎

素衣读史
2025-11-19 16:09:14
卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

卡塔尔向伊朗交60亿美元保护费?伊朗打击升级:瞄准以色列往死里打

沧海旅行家
2026-03-26 16:37:46
都看出张雪峰不对劲,却没人拦得住,最终还是走了

都看出张雪峰不对劲,却没人拦得住,最终还是走了

笑熬浆糊111
2026-03-25 12:21:46
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值

苏敏旅游6年后简直不敢认,连面相都变了,网友:这16万花得值

小樾说历史
2026-03-25 15:06:05
封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

田先生篮球
2026-03-26 13:33:00
男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

健康科普365
2026-03-16 20:35:03
华为首款旗舰MPV!后轮转向,综合续航1250km+,智界V9一炮而红

华为首款旗舰MPV!后轮转向,综合续航1250km+,智界V9一炮而红

隔壁说车老王
2026-03-26 08:12:16
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

人民日报专访陈梦!不谈金牌退役,句句不提孙颖莎,却字字藏着她

林雁飞
2026-03-25 16:09:46
几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

几十个家庭垄断一座城:县城婆罗门的闭环游戏,正在逼走年轻人

黑噪音
2026-03-21 19:33:08
给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

给女儿留过亿财产后,张雪峰身家被扒底朝天,李雪琴的话有人信了

爱下厨的阿酾
2026-03-26 20:14:43
闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

闯祸的最高境界是什么?看网友讲述,这是正常人能做出的事情吗?

侃神评故事
2026-03-21 19:15:03
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

18岁的姚晨在肯德基工作时的一张照片,那时就难掩浑身的好气质

娱你同欢
2026-03-17 16:08:28
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
崩溃,市级城投集团:全员薪资腰斩后还发不出工资!

崩溃,市级城投集团:全员薪资腰斩后还发不出工资!

黯泉
2026-03-25 21:19:18
曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

曝张雪峰遗嘱内容,和原配离婚原因被扒,三段感情时间线全曝光!

古希腊掌管松饼的神
2026-03-26 09:30:58
2026-03-26 23:39:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
房产
本地
旅游
公开课

艺术要闻

哪一座桥不是风景?

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版