网易首页 > 网易号 > 正文 申请入驻

DeepMind再登Nature:AI Agent造出了最强RL算法!

0
分享至

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现

针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法

在大型实验中,DiscoRL 不仅在 Atari 基准测试中超越所有现有规则,更在未曾接触过的挑战性基准测试中超越人工设计,击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊 Nature 上。

论文链接:https://www.nature.com/articles/s41586-025-09761-x

这表明,未来用于构建高级 AI 的 RL 算法,可能不再需要人工设计,而是能够由智能体自身的经验自动发现。

Agent 「凭啥」自主发现 RL 算法?

据论文描述,他们的发现方法涉及两种优化:智能体优化与元优化。

智能体参数通过更新其策略和预测来优化,使其趋向于 RL 规则生成的目标。同时,通过更新 RL 规则的目标来优化其元参数,从而最大化智能体的累积奖励。

图|智能体自主发现 RL 算法的全过程:(a) 发现过程:多个智能体在不同环境中并行交互与训练,遵循由元网络定义的学习规则;元网络在此过程中不断优化,以提升整体表现;(b) 智能体结构:每个智能体输出策略(π)、观测预测(y)、动作预测(z)、动作价值(q)与辅助策略预测(p),其中 y 与 z 的语义由元网络确定;(c) 元网络结构:元网络接收智能体的输出轨迹及环境奖励与终止信号,生成针对当前与未来时刻的目标预测;智能体据此最小化预测误差进行更新;(d) 元优化过程:通过对智能体更新过程的反向传播计算元梯度,优化元参数,以最大化智能体在环境中的累计回报。

在智能体优化方面,研究团队使用 Kullback–Leibler 散度衡量两者之间的差距,以确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果,元网络为其生成相应的学习目标。智能体再根据这些目标更新自身,从而逐步改进策略。同时,模型还引入了一个辅助损失,用于优化预定义的动作价值与策略预测,使学习过程更稳定、更高效。

在元优化方面,研究团队让多个智能体在不同环境中独立学习,元网络则根据它们的整体表现计算元梯度,并调整自身参数。智能体的参数会定期重置,使学习规则能在有限时间内迅速提升表现。元梯度的计算结合了智能体的更新过程与标准强化学习目标的优化,具体由反向传播与优势行动者-评论家(A2C)算法完成,并配合一个专用于元学习阶段的价值函数进行评估。

最强 RL 算法,AI 造

为验证 DiscoRL,团队评估时采用四分位数平均值(IQM)作为综合性能指标,该指标基于多任务基准测试的标准化分数,已被证实具有统计学可靠性。

1.Atari 实验

Atari 基准测试是强化学习领域最具代表性的评估标准之一。为验证算法自动发现的能力,团队基于 57 款 Atari 游戏元训练出 Disco57 规则,并在相同游戏中评估。

评估时使用与 MuZero 相当规模的网络架构,结果显示,Disco57 的 IQM 达到 13.86,在 Atari 基准上超越了包括 MuZero、Dreamer 在内的所有现有强化学习规则,并且在实际运行效率(wall-clock efficiency)上显著优于最先进的 MuZero。

图|Disco57 在 Atari 实验中的评估结果。横轴表示环境交互步数(以百万为单位),纵轴表示在基准测试中 IQM 得分。

2.泛化能力

研究团队进一步评估了 Disco57 的通用性,在多个它从未见过的独立基准测试上进行测试。在 16 个 ProcGen 二维游戏上,Disco57 超越了包括 MuZero 和 PPO 在内的所有已发表方法;在 Crafter 基准测试中也表现出竞争力;在 NetHack NeurIPS 2021 挑战赛中获得第三名,且未使用任何领域特定知识。对比在相同设置下训练的 IMPALA 智能体,Disco57 明显更高效。此外,它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。

图|Disco57 在 ProcGen、Crafter、 NetHack NeurIPS 中的评估结果。

3.环境的复杂性和多样性

研究团队基于 Atari、ProcGen 和 DMLab-30 三个基准,共 103 个环境,发现了另一种 RL 规则 Disco103。

Disco103 在 Atari 基准上的表现与 Disco57 相当,尤其是在 Crafter 基准上达到了人类水平的表现,并在 Sokoban 上接近了 MuZero 的最先进性能。

这些结果表明:用于发现的环境越复杂、越多样,所发现的强化学习规则就越强大、越具泛化能力,即使是在训练过程中从未见过的环境中也能保持出色表现。

图|Disco103 与 Disco57 在相同测试中的对比结果。蓝线(Disco57)表示在 Atari 基准上发现的规则,橙线(Disco103)表示在 Atari、ProcGen 和 DMLab-30 基准上共同发现的规则。

4.高效率和稳定性

研究团队对多个 Disco57 的版本进行了评估。最优表现是在每个 Atari 游戏约 6 亿步内被发现,相当于在 57 个 Atari 游戏上进行 3 轮实验,这相比传统的人工设计 RL 规则要高效得多——后者往往需要更多实验次数,以及大量研究人员的时间投入。

此外,随着用于实验的 Atari 游戏数量增加,DiscoRL 在未见过的 ProcGen 基准上的表现也随之提升,这表明所发现的 RL 规则能够随着参与实验的环境数量与多样性的增加而得到扩展。换句话说,所发现 RL 的性能取决于数据(即环境)与计算量。

图|DiscoRL 最佳规则在每款游戏约6亿步内被发现;随着用于发现的训练环境数量的增加,DiscoRL 在未见过的 ProcGen 基准测试上的性能也变得更强。

研究团队表示,未来高级 AI 的 RL 算法设计,可能将由能高效扩展数据与计算能力的机器主导,不再需要人类设计

这一发现或许令人振奋但又引发担忧,一方面它带来了学术领域的新潜力,另一方面,当前社会并未做好迎接这项技术的准备。

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
中药“销冠”,卖了392亿

中药“销冠”,卖了392亿

药智网网易号
2026-05-11 10:14:14
单场狂轰!恩比德啊!历史第一!最大黑马来了?

单场狂轰!恩比德啊!历史第一!最大黑马来了?

篮球盛世
2026-05-11 20:33:40
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
营收翻倍却巨亏18亿元!南京老牌房企深陷危机

营收翻倍却巨亏18亿元!南京老牌房企深陷危机

中国房地产报官方号
2026-05-11 15:41:51
他是许世友将军之子,曾任安徽、江苏军区司令员,今年已经74岁了

他是许世友将军之子,曾任安徽、江苏军区司令员,今年已经74岁了

浩渺青史
2026-05-11 17:40:53
账号被封依旧潇洒,白冰开百万豪车自驾青海

账号被封依旧潇洒,白冰开百万豪车自驾青海

手工制作阿歼
2026-05-11 17:15:32
WNBA:韩旭4+5拼到6犯毕业 自由人加时险胜神秘人获2连胜

WNBA:韩旭4+5拼到6犯毕业 自由人加时险胜神秘人获2连胜

醉卧浮生
2026-05-11 05:50:15
未来3年贵人追着送钱的生肖:存款滚雪球,一年更比一年好!

未来3年贵人追着送钱的生肖:存款滚雪球,一年更比一年好!

毅谈生肖
2026-05-11 11:10:19
梁靖崑为何能逆转张本智和?张继科点评一针见血,日乒一哥成笑柄

梁靖崑为何能逆转张本智和?张继科点评一针见血,日乒一哥成笑柄

体育大学僧
2026-05-11 09:10:31
旅游不想去第二次的十个城市

旅游不想去第二次的十个城市

电工知库
2026-05-05 06:46:16
全网确诊前额叶损伤 AI正在批量生产“空心人”

全网确诊前额叶损伤 AI正在批量生产“空心人”

经济观察报
2026-05-11 13:36:09
老将合约到期外援全部崩盘?山东男篮重建,邱彪迎大考

老将合约到期外援全部崩盘?山东男篮重建,邱彪迎大考

kio鱼
2026-05-11 20:46:48
美国突然扩大制裁:多家涉华企业被指协助伊朗造无人机和导弹

美国突然扩大制裁:多家涉华企业被指协助伊朗造无人机和导弹

桂系007
2026-05-10 15:01:04
郑州房价10000元保卫战!

郑州房价10000元保卫战!

东哥探盘
2026-05-11 14:08:57
男乒超越樊振东时代,最大赢家不是王楚钦,林诗栋很危险

男乒超越樊振东时代,最大赢家不是王楚钦,林诗栋很危险

铿锵格斗
2026-05-11 16:51:39
210国道秦岭分水岭摩托车逆行肇事,致一人亡一人受伤;逆行骑手出事前曾做手势打招呼

210国道秦岭分水岭摩托车逆行肇事,致一人亡一人受伤;逆行骑手出事前曾做手势打招呼

大风新闻
2026-05-11 11:33:03
赵祥松|那位替俄罗斯洗地的杜某,到底是个什么货色?

赵祥松|那位替俄罗斯洗地的杜某,到底是个什么货色?

祥松谈
2026-05-09 19:05:44
男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

男子16岁时便出轨嫂子,婚后瞒着妻子继续出轨,还与嫂子生下一子

老猫观点
2026-05-07 07:12:10
印度总理:恢复居家办公,一年内不买黄金

印度总理:恢复居家办公,一年内不买黄金

鲁中晨报
2026-05-11 18:06:07
2026-05-11 21:23:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

外交部介绍特朗普访华具体安排和中方期待

头条要闻

外交部介绍特朗普访华具体安排和中方期待

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

教育
时尚
健康
本地
军事航空

教育要闻

高考志愿填报,选院校比选专业更重要!

夏天来了!还是这些穿搭最适合普通人照搬,简单舒适又日常

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版