网易首页 > 网易号 > 正文 申请入驻

DeepMind再登Nature:AI Agent造出了最强RL算法!

0
分享至


人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现

针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法

在大型实验中,DiscoRL 不仅在 Atari 基准测试中超越所有现有规则,更在未曾接触过的挑战性基准测试中超越人工设计,击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊 Nature 上。


论文链接:https://www.nature.com/articles/s41586-025-09761-x

这表明,未来用于构建高级 AI 的 RL 算法,可能不再需要人工设计,而是能够由智能体自身的经验自动发现。

Agent 「凭啥」自主发现 RL 算法?

据论文描述,他们的发现方法涉及两种优化:智能体优化与元优化。

智能体参数通过更新其策略和预测来优化,使其趋向于 RL 规则生成的目标。同时,通过更新 RL 规则的目标来优化其元参数,从而最大化智能体的累积奖励。


图|智能体自主发现 RL 算法的全过程:(a) 发现过程:多个智能体在不同环境中并行交互与训练,遵循由元网络定义的学习规则;元网络在此过程中不断优化,以提升整体表现;(b) 智能体结构:每个智能体输出策略(π)、观测预测(y)、动作预测(z)、动作价值(q)与辅助策略预测(p),其中 y 与 z 的语义由元网络确定;(c) 元网络结构:元网络接收智能体的输出轨迹及环境奖励与终止信号,生成针对当前与未来时刻的目标预测;智能体据此最小化预测误差进行更新;(d) 元优化过程:通过对智能体更新过程的反向传播计算元梯度,优化元参数,以最大化智能体在环境中的累计回报。

在智能体优化方面,研究团队使用 Kullback–Leibler 散度衡量两者之间的差距,以确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果,元网络为其生成相应的学习目标。智能体再根据这些目标更新自身,从而逐步改进策略。同时,模型还引入了一个辅助损失,用于优化预定义的动作价值与策略预测,使学习过程更稳定、更高效。

在元优化方面,研究团队让多个智能体在不同环境中独立学习,元网络则根据它们的整体表现计算元梯度,并调整自身参数。智能体的参数会定期重置,使学习规则能在有限时间内迅速提升表现。元梯度的计算结合了智能体的更新过程与标准强化学习目标的优化,具体由反向传播与优势行动者-评论家(A2C)算法完成,并配合一个专用于元学习阶段的价值函数进行评估。

最强 RL 算法,AI 造

为验证 DiscoRL,团队评估时采用四分位数平均值(IQM)作为综合性能指标,该指标基于多任务基准测试的标准化分数,已被证实具有统计学可靠性。

1.Atari 实验

Atari 基准测试是强化学习领域最具代表性的评估标准之一。为验证算法自动发现的能力,团队基于 57 款 Atari 游戏元训练出 Disco57 规则,并在相同游戏中评估。

评估时使用与 MuZero 相当规模的网络架构,结果显示,Disco57 的 IQM 达到 13.86,在 Atari 基准上超越了包括 MuZero、Dreamer 在内的所有现有强化学习规则,并且在实际运行效率(wall-clock efficiency)上显著优于最先进的 MuZero。


图|Disco57 在 Atari 实验中的评估结果。横轴表示环境交互步数(以百万为单位),纵轴表示在基准测试中 IQM 得分。

2.泛化能力

研究团队进一步评估了 Disco57 的通用性,在多个它从未见过的独立基准测试上进行测试。在 16 个 ProcGen 二维游戏上,Disco57 超越了包括 MuZero 和 PPO 在内的所有已发表方法;在 Crafter 基准测试中也表现出竞争力;在 NetHack NeurIPS 2021 挑战赛中获得第三名,且未使用任何领域特定知识。对比在相同设置下训练的 IMPALA 智能体,Disco57 明显更高效。此外,它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。


图|Disco57 在 ProcGen、Crafter、 NetHack NeurIPS 中的评估结果。

3.环境的复杂性和多样性

研究团队基于 Atari、ProcGen 和 DMLab-30 三个基准,共 103 个环境,发现了另一种 RL 规则 Disco103。

Disco103 在 Atari 基准上的表现与 Disco57 相当,尤其是在 Crafter 基准上达到了人类水平的表现,并在 Sokoban 上接近了 MuZero 的最先进性能。

这些结果表明:用于发现的环境越复杂、越多样,所发现的强化学习规则就越强大、越具泛化能力,即使是在训练过程中从未见过的环境中也能保持出色表现。


图|Disco103 与 Disco57 在相同测试中的对比结果。蓝线(Disco57)表示在 Atari 基准上发现的规则,橙线(Disco103)表示在 Atari、ProcGen 和 DMLab-30 基准上共同发现的规则。

4.高效率和稳定性

研究团队对多个 Disco57 的版本进行了评估。最优表现是在每个 Atari 游戏约 6 亿步内被发现,相当于在 57 个 Atari 游戏上进行 3 轮实验,这相比传统的人工设计 RL 规则要高效得多——后者往往需要更多实验次数,以及大量研究人员的时间投入。

此外,随着用于实验的 Atari 游戏数量增加,DiscoRL 在未见过的 ProcGen 基准上的表现也随之提升,这表明所发现的 RL 规则能够随着参与实验的环境数量与多样性的增加而得到扩展。换句话说,所发现 RL 的性能取决于数据(即环境)与计算量。


图|DiscoRL 最佳规则在每款游戏约6亿步内被发现;随着用于发现的训练环境数量的增加,DiscoRL 在未见过的 ProcGen 基准测试上的性能也变得更强。

研究团队表示,未来高级 AI 的 RL 算法设计,可能将由能高效扩展数据与计算能力的机器主导,不再需要人类设计

这一发现或许令人振奋但又引发担忧,一方面它带来了学术领域的新潜力,另一方面,当前社会并未做好迎接这项技术的准备。

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柏拉图为什么伟大?因他在2400年前,就回答了今天的所有人生困惑

柏拉图为什么伟大?因他在2400年前,就回答了今天的所有人生困惑

诗意世界
2025-09-18 11:39:14
刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

刘强东,能不能给“奶茶妹”买好点的Bra,衣服总感觉穿不合身

娱乐故事
2025-10-30 14:00:25
骑虎难下的俄罗斯,只能硬扛吗?

骑虎难下的俄罗斯,只能硬扛吗?

凭阑听史
2025-11-01 17:27:24
黄之峰或将牢底坐穿,沈伯洋的结局,可能比他还惨。

黄之峰或将牢底坐穿,沈伯洋的结局,可能比他还惨。

优趣纪史记
2025-11-01 22:23:46
死者家属曝光石缝裸尸案可怕细节!凶手将人杀害后,还假扮热心人

死者家属曝光石缝裸尸案可怕细节!凶手将人杀害后,还假扮热心人

谈史论天地
2025-11-02 06:16:59
接上级任务,阻击敌人15小时,这位大哥却差点把敌人打没了!

接上级任务,阻击敌人15小时,这位大哥却差点把敌人打没了!

南书房
2025-11-02 10:00:10
中国新型轰炸机即将首飞?俄媒解析:这是一款美俄都没有的最尖端隐形战机

中国新型轰炸机即将首飞?俄媒解析:这是一款美俄都没有的最尖端隐形战机

Ck的蜜糖
2025-11-02 11:16:40
公安军司令员是开国大将,为何第一副司令员是中将,第二却是上将

公安军司令员是开国大将,为何第一副司令员是中将,第二却是上将

旧书卷里的长安
2025-10-31 22:09:29
武大杨某媛又开始骂街了:再欺负我,就不让肖某好过

武大杨某媛又开始骂街了:再欺负我,就不让肖某好过

吃瓜局
2025-11-01 23:04:23
中国南海战略大变化!不再填海建岛,却用钢铁浮桥将菲律宾逼入绝境

中国南海战略大变化!不再填海建岛,却用钢铁浮桥将菲律宾逼入绝境

林子说事
2025-11-01 02:46:24
反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

反人类设计!东莞一公园长石凳上安装金属扶手,为驱赶流浪汉躺卧

火山诗话
2025-11-02 10:11:42
中国芯片专家在米兰被捕后续,中方出手了,仅用一招让美吃哑巴亏

中国芯片专家在米兰被捕后续,中方出手了,仅用一招让美吃哑巴亏

二大爷观世界
2025-07-24 16:40:04
诬陷女老师“媚男”的女大学生,朋友圈被扒了!

诬陷女老师“媚男”的女大学生,朋友圈被扒了!

麦杰逊
2025-10-31 12:32:43
福建富豪陈志,满手沾满中国人血泪

福建富豪陈志,满手沾满中国人血泪

城市局
2025-10-16 22:58:41
1966年,毛主席神秘隐匿11天,刘少奇只知是湖南,周总理知道实情

1966年,毛主席神秘隐匿11天,刘少奇只知是湖南,周总理知道实情

大运河时空
2025-11-01 20:00:03
中国隐忍20年后,仅用了9天时间,打赢了一场没有硝烟的战争

中国隐忍20年后,仅用了9天时间,打赢了一场没有硝烟的战争

奇葩游戏酱
2025-11-02 16:26:44
莫言:所有人都在演戏混饭吃!不要高估他人,也不要低估自己

莫言:所有人都在演戏混饭吃!不要高估他人,也不要低估自己

杏花烟雨江南的碧园
2025-10-18 15:00:03
为什么宇宙飞船返回地球时,会被高温炙烤,飞出地球时却没有?

为什么宇宙飞船返回地球时,会被高温炙烤,飞出地球时却没有?

半解智士
2025-11-01 18:47:03
多人在水库岸边一边放《大悲咒》一边放生猫,目击者称多只猫入水后溺亡

多人在水库岸边一边放《大悲咒》一边放生猫,目击者称多只猫入水后溺亡

观威海
2025-11-02 17:35:05
“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

“苏超”冠军的牌面,泰州市委书记和市长更衣室祝贺泰州夺冠

懂球帝
2025-11-02 14:13:07
2025-11-02 20:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1408文章数 5081关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

头条要闻

19岁男生被邻居驾车故意撞死 事发时再过几天就要高考

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

本地
亲子
旅游
公开课
军事航空

本地新闻

全网围观,到底多少人被这个野人大学生笑疯了

亲子要闻

推荐山药蒸肉丸,适合孩子吃的长高菜!

旅游要闻

可爱的乡村——房前村后尽青山

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版