网易首页 > 网易号 > 正文 申请入驻

DeepMind再登Nature:AI Agent造出了最强RL算法!

0
分享至


人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现

针对这一痛点,Google DeepMind 团队提出了一种通过多代智能体在不同环境中的交互经验来自主发现 RL 规则的方法

在大型实验中,DiscoRL 不仅在 Atari 基准测试中超越所有现有规则,更在未曾接触过的挑战性基准测试中超越人工设计,击败了多项主流 RL 算法。相关研究论文已发表在权威科学期刊 Nature 上。


论文链接:https://www.nature.com/articles/s41586-025-09761-x

这表明,未来用于构建高级 AI 的 RL 算法,可能不再需要人工设计,而是能够由智能体自身的经验自动发现。

Agent 「凭啥」自主发现 RL 算法?

据论文描述,他们的发现方法涉及两种优化:智能体优化与元优化。

智能体参数通过更新其策略和预测来优化,使其趋向于 RL 规则生成的目标。同时,通过更新 RL 规则的目标来优化其元参数,从而最大化智能体的累积奖励。


图|智能体自主发现 RL 算法的全过程:(a) 发现过程:多个智能体在不同环境中并行交互与训练,遵循由元网络定义的学习规则;元网络在此过程中不断优化,以提升整体表现;(b) 智能体结构:每个智能体输出策略(π)、观测预测(y)、动作预测(z)、动作价值(q)与辅助策略预测(p),其中 y 与 z 的语义由元网络确定;(c) 元网络结构:元网络接收智能体的输出轨迹及环境奖励与终止信号,生成针对当前与未来时刻的目标预测;智能体据此最小化预测误差进行更新;(d) 元优化过程:通过对智能体更新过程的反向传播计算元梯度,优化元参数,以最大化智能体在环境中的累计回报。

在智能体优化方面,研究团队使用 Kullback–Leibler 散度衡量两者之间的差距,以确保训练过程的稳定性与普适性。智能体会输出策略、观测预测和动作预测三类结果,元网络为其生成相应的学习目标。智能体再根据这些目标更新自身,从而逐步改进策略。同时,模型还引入了一个辅助损失,用于优化预定义的动作价值与策略预测,使学习过程更稳定、更高效。

在元优化方面,研究团队让多个智能体在不同环境中独立学习,元网络则根据它们的整体表现计算元梯度,并调整自身参数。智能体的参数会定期重置,使学习规则能在有限时间内迅速提升表现。元梯度的计算结合了智能体的更新过程与标准强化学习目标的优化,具体由反向传播与优势行动者-评论家(A2C)算法完成,并配合一个专用于元学习阶段的价值函数进行评估。

最强 RL 算法,AI 造

为验证 DiscoRL,团队评估时采用四分位数平均值(IQM)作为综合性能指标,该指标基于多任务基准测试的标准化分数,已被证实具有统计学可靠性。

1.Atari 实验

Atari 基准测试是强化学习领域最具代表性的评估标准之一。为验证算法自动发现的能力,团队基于 57 款 Atari 游戏元训练出 Disco57 规则,并在相同游戏中评估。

评估时使用与 MuZero 相当规模的网络架构,结果显示,Disco57 的 IQM 达到 13.86,在 Atari 基准上超越了包括 MuZero、Dreamer 在内的所有现有强化学习规则,并且在实际运行效率(wall-clock efficiency)上显著优于最先进的 MuZero。


图|Disco57 在 Atari 实验中的评估结果。横轴表示环境交互步数(以百万为单位),纵轴表示在基准测试中 IQM 得分。

2.泛化能力

研究团队进一步评估了 Disco57 的通用性,在多个它从未见过的独立基准测试上进行测试。在 16 个 ProcGen 二维游戏上,Disco57 超越了包括 MuZero 和 PPO 在内的所有已发表方法;在 Crafter 基准测试中也表现出竞争力;在 NetHack NeurIPS 2021 挑战赛中获得第三名,且未使用任何领域特定知识。对比在相同设置下训练的 IMPALA 智能体,Disco57 明显更高效。此外,它在网络规模、重放比例和超参数调整等多种设置下也表现鲁棒。


图|Disco57 在 ProcGen、Crafter、 NetHack NeurIPS 中的评估结果。

3.环境的复杂性和多样性

研究团队基于 Atari、ProcGen 和 DMLab-30 三个基准,共 103 个环境,发现了另一种 RL 规则 Disco103。

Disco103 在 Atari 基准上的表现与 Disco57 相当,尤其是在 Crafter 基准上达到了人类水平的表现,并在 Sokoban 上接近了 MuZero 的最先进性能。

这些结果表明:用于发现的环境越复杂、越多样,所发现的强化学习规则就越强大、越具泛化能力,即使是在训练过程中从未见过的环境中也能保持出色表现。


图|Disco103 与 Disco57 在相同测试中的对比结果。蓝线(Disco57)表示在 Atari 基准上发现的规则,橙线(Disco103)表示在 Atari、ProcGen 和 DMLab-30 基准上共同发现的规则。

4.高效率和稳定性

研究团队对多个 Disco57 的版本进行了评估。最优表现是在每个 Atari 游戏约 6 亿步内被发现,相当于在 57 个 Atari 游戏上进行 3 轮实验,这相比传统的人工设计 RL 规则要高效得多——后者往往需要更多实验次数,以及大量研究人员的时间投入。

此外,随着用于实验的 Atari 游戏数量增加,DiscoRL 在未见过的 ProcGen 基准上的表现也随之提升,这表明所发现的 RL 规则能够随着参与实验的环境数量与多样性的增加而得到扩展。换句话说,所发现 RL 的性能取决于数据(即环境)与计算量。


图|DiscoRL 最佳规则在每款游戏约6亿步内被发现;随着用于发现的训练环境数量的增加,DiscoRL 在未见过的 ProcGen 基准测试上的性能也变得更强。

研究团队表示,未来高级 AI 的 RL 算法设计,可能将由能高效扩展数据与计算能力的机器主导,不再需要人类设计

这一发现或许令人振奋但又引发担忧,一方面它带来了学术领域的新潜力,另一方面,当前社会并未做好迎接这项技术的准备。

整理:潇潇

如需转载或投稿,请直接在本文章评论区内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

都市快报橙柿互动
2026-03-26 07:59:37
改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

改口!姆巴佩为皇马队医发声:他们并未误诊 这事我也有一定责任

风过乡
2026-03-26 05:54:46
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

中国手中再添王牌!产值破一万亿,世界五大巨头访华,美再陷困局

古史青云啊
2026-03-26 10:14:37
社保基金持股市值居前的重仓股一览

社保基金持股市值居前的重仓股一览

证券时报
2026-03-26 07:34:15
观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

观察丨换电、闪充加速“结网”,电动车补能成竞争关键牌

澎湃新闻
2026-03-25 14:56:27
攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

攻克美军3大死穴!白宫慌了,中国8马赫电磁炮亮相,颠覆全球防空

万物知识圈
2026-03-26 15:06:53
缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

缅甸为什么不敢承认缅甸汉族?其实原因非常简单!

凡人侃史
2026-03-26 09:42:15
油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

油价又涨了!这次少涨了0.85元左右,国家替车主扛下了大头!

眼界纵横
2026-03-23 15:48:07
德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

德转列世预赛附加赛最贵11人:居莱尔领衔,意大利五人入选

懂球帝
2026-03-26 16:09:08
岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

岳母发声:去女儿家养老一个月补贴6千,女婿:我妈在养老院3年了

拾代谈生活
2026-03-26 14:54:48
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

全体台胞收到国台办邀请:统一完成之时,即可从台湾自驾直达北京

遁走的两轮
2026-03-26 14:59:28
“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

“科大男生9秒视频”火了,生猛操作令人叹为观止:不愧是高才生

妍妍教育日记
2026-03-20 21:33:36
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错

新智元
2026-03-25 08:36:09
女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

女孩“全损课本”火了,自认为是清北的料子,老师:自我感动罢了

复转这些年
2026-03-23 20:48:15
猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

猛增2000%!美国“无法接受”,这家中国神秘企业实在太“狂”了

万物知识圈
2026-03-26 15:00:50
为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

为进组做准备,颖儿直播打热玛吉,疼到捏扁解压球,太敬业了

TVB的四小花
2026-03-26 13:38:07
2026-03-26 16:44:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
亲子
数码
手机
健康

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

数码要闻

1599~2499元,英特尔酷睿Ultra 200S Plus处理器发售

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版