网易首页 > 网易号 > 正文 申请入驻

Nature:DeepMind新一代Dreamer架构突破强化学习泛化瓶颈

0
分享至

摘要

开发一种能够广泛学习解决各类任务的通用算法,一直是人工智能领域的根本性挑战。尽管现有强化学习算法可轻松应用于与其开发目标相似的任务,但要将其配置应用于新领域,仍需耗费大量专业人力进行调试和实验。本文提出的第三代Dreamer算法,仅凭单一配置就在150多个不同任务中超越了专业算法。该算法通过构建环境模型,并借助对未来情景的推演来优化行为。基于归一化、平衡和转换的鲁棒性技术,确保了跨领域学习的稳定性。据我们所知,Dreamer是首个无需人类数据或课程设计,仅凭像素输入和开放世界中稀疏奖励,就能从零开始采集《我的世界》钻石的算法——这一成就曾被学术界视为检验人工智能能否实现长远像素级探索的重要挑战。我们的研究使得无需大量实验即可解决复杂控制问题,极大拓展了强化学习的应用范围。

关键词:DeepMind、DreamerV3算法、通用强化学习(General RL)、世界模型(World Model)、《我的世界》(Minecraft)、无监督学习(Unsupervised Learning)、多任务泛化(Multi-task Generalization)

集智编辑部丨作者

论文题目:Mastering diverse control tasks through world models 发表时间:2025年4月2日 论文地址:https://www.nature.com/articles/s41586-025-08744-2 期刊名称:Nature

在人工智能领域,开发一种无需调整超参数即可适应多样化任务的通用强化学习(RL)算法,一直是研究者追逐的“圣杯”。传统RL算法(如PPO)需针对不同任务进行繁琐调参,而专用算法(如MuZero)虽性能卓越却难以迁移。2025年4月,Google DeepMind在《Nature》发表第三代Dreamer算法(DreamerV3),以单一固定配置在8大领域、150余项任务中超越专用算法,更在无需人类数据的情况下,首次实现AI从零开始通关《我的世界》钻石收集任务。这一突破标志着通用RL向现实应用迈出关键一步。

DreamerV3的核心架构

Dreamer的核心创新在于其独特的“世界模型-评论者-行动者(World Model-Critic-Actor)”架构,由三个神经网络协同工作,通过"想象未来"替代传统RL的试错学习:

1. 世界模型将高维感官输入(如图像)压缩为低维表征(Latent Representation),并预测潜在行动的未来状态和奖励,其关键组件包括编码器、序列模型和动态预测器。

2. 评论者(Critic):评估想象轨迹的长期价值,采用双热分布回归(Two-hot Regression)处理多模态奖励。

3. 行动者(Actor):根据世界模型的预测和评论者的评估,基于归一化回报(Return Normalization)和熵正则化(Entropy Regularization)选择最优行动以最大化收益。

与传统RL算法不同,Dreamer完全依赖世界模型生成的抽象轨迹进行决策,而非直接与环境交互。这种设计能够显著降低计算成本,同时提高算法的通用性。

图 1. Dreamer的训练过程

关键技术:提升跨领域稳定性

为实现跨领域鲁棒性,DreamerV3引入四项核心技术:

1. Symlog-Symexp变换对输入和奖励进行双对称对数压缩,避免极端值干扰

2. KL平衡与自由比特动态调整世界模型的目标函数权重,防止表征崩塌(Collapse)

3. 百分位回报归一化(Percentile Return Normalization)将回报缩放至[0,1]区间,平衡探索与利用

4. 双热损失(Two-hot Loss)将连续值预测转化为分类问题,可解决多模态分布难题

这些技术共同作用,使DreamerV3在从Atari游戏到机器人控制的跨越中保持超参数不变。

图 2. 世界模型的视频预测。



性能验证:碾压专用算法

研究团队从四个维度验证了Dreamer的性能:

1. 基准测试:全面覆盖多样化任务

在包括连续控制(如机器人运动)、离散动作(如游戏操作)、视觉输入(如像素级决策)等8个领域的150多项任务中,Dreamer的表现与专用算法相当甚至更优。例如,在Atari游戏和机器人控制任务中,Dreamer无需调整即可达到顶尖水平,证明了其泛化能力。

图 3. 基准测试分数。

2.《我的世界》钻石挑战:无人类数据的突破

《我的世界》的钻石收集任务需要智能体通过复杂的行为链(如资源采集、工具制作)达成目标,人类玩家通常需20分钟完成。此前,AI算法需依赖人类数据(如视频预训练VPT)或课程学习,而Dreamer首次在无任何先验知识的情况下,仅通过1亿环境步数(约10小时)成功挖到钻石,这一成果展示了无监督学习的巨大潜力。

图 4. 《我的世界》钻石挑战的表现。

3. 消融实验:鲁棒性技术的关键作用

通过消融研究,团队验证了Dreamer各组件的重要性:

  • 世界模型的平衡性:库尔巴克-莱伯勒(KL)平衡和自由比特技术对稳定训练至关重要。

  • 无监督目标的主导性:即使屏蔽任务特定奖励信号,Dreamer仍能通过世界模型的无监督学习实现高效表征。这表明未来可通过互联网视频等无监督数据进一步预训练模型。

4. 扩展性:模型规模与性能的正相关

在Crafter和DMLab任务中,团队测试了参数规模从1200万到4亿的6个模型。结果显示,更大的模型和更高的梯度更新次数直接提升了任务性能,同时降低了数据需求。这一发现为通过计算资源扩展提升AI能力提供了明确路径。

图 5. 消融和稳健的 Dreamer 规模缩放。

未来方向:从通用模型到通用智能

Dreamer的成功为AI研究开辟了多条新路径:

  • 跨领域世界模型:训练单一模型掌握多领域知识,实现真正的通用智能。

  • 无监督预训练:利用互联网视频等海量数据,进一步提升模型的初始能力。

  • 机器人应用:将Dreamer的鲁棒性迁移至现实世界的机器人控制任务。

DeepMind的这项研究不仅解决了强化学习的脆性问题,更推动了AI从“专用工具”向“通用助手”的转变。随着计算资源的增长和数据利用效率的提升,Dreamer或将成为未来通用人工智能的基石之一。

「AI时代的学习:共探学习的复杂性」主题读书会

在技术浪潮的冲击下,智能时代对人才培养的需求正发生根本性转变——学习已不再局限于简单的知识传递与记忆,当机器能够替代程式化技能,人类的创造力、批判性思维与跨界协作能力将成为核心竞争力;当知识更新周期以月甚至天为单位迭代,教育的使命不再是填鸭式灌输,而是培养终身学习者的自适应能力。

在此背景下,集智俱乐部联合江南大学教授王志军,北京师范大学教授崔光佐,翼鸥教育创始人宋军波,TalkingBrain 联合创始人林思恩,清华大学讲师方可,北京师范大学博士后郭玉娟,共同发起。希望通过汇聚教育学、系统科学、脑科学、计算机科学、社会学等多领域交叉视角,突破单一学科的局限,对人类社会未来学习发展形成更加全面深入的认识。


详情请见:

1.

2.

3.

4.

5.

6.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两岸就统一表态:赖清德大开倒车,郑丽文让人失望,董军正告美方

两岸就统一表态:赖清德大开倒车,郑丽文让人失望,董军正告美方

南宗历史
2025-11-02 02:29:23
司晓迪硬刚李云迪:睡我、拉黑、玩消失!

司晓迪硬刚李云迪:睡我、拉黑、玩消失!

TVB的四小花
2025-11-01 08:37:26
特讯!郑丽文一句"武力保台"引爆全球舆论

特讯!郑丽文一句"武力保台"引爆全球舆论

飞龙点评
2025-11-02 14:21:29
弃车保帅!太子集团陈志末日已到,是被“自己人”灭口的

弃车保帅!太子集团陈志末日已到,是被“自己人”灭口的

吃瓜局
2025-10-31 21:11:55
丈夫带小三产检后续:小三戴金链 婆婆疑似早知情 不让原配生二胎

丈夫带小三产检后续:小三戴金链 婆婆疑似早知情 不让原配生二胎

鋭娱之乐
2025-11-02 18:31:27
这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

这是我见过的五官最精致的女性,一脸福相,以后会贵不可言

手工制作阿歼
2025-10-28 14:03:28
歌手黄安透露音乐人屠颖离世细节:在跑步机上跑步时摔跤致颅内出血

歌手黄安透露音乐人屠颖离世细节:在跑步机上跑步时摔跤致颅内出血

情感大头说说
2025-11-02 16:03:30
热议中超保级:赛程为人情世故提供便利;亚泰想搞肯定冲回来

热议中超保级:赛程为人情世故提供便利;亚泰想搞肯定冲回来

懂球帝
2025-11-02 18:25:24
斯诺克国锦赛:丁俊晖6-0横扫格雷斯,遗憾冲击147失败

斯诺克国锦赛:丁俊晖6-0横扫格雷斯,遗憾冲击147失败

懂球帝
2025-11-02 21:45:31
比同龄郑钦文更强!中国15岁网球天才惊艳世界,豪取10连胜连夺两冠

比同龄郑钦文更强!中国15岁网球天才惊艳世界,豪取10连胜连夺两冠

体坛小二哥
2025-11-02 22:07:25
做梦都没想到,全红婵伤愈复出第一战跳成这样,陈芋汐悄然忍泪

做梦都没想到,全红婵伤愈复出第一战跳成这样,陈芋汐悄然忍泪

杨仔述
2025-11-02 22:34:48
太狂了!苏奇督通知妙瓦底各诈骗园区:不要怕,诈骗活动照常进行

太狂了!苏奇督通知妙瓦底各诈骗园区:不要怕,诈骗活动照常进行

霹雳炮
2025-11-01 20:55:50
从《康熙王朝》到《澎湖海战》:为什么影视剧要把施琅塑造成英雄

从《康熙王朝》到《澎湖海战》:为什么影视剧要把施琅塑造成英雄

七彩论世
2025-11-02 18:30:56
张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

张靓颖“零透光”裙惊爆热搜,性感曲线令全场屏息,时尚女王?

娱乐领航家
2025-10-28 22:00:07
又被禁赛了!生涯第三次,从联盟推崇的门面,到球队都嫌弃的毒瘤

又被禁赛了!生涯第三次,从联盟推崇的门面,到球队都嫌弃的毒瘤

你的篮球频道
2025-11-02 11:49:09
釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

孔孔说体育
2025-11-02 06:19:25
王艺迪逆转温特夺冠采访!展露开心,胜利献给中国队,确实艰难!

王艺迪逆转温特夺冠采访!展露开心,胜利献给中国队,确实艰难!

篮球资讯达人
2025-11-03 00:14:51
相声班主准备跑路!绿大暗给AB介绍金主!

相声班主准备跑路!绿大暗给AB介绍金主!

八卦疯叔
2025-11-01 14:30:03
大消息,重大改革将启动!

大消息,重大改革将启动!

中国基金报
2025-11-02 21:51:52
什么时间吃苹果最好?医生提醒:最好这3个时间段吃,早知早受益

什么时间吃苹果最好?医生提醒:最好这3个时间段吃,早知早受益

健身狂人
2025-11-02 12:31:44
2025-11-03 07:11:00
集智俱乐部 incentive-icons
集智俱乐部
科普人工智能相关知识技能
5447文章数 4656关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

旅游
健康
亲子
教育
军事航空

旅游要闻

这道金黄的绝美秋景里藏着古韵京华

核磁VS肌骨超声,谁更胜一筹?

亲子要闻

我发现一个带娃永远不生气的理论

教育要闻

背诵很多遍依旧写不出来,要让自己根据真题练习模拟写作

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版