网易首页 > 网易号 > 正文 申请入驻

世界模型也扩散!训练出的智能体竟然不错

0
分享至

机器之心报道

编辑:小舟、陈萍

在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。

世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。

然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。

受这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND(DIffusion As a Model Of eNvironment Dreams)。



  • 论文地址:https://arxiv.org/abs/2405.12399
  • 项目地址:https://github.com/eloialonso/diamond
  • 论文标题:Diffusion for World Modeling: Visual Details Matter in Atari

DIAMOND 在 Atari 100k 基准测试中获得了 1.46 的平均人类归一化得分 (HNS),可以媲美完全在世界模型中训练的智能体的 SOTA 水平。该研究提供了定性分析来说明,DIAMOND 的设计选择对于确保扩散世界模型的长期高效稳定是必要的。

此外,在图像空间中操作的好处是使扩散世界模型能够成为环境的直接替代品,从而提供对世界模型和智能体行为更深入的了解。特别地,该研究发现某些游戏中性能的提高源于对关键视觉细节的更好建模。

方法介绍







实验

为了全面评估 DIAMOND,该研究使用了公认的 Atari 100k 基准测试,该基准测试包括 26 个游戏,用于测试智能体的广泛能力。对于每个游戏,智能体只允许在环境中进行 100k 次操作,这大约相当于人类 2 小时的游戏时间,以在评估前学习玩游戏。作为参考,没有限制的 Atari 智能体通常训练 5000 万步,这相当于经验的 500 倍增加。研究者从头开始在每个游戏上用 5 个随机种子训练 DIAMOND。每次运行大约使用 12GB 的 VRAM,在单个 Nvidia RTX 4090 上大约需要 2.9 天(总计 1.03 个 GPU 年)。

表 1 比较了在世界模型中训练智能体的不同得分:



图 2 中提供了平均值和 IQM( Interquartile Mean )置信区间:



结果表明,DIAMOND 在基准测试中表现强劲,超过人类玩家在 11 个游戏中的表现,并达到了 1.46 的 HNS 得分,这是完全在世界模型中训练的智能体的新纪录。该研究还发现,DIAMOND 在需要捕捉细节的环境中表现特别出色,例如 Asterix、Breakout 和 Road Runner。

为了研究扩散变量的稳定性,该研究分析了自回归生成的想象轨迹(imagined trajectory),如下图 3 所示:



该研究发现有些情况需要迭代求解器将采样过程驱动到特定模式,如图 4 所示的拳击游戏:



如图 5 所示,与 IRIS 想象的轨迹相比,DIAMOND 想象的轨迹通常具有更高的视觉质量,并且更符合真实环境。



感兴趣的读者可以阅读论文原文,了解更多研究内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
给所有人说一个很恐怖的数据

给所有人说一个很恐怖的数据

叒女紫121
2024-06-11 06:38:57
短短14天,皇马超巨走下神坛!欧洲杯沦为背景板,姆巴佩说对了

短短14天,皇马超巨走下神坛!欧洲杯沦为背景板,姆巴佩说对了

我的护球最独特
2024-06-16 03:02:51
尿毒症是喝出来的?医生告诫:即便是铁打的肾,这3种水也要少喝

尿毒症是喝出来的?医生告诫:即便是铁打的肾,这3种水也要少喝

莫将离
2024-06-01 23:41:40
蹭完这个蹭那个…你一辈子都火不了?

蹭完这个蹭那个…你一辈子都火不了?

橘子娱乐
2024-06-15 16:29:20
专家预测:2025年房价将会是现在的4-5倍!

专家预测:2025年房价将会是现在的4-5倍!

帝都观日记
2024-06-14 23:31:02
笑晕!家人托关系找的工作能有多离谱?看完好笑又奇葩 真的太炸裂

笑晕!家人托关系找的工作能有多离谱?看完好笑又奇葩 真的太炸裂

有趣的火烈鸟
2024-06-17 00:41:23
网友分享美国工厂打工现状,评论区破防,拒绝资本主义的糖衣炮弹

网友分享美国工厂打工现状,评论区破防,拒绝资本主义的糖衣炮弹

眼光很亮
2024-06-16 09:00:09
今天是6月16日下午,刚刚得知一个重要消息,明天要来大动作吗

今天是6月16日下午,刚刚得知一个重要消息,明天要来大动作吗

股市皆大事
2024-06-16 13:47:34
身高191体重180火遍全网的马丁-亚当:上届欧洲杯我在家喝酒

身高191体重180火遍全网的马丁-亚当:上届欧洲杯我在家喝酒

直播吧
2024-06-16 17:34:10
中国正面临40年来最大的经济危机?

中国正面临40年来最大的经济危机?

趣说世界哈
2024-06-17 00:15:02
球队二、三号得分手!Scotto:爵士预计兜射塞克斯顿和克拉克森

球队二、三号得分手!Scotto:爵士预计兜射塞克斯顿和克拉克森

直播吧
2024-06-16 09:04:19
再次让全世界失望!美联储拒绝降息,美元收割已骑虎难下

再次让全世界失望!美联储拒绝降息,美元收割已骑虎难下

北向财经
2024-06-16 15:10:09
真核退役皇马因祸得福,德布劳内告别曼城,冲击金球,与瓜帅闹翻

真核退役皇马因祸得福,德布劳内告别曼城,冲击金球,与瓜帅闹翻

小金体坛大视野
2024-06-16 18:10:20
12国拒绝签署乌克兰和平峰会公报,引发全球关注

12国拒绝签署乌克兰和平峰会公报,引发全球关注

亡海中的彼岸花
2024-06-17 00:10:03
俄罗斯空袭基辅,北约战机接连升空,普京用行动试出了西方的底线

俄罗斯空袭基辅,北约战机接连升空,普京用行动试出了西方的底线

晓辉观点
2024-06-16 18:00:20
乌克兰总统泽连斯基提出“最早明天”与俄罗斯开始谈判的条件

乌克兰总统泽连斯基提出“最早明天”与俄罗斯开始谈判的条件

小鬼头体育
2024-06-16 23:59:33
国内智能手机排名重新洗牌:OPPO跌出榜单前五,第一名遥遥领先 !

国内智能手机排名重新洗牌:OPPO跌出榜单前五,第一名遥遥领先 !

最潮家居评
2024-06-16 10:58:59
再见曼城!1.2亿标王挂牌出售!顶撞瓜帅,不道歉,或转投大巴黎

再见曼城!1.2亿标王挂牌出售!顶撞瓜帅,不道歉,或转投大巴黎

阿泰希特
2024-06-16 11:34:34
赵丽颖成都走穴站台,身穿丝绒高定西装,英姿飒爽像霸总出街

赵丽颖成都走穴站台,身穿丝绒高定西装,英姿飒爽像霸总出街

大双
2024-06-16 16:28:58
南方医科大学教师因抢救患儿耽误上课受罚?同事:她人挺好的,是在抢救不是别的情况

南方医科大学教师因抢救患儿耽误上课受罚?同事:她人挺好的,是在抢救不是别的情况

极目新闻
2024-06-16 13:41:50
2024-06-17 01:50:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9081文章数 141943关注度
往期回顾 全部

科技要闻

iPhone 16会杀死大模型APP吗?

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

头条要闻

南方医院回应教师因救人迟到:教学差错是最轻档处理

体育要闻

没人永远年轻 但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

打断妻子多根肋骨 上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元 极狐阿尔法S5正式上市

态度原创

亲子
数码
本地
公开课
军事航空

亲子要闻

玩这个游戏的都是勇士

数码要闻

PCIe 5.0 SSD终于要便宜了!群联E31T主控无缓存能跑12GB/s

本地新闻

粽情一夏|海河龙舟赛,竟然成了外国人的大party!

公开课

近视只是视力差?小心并发症

军事要闻

以军宣布在加沙南部实行"战术暂停"

无障碍浏览 进入关怀版