网易首页 > 网易号 > 正文 申请入驻

游戏界的变革!DIAMOND用扩散模型打破Atari纪录!

0
分享至

大模型主要依赖于离散潜变量序列来模拟环境动态。然而,将信息压缩到紧凑的离散表示中,可能忽略了对强化学习至关重要的视觉细节。同时,扩散模型已成为图像生成的主流方法,挑战了传统的离散潜变量建模方法。受这一范式转变的启发, 日内瓦大学、爱丁堡大学和微软研究院 提出了DIAMOND(DIffusion As a Model Of eNvironment Dreams),一种在扩散世界模型 中训练的强化学习代理。(链接在文章底部)

Atari 100k是一个用于评估强化学习算法性能的基准测试,包含100,000个游戏回合,主要基于Atari 2600游戏。它提供了一系列多样化的游戏,旨在测试和比较不同算法在处理复杂环境中的能力。DIAMOND在竞争激烈的Atari 100k基准测试中达到了1.46的人类标准化平均分,可以生成非常流畅的CSGO等游戏。

01 技术原理

DIAMOND训练了一个扩散模型来预测游戏的下一帧。该扩散模型会考虑代理的动作和之前的帧,以模拟环境的响应来生成下一帧。

代理不断提供新的动作,扩散模型则更新游戏。 扩散模型充当世界模型,代理可以在其中学习游戏玩法。

为了加快世界模型的运行速度,需要减少去噪步骤的数量基于DDPM的模型在去噪步骤较少时,由于累积的自回归误差会变得不稳定,而基于EDM的模型则保持稳定。减少去噪步骤可以使世界模型运行得更快。

但在拳击游戏中,1步去噪会在可能的结果之间进行插值,导致对不可预测的黑方玩家做出模糊的预测。 相比之下,增加去噪步骤可以更好地选择特定模式,从而提高预测的一致性。

更多的去噪步骤 (n) 能够更好地选择具有多种模式的转换方式。因此,在 Diamond 的扩散世界模型中使用 (n=3) 的去噪步骤。

有趣的是,白方玩家的动作预测无论去噪步骤的数量如何都能正确。这是因为白方由策略控制,其动作直接输入到世界模型中,这消除了可能导致模糊预测的任何歧义。

02 实际效果

所有视频均由人类使用键盘和鼠标在DIAMOND的扩散世界模型中生成,该模型是在《反恐精英:全球攻势》(CSGO)上训练的。

但也可以直观的看出存在一些问题,当固定动作并观察模型的反应时,短期内效果良好,但随着时间的推移,轨迹可能会变得不合逻辑。这突显了在复杂环境中,世界模型需要更好地理解和生成合理的行为序列。

https://github.com/eloialonso/diamond
https://arxiv.org/pdf/2405.12399

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

iPhone17ProMax跌破首发价,黄牛今年不敢疯狂了!

搞机小帝
2025-09-14 00:02:36
我退休金5300花900买条荷花,遭儿媳痛骂,我果断搬回自己养老房

我退休金5300花900买条荷花,遭儿媳痛骂,我果断搬回自己养老房

磊子讲史
2025-09-09 12:01:58
超女冠军江映蓉:因整容失败像“怪物”,全身只剩眼珠是自己的

超女冠军江映蓉:因整容失败像“怪物”,全身只剩眼珠是自己的

素衣读史
2025-09-08 15:26:17
小 S 宣布正式复工,首秀锁定金钟奖,18 字喊姐看哭人

小 S 宣布正式复工,首秀锁定金钟奖,18 字喊姐看哭人

第一娱记
2025-09-15 18:18:39
陆毅自曝结婚30年妻子没做饭,镜头拉近鲍蕾手部,真相太真实!

陆毅自曝结婚30年妻子没做饭,镜头拉近鲍蕾手部,真相太真实!

策略剖析
2025-09-15 14:48:43
如今再看72岁林凤娇,与71岁成龙同框老到不敢认,蔡澜果然说对了

如今再看72岁林凤娇,与71岁成龙同框老到不敢认,蔡澜果然说对了

动物奇奇怪怪
2025-09-16 02:21:54
小米手机官博头像意外泄露新机背屏,预计为17 Pro系列

小米手机官博头像意外泄露新机背屏,预计为17 Pro系列

IT之家
2025-09-15 16:47:27
炸了炸了!正式签约神经病MVP!

炸了炸了!正式签约神经病MVP!

技巧君侃球
2025-09-15 23:57:26
谁会是全球首个动用核武的国家?朝鲜或将打破沉默

谁会是全球首个动用核武的国家?朝鲜或将打破沉默

书中自有颜如玉
2025-09-15 16:10:47
提气!一致通过,这个狂徒嚣张不了多久了

提气!一致通过,这个狂徒嚣张不了多久了

陆弃
2025-09-13 08:45:35
震三观:吃麦当劳居然能治偏头痛?数百网友亲测有效,连欧美神经科医生都不敢否认!

震三观:吃麦当劳居然能治偏头痛?数百网友亲测有效,连欧美神经科医生都不敢否认!

最英国
2025-09-12 15:07:41
泪目了!一80后男子检查出结肠癌,发帖感慨多么希望只是做一个梦

泪目了!一80后男子检查出结肠癌,发帖感慨多么希望只是做一个梦

明月杂谈
2025-09-14 17:37:17
中美俄人均住房面积对比:美国67㎡,俄罗斯35㎡,中国令人意外

中美俄人均住房面积对比:美国67㎡,俄罗斯35㎡,中国令人意外

安珈使者啊
2025-09-14 14:14:49
女优美谷朱音渴望怀孕,老公不交功课自己想办法!

女优美谷朱音渴望怀孕,老公不交功课自己想办法!

葫芦哥爱吐槽
2025-09-15 18:54:36
扶老人过马路被打后续:老人已找到,目击者发声,警方:需要道歉

扶老人过马路被打后续:老人已找到,目击者发声,警方:需要道歉

奇思妙想草叶君
2025-09-14 22:28:58
一个赛季只打了8场比赛!年薪高达550万,CBA全明星中锋还要养伤

一个赛季只打了8场比赛!年薪高达550万,CBA全明星中锋还要养伤

篮球大陆
2025-09-15 10:52:55
鲁媒:事实证明此前瓦科、克雷桑不兼容,是崔康熙战术设计的问题

鲁媒:事实证明此前瓦科、克雷桑不兼容,是崔康熙战术设计的问题

直播吧
2025-09-15 21:16:07
冯唐:只有穷人才会痴迷技术,只有笨人才会想着先把事做好

冯唐:只有穷人才会痴迷技术,只有笨人才会想着先把事做好

清风拂心
2025-08-28 16:15:03
“四大花旦”新出炉!刘亦菲稳坐,刘诗诗下桌,85花top换成了她

“四大花旦”新出炉!刘亦菲稳坐,刘诗诗下桌,85花top换成了她

粉墨说戏
2025-09-10 14:53:52
50岁以后,要多存钱,存款达到“这个数”,家庭就很有底气了!

50岁以后,要多存钱,存款达到“这个数”,家庭就很有底气了!

CG说科技
2025-09-15 23:12:42
2025-09-16 04:08:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
347文章数 7关注度
往期回顾 全部

游戏要闻

梦幻西游旭旭宝宝鉴定点化套装小赚一波,三大神豪都打废神级谛听

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

头条要闻

中美就TikTok等经贸问题在西班牙马德里举行会谈

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

数码
本地
健康
时尚
公开课

数码要闻

华为等联合发布标准!首次定义大容量SSD关键指标

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

内分泌科专家破解身高八大谣言

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版