网易首页 > 网易号 > 正文 申请入驻

游戏界的变革!DIAMOND用扩散模型打破Atari纪录!

0
分享至

大模型主要依赖于离散潜变量序列来模拟环境动态。然而,将信息压缩到紧凑的离散表示中,可能忽略了对强化学习至关重要的视觉细节。同时,扩散模型已成为图像生成的主流方法,挑战了传统的离散潜变量建模方法。受这一范式转变的启发, 日内瓦大学、爱丁堡大学和微软研究院 提出了DIAMOND(DIffusion As a Model Of eNvironment Dreams),一种在扩散世界模型 中训练的强化学习代理。(链接在文章底部)

Atari 100k是一个用于评估强化学习算法性能的基准测试,包含100,000个游戏回合,主要基于Atari 2600游戏。它提供了一系列多样化的游戏,旨在测试和比较不同算法在处理复杂环境中的能力。DIAMOND在竞争激烈的Atari 100k基准测试中达到了1.46的人类标准化平均分,可以生成非常流畅的CSGO等游戏。

01 技术原理

DIAMOND训练了一个扩散模型来预测游戏的下一帧。该扩散模型会考虑代理的动作和之前的帧,以模拟环境的响应来生成下一帧。

代理不断提供新的动作,扩散模型则更新游戏。 扩散模型充当世界模型,代理可以在其中学习游戏玩法。

为了加快世界模型的运行速度,需要减少去噪步骤的数量基于DDPM的模型在去噪步骤较少时,由于累积的自回归误差会变得不稳定,而基于EDM的模型则保持稳定。减少去噪步骤可以使世界模型运行得更快。

但在拳击游戏中,1步去噪会在可能的结果之间进行插值,导致对不可预测的黑方玩家做出模糊的预测。 相比之下,增加去噪步骤可以更好地选择特定模式,从而提高预测的一致性。

更多的去噪步骤 (n) 能够更好地选择具有多种模式的转换方式。因此,在 Diamond 的扩散世界模型中使用 (n=3) 的去噪步骤。

有趣的是,白方玩家的动作预测无论去噪步骤的数量如何都能正确。这是因为白方由策略控制,其动作直接输入到世界模型中,这消除了可能导致模糊预测的任何歧义。

02 实际效果

所有视频均由人类使用键盘和鼠标在DIAMOND的扩散世界模型中生成,该模型是在《反恐精英:全球攻势》(CSGO)上训练的。

但也可以直观的看出存在一些问题,当固定动作并观察模型的反应时,短期内效果良好,但随着时间的推移,轨迹可能会变得不合逻辑。这突显了在复杂环境中,世界模型需要更好地理解和生成合理的行为序列。

https://github.com/eloialonso/diamond
https://arxiv.org/pdf/2405.12399

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
没有死刑的震慑,贪官们都会存有狱中养老换全家富贵的侥幸心理

没有死刑的震慑,贪官们都会存有狱中养老换全家富贵的侥幸心理

逍遥论经
2025-11-07 12:10:03
以色列下令彻底摧毁加沙隧道:被困地道中的哈马斯永远出不来了

以色列下令彻底摧毁加沙隧道:被困地道中的哈马斯永远出不来了

桂系007
2025-11-07 16:23:21
李湘被coser惹怒了!?

李湘被coser惹怒了!?

八卦疯叔
2025-11-07 10:17:12
气得发抖!茅台高管张楷怒喊:3000一瓶的飞天,老百姓谁喝得起?

气得发抖!茅台高管张楷怒喊:3000一瓶的飞天,老百姓谁喝得起?

好贤观史记
2025-11-07 08:02:13
合影里的C位迷思:钟楚曦风波照见的名利场真相

合影里的C位迷思:钟楚曦风波照见的名利场真相

晨小姐的红尘客栈
2025-10-30 10:12:07
一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

一种新型 “软啃老”正在扩散:40岁子女不伸手要钱不蹭住,却用这2种方式拖垮父母

有故事的人
2025-11-04 06:17:05
TA:阿隆索世俱杯期间曾进行钓鱼测试,发现更衣室有人泄密

TA:阿隆索世俱杯期间曾进行钓鱼测试,发现更衣室有人泄密

懂球帝
2025-11-07 15:37:07
为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

为什么电影里很多黑帮老大坚决不做毒品生意?网友评论引万千共鸣

小椰的奶奶
2025-10-27 02:51:34
超越华为!这个干“土生意”的夫妻档,一年狂赚8177亿养活17万人

超越华为!这个干“土生意”的夫妻档,一年狂赚8177亿养活17万人

热风追逐者
2025-10-13 14:19:09
叛逃台湾最高将领张清荣:蒋介石亲自迎接,为何不到一年被枪决

叛逃台湾最高将领张清荣:蒋介石亲自迎接,为何不到一年被枪决

顾史
2025-11-05 04:57:32
游资章建平(章盟主):从5万到百亿,冷门赛道的突击高手

游资章建平(章盟主):从5万到百亿,冷门赛道的突击高手

复利种韭菜
2025-11-01 19:04:09
镜报:由于狼队对主教练爱德华兹的兴趣,米堡取消了赛前发布会

镜报:由于狼队对主教练爱德华兹的兴趣,米堡取消了赛前发布会

懂球帝
2025-11-07 22:11:30
女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

女性白天和情人发生关系,晚上和老公同房有怎样的感受呢?

思絮
2025-10-24 10:42:12
福建舰入列!回顾国之重器的震撼时刻

福建舰入列!回顾国之重器的震撼时刻

极目新闻
2025-11-07 13:23:35
雷军这波“自杀式公关”,暴露了小米的流量焦虑

雷军这波“自杀式公关”,暴露了小米的流量焦虑

热点菌本君
2025-11-02 15:26:23
苹果疯了!iOS 26.1连夜更新,7大功能炸场,我的iPhone焕然一新!

苹果疯了!iOS 26.1连夜更新,7大功能炸场,我的iPhone焕然一新!

叮当当科技
2025-11-05 08:08:39
300391涉嫌财务造假,被证监会立案!下周解禁股来了,6股前三季度业绩亏损

300391涉嫌财务造假,被证监会立案!下周解禁股来了,6股前三季度业绩亏损

数据宝
2025-11-08 08:01:08
一块曾卖21万!贵州小伙一次就捡3斤多,村民:山后多的是

一块曾卖21万!贵州小伙一次就捡3斤多,村民:山后多的是

万象硬核本尊
2025-11-06 18:20:57
吴婉芳受宠30年,与霍启刚结缘,育有子女

吴婉芳受宠30年,与霍启刚结缘,育有子女

仙味少女心
2025-11-05 19:02:03
普京家族第三代崛起,俄罗斯政商江山几乎被一家人掌控

普京家族第三代崛起,俄罗斯政商江山几乎被一家人掌控

桂系007
2025-11-06 23:50:07
2025-11-08 08:16:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
370文章数 8关注度
往期回顾 全部

游戏要闻

魔兽世界:暴雪BUG频出,ElvUI正式停更,玩家怨声载道

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

头条要闻

媒体:一份非官方的美国就业数据 把美国投资者吓坏了

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

教育
时尚
本地
数码
军事航空

教育要闻

牢记在心!一消考前重要提醒!

“这条围巾”才是今年的顶流单品,时髦的女人都有它

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

Ayaneo即将推出搭载Ryzen AI Max+ 395 APU的下一代掌机

军事要闻

中国第三艘航空母舰福建舰入列

无障碍浏览 进入关怀版