网易首页 > 网易号 > 正文 申请入驻

基于扩散模型的,开源世界模型DIAMOND

0
分享至

日内瓦大学、微软研究院和爱丁堡大学的研究人员联合开源了,基于扩散模型的世界模型—DIAMOND。

研究人员之所以选择扩散模型作为基础,是因为可以更好地捕捉视觉细节,同时具有建模复杂多模态分布的能力,以便在不同的环境下进行训练和细致的行为观察。

DIAMOND主要用于智能体训练、世界建模、多模态分布建模等多种强化学习应用。为了评估其性能,研究人员在Atari 100k上进行了综合测试。

结果显示,DIAMOND不仅在视觉复杂度高的环境中能够生成连贯且高质量的轨迹,还取得了平均为1.46的测试分数,在训练智能体方面非常强。

论文地址:https://arxiv.org/abs/2405.12399

Github地址:https://github.com/eloialonso/diamond

最近几年,强化学习在游戏、机器人控制和自动驾驶等领域得到了应用,但其样本、训练效率低的问题仍是扩大应用范围的关键难点

为了克服这一困难 “世界模型”作为一种辅助工具应运而生,使智能体能够在模拟环境中学习规划、决策等拟人化思维。

但现有世界模型多依赖于序列化的离散潜变量,来模拟环境动态,这可能导致视觉细节的损失,而这些细节对于强化学习至关重要。所以,DIAMOND使用了一种基于扩散模型的创新架构,可以捕捉更丰富的视觉信息。

扩散模型

扩散模型是DIAMOND的核心模块,主要通过逆向学习噪声过程来生成高质量的视觉数据。这种模型与传统的基于离散潜在变量的方法有显著不同,因为它能够生成更加丰富和细致的视觉信息。

扩散模型不仅能生成数据,还构成了世界模型的基础,负责模拟环境的动态变化。这意味着,给定过去的观察和动作,DIAMOND能够预测未来的观察、奖励和终止状态。

DIAMOND通过扩散模型可以生成连续的潜在变量序列,这些序列捕捉了环境状态的细微变化。对于强化学习智能体来说至关重要,因为它们需要准确地理解环境的动态,才能制定有效的策略。

奖励模型

在强化学习中,智能体的行为是由环境提供的奖励信号来引导的,可预测智能体在执行特定动作后所获得的奖励。奖励模型使得智能体能够评估其行为,并据此调整其决策能力。

在DIAMOND中,奖励模型可以采用多种不同的形式,如神经网络或其他机器学习模型。这些模型通过学习大量的交互数据,能够捕捉到观察和动作与奖励之间的复杂映射关系。

终止模型

终止模型的作用是可以帮助智能体,识别何时一个任务已经完成或需要重新开始。例如,在自动驾驶的场景中,智能体需要知道何时到达了目的地。

终止模型的工作原理基于对智能体历史行为和观察的分析。它通过学习智能体与环境交互的数据来预测,何时结束当前执行的各种事件。

终止模型通常采用机器学习算法来实现,如决策树、逻辑回归或神经网络等。这些算法能够从历史数据中学习事件结束的模式,并据此进行预测。

例如,在一个游戏场景中,智能体需要再失去所有生命时来预测结束。而终止模型便能够识别导致游戏结束的行为和状态,并预测未来可能出现的类似情况。

本文素材来源DIAMOND论文,如有侵权请联系删除

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
起底那个声称海参崴不存在的微博大v杜建国

起底那个声称海参崴不存在的微博大v杜建国

笔杆论道
2026-05-13 00:01:53
1-1!C罗摇头叹息,胜利遭98分钟压哨绝平,新月重燃夺冠希望

1-1!C罗摇头叹息,胜利遭98分钟压哨绝平,新月重燃夺冠希望

我的护球最独特
2026-05-13 04:11:44
女生没电脑每天去电竞馆学习十几小时获免单,店主:很难得,少一台机器没什么,只是一点电费而已,并不觉得亏

女生没电脑每天去电竞馆学习十几小时获免单,店主:很难得,少一台机器没什么,只是一点电费而已,并不觉得亏

大象新闻
2026-05-12 23:42:06
曹操撩寡妇时说的金句,如今成了约会开场白,男人经常挂在嘴边

曹操撩寡妇时说的金句,如今成了约会开场白,男人经常挂在嘴边

掠影后有感
2026-05-11 11:31:38
2016年,黎明和助理陈泳仪的合影,2年后,陈助理成了黎夫人

2016年,黎明和助理陈泳仪的合影,2年后,陈助理成了黎夫人

喜文多见01
2026-05-03 12:41:06
抢在接机前,特朗普随行名单变了,英伟达出局,外交部四字表态

抢在接机前,特朗普随行名单变了,英伟达出局,外交部四字表态

傲傲讲历史
2026-05-13 00:04:46
白宫公布名单,16位美国商界领袖将随特朗普访华

白宫公布名单,16位美国商界领袖将随特朗普访华

界面新闻
2026-05-12 21:23:09
女子推搡哨兵后续:官媒发声,知情人爆料,恐不止坐牢这么简单

女子推搡哨兵后续:官媒发声,知情人爆料,恐不止坐牢这么简单

千言娱乐记
2026-05-12 15:10:56
“我妈有两个老公”事件升级!余思悦内部道歉流出,水平低到离谱

“我妈有两个老公”事件升级!余思悦内部道歉流出,水平低到离谱

火山詩话
2026-05-13 05:29:54
广东出局揪出最失望球员!全场0分+带女友到客场,球迷:卖掉算了

广东出局揪出最失望球员!全场0分+带女友到客场,球迷:卖掉算了

南海浪花
2026-05-13 07:48:38
三年退款2700次!一哥们把「仅退款」当班上,把自己上进了局子

三年退款2700次!一哥们把「仅退款」当班上,把自己上进了局子

雷科技
2026-05-12 22:06:26
不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

不能二次加热的6种食物!医生提醒:吃不完或倒掉,别乱节俭

冷眼看世界728
2026-05-12 20:46:26
莫狗下课!大快人心!白送3新星!他才是拆队专家!

莫狗下课!大快人心!白送3新星!他才是拆队专家!

柚子说球
2026-05-13 08:53:18
美国B-29迫降苏联后,斯大林下令:全面模仿,连钻错的洞都不准改!

美国B-29迫降苏联后,斯大林下令:全面模仿,连钻错的洞都不准改!

爆角追踪
2026-05-12 17:13:53
以前叫人家强哥,现在请叫植物

以前叫人家强哥,现在请叫植物

阿亮评论
2026-05-12 12:18:33
日本大型电机制造企业尼得科公司被曝大规模造假

日本大型电机制造企业尼得科公司被曝大规模造假

每日经济新闻
2026-05-12 22:54:35
明朝开国猛将后裔连丧两婴,绝望中生下毛泽东,大字不识的八岁幼童为何能脱口作诗?

明朝开国猛将后裔连丧两婴,绝望中生下毛泽东,大字不识的八岁幼童为何能脱口作诗?

寄史言志
2026-05-12 17:57:29
卖掉格力换来的416亿,被他们“败”光了!

卖掉格力换来的416亿,被他们“败”光了!

犀利强哥
2026-05-11 08:30:22
起底 Token 中转黑色产业链:日赚 200 万美金!大佬扎堆入局,灰色套利套路碾压现金贷

起底 Token 中转黑色产业链:日赚 200 万美金!大佬扎堆入局,灰色套利套路碾压现金贷

新浪财经
2026-05-12 00:15:49
父亲病危后女子请假陪护屡遭拒,父亲去世当天她因“旷工”被公司辞退,此前公司还向其发送旷工催告函;法院:公司于期限内支付70000元

父亲病危后女子请假陪护屡遭拒,父亲去世当天她因“旷工”被公司辞退,此前公司还向其发送旷工催告函;法院:公司于期限内支付70000元

极目新闻
2026-05-13 07:57:10
2026-05-13 09:08:49
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
542文章数 53关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

头条要闻

牛弹琴:印度的大麻烦来了 CNN的报道更是触目惊心

体育要闻

骑士终于玩明白了?

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

健康
旅游
时尚
教育
房产

干细胞能让人“返老还童”吗

旅游要闻

占地3.2平方公里,它是西安的国家遗址公园,坐高铁离广元不远!

没八卦、纯素人、不惊艳,可她赢麻了

教育要闻

600分以下想要本科就业,如何报志愿

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

无障碍浏览 进入关怀版