网易首页 > 网易号 > 正文 申请入驻

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

0
分享至

新智元报道

编辑:定慧 英智

【新智元导读】谷歌DeepMind研发的DreamerV3实现重大突破:无需任何人类数据,通过强化学习与「世界模型」,自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步,并已登上Nature。

AI又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石!

在刚刚登上Nature的论文中,谷歌DeepMind的智能体通过纯·自我学习,顺利完成了收集钻石的任务。

论文链接:https://www.nature.com/articles/s41586-025-08744-2

对此,DeepMind的计算机科学家Danijar Hafner表示:「Dreamer是一个重要的里程碑,标志着AI又朝着通用人工智能前进了一大步。」

又是AI和《我的世界》,为何这次就成了迈向AGI的一大步

用AI来挑战《我的世界》早已是AI界「喜闻乐见」的项目了。

作为世界上排名第一且月活超过1亿的游戏,《我的世界》可以说是涵盖了几乎所有年龄段的人群。

早在两三年前,包括OpenAI在内的各个模型都有挑战《我的世界》的尝试。

更早在2019年,研究人员就认为《我的世界》的开放式游戏环境可能非常适合AI研究。

比如一个七岁的小孩在观看了10分钟演示视频后就能学会如何在游戏中找到稀有的钻石,而当年的AI还远远做不到这一点。

AI从《我的世界》中的一个随机位置开始,必须完成某些任务来找到钻石

为何这次DeepMind就敢说是「通向AGI的一大步」呢?

这次的任务——在游戏内寻找钻石——听起来容易,但其实非常困难,「高玩」们也要花20-30分钟才能找到一个钻石。

给不熟悉游戏的朋友解释下这个任务为什么这么困难:

1. 每一次的游戏场景都是随机世界,包含各种地形的虚拟 3D 世界,包括森林、山脉、沙漠和沼泽,这让AI无法只记住一种特定策略来作弊;

2. 想要获得钻石需要经过一系列复杂的前置流程,并不是随机在地图寻找,比如你需要:

  • 先找到树木

  • 然后将树木分解为木材,木材也仅仅是用来制作一个工作台

  • 有了工作台再加上更多的木材你才可以制作一个木头镐头

  • 然后才能开始挖掘以寻找钻石


钻石恒久远,AI不疲倦
AI研究人员专注于在《我的世界》中寻找钻石,Hafner说因为这需要一系列复杂的步骤,是一个很长的里程碑链条,因此它需要非常深入的探索。

DeepMind的Dreamer AI在《我的世界》中进行了多次游戏学习如何收集钻石

之前的尝试让AI系统收集钻石依赖于使用人类游戏的视频或研究人员引导系统完成各个步骤。

相比之下,Dreamer通过强化学习的试错技术自行探索游戏的所有内容——它识别出可能带来奖励的动作,重复这些动作并放弃其他动作。

强化学习是一些重大AI进展的基础,但之前的程序都是专家型的——它们无法从零开始在新领域应用知识。


成功的关键是构建「世界模型」

Dreamer成功的关键在于它构建了周围环境的模型,并使用这个世界模型来「想象」未来的情景并指导决策。

就像我们自己的抽象思维一样,世界模型并不是周围环境的精确复制品。

世界模型允许Dreamer尝试不同的事情,「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。

这种能力还可能有助于创造能够在现实世界中学习互动的机器人——在现实世界中,试错的成本要比在视频游戏中高得多。

研究团队一开始并不是奔着「钻石测试」去研究的,测试Dreamer在钻石挑战上的表现是一个事后的想法。

「在构建整个算法时并没有考虑到这一点」,Hafner 说,但团队意识到,这是测试其算法是否能够开箱即用、处理不熟悉任务的理想方式。

在《我的世界》中,团队使用了一种协议,每当Dreamer完成钻石收集过程中涉及的12个逐步步骤之一时,就会获得一个「+1」的奖励——这些步骤包括制作木板和熔炉、开采铁矿并锻造铁镐。

这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏,这样Dreamer就不会适应某个特定的配置——而是学会了获得更多奖励的一般规则。

在这种设置下,Dreamer需要连续玩大约九天才能找到至少一颗钻石。

而高手玩家找到一颗钻石需要20到30分钟,新手则需要更长的时间。


在Minecraft中进行钻石挑战
游戏中的每一次都设定在一个独特的随机生成且无限的三维世界中。 每一次持续到玩家死亡或达到36,000步(相当于30分钟),根据MineRL竞赛提供的动作形成了一个分类动作空间,其中包括抽象的制作动作。

据DeepMind宣称,Dreamer是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。

所有的Dreamer智能体都在一亿次步骤内发现了钻石。所有物品的成功率显示在图右扩展数据中。

尽管其他几个强大的算法(例子中的PPO、Rainbow和IMPALA)进展到了诸如铁镐等高级物品,但没有一个发现钻石。

Dreamer算法核心原理

Dreamer算法的核心是学习一个世界模型。 这就像是智能体的大脑,让智能体具备丰富的感知能力,通过想象未来场景来规划行动。 算法由三个关键的神经网络组成:世界模型、评论家网络和行动者网络。 世界模型通过自动编码学习感官输入的表示,并通过预测潜在动作的未来表示和奖励来实现规划。 将世界模型实现为递归状态空间模型,如图所示。

评论家网络则对世界模型预测的每个结果进行价值判断,评估这个结果对实现目标的帮助有多大。

行动者网络根据评论家的判断,选择能达到最佳结果的行动。

这三个网络相互协作,在智能体与环境交互的过程中,通过重放经验同时进行训练。

在训练过程中,世界模型的学习至关重要。它要学习从感官输入中提取有用信息,还要预测未来的状态和奖励。

为实现这一目标,世界模型需要最小化预测损失、动态损失和表示损失。

预测损失用于训练解码器和奖励预测器,动态损失训练序列模型预测下一个表示,表示损失则让表示更具可预测性。

图中可视化了世界模型的长期视频预测。

实验结果

DeepMind团队在8个领域的150多个任务中评估Dreamer算法的通用性,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成。

图中展示了基准测试结果,Dreamer在所有测试中均有更好的表现。

在Atari基准测试中,它能在使用少量计算资源的情况下,超越MuZero算法,也优于Rainbow和IQN算法。

在ProcGen基准测试中,面对随机生成的关卡和视觉干扰,Dreamer算法在5000万帧的预算内,超过了经过调优的PPG和Rainbow算法。

在DMLab基准测试里,它在1亿帧训练后,性能超过了IMPALA和R2D2+智能体,数据效率大幅提升。

在Atari100k基准测试中,尽管训练预算仅为40万帧,Dreamer算法依然能超越其他方法。

在BSuite基准测试中,它同样表现出色,在尺度稳健性方面有很大改进。

研究人员进行了消融实验,结果表明,所有的稳健性技术都有助于提高算法性能。

研究人员还对Dreamer算法的缩放属性进行了研究。

他们训练了不同规模的模型,参数从12M到4M。结果发现,扩大模型规模不仅能提高任务性能,还能减少数据需求。

更多的梯度步数也能减少学习成功行为所需的交互次数。这表明Dreamer算法在计算资源增加时,能够稳健地提升性能,为实际应用提供了更灵活的选择。

这篇论文是关于训练一个单一算法,期望其能在多样化的强化学习任务中表现出色。

在《我的游戏》中寻找钻石也许仅仅通向AGI之路的第一关。

AI的下一个更大目标是《我的世界》玩家面临的终极挑战:击杀末影龙,这个虚拟世界中最可怕的生物。

参考资料:

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

https://www.nature.com/articles/s41586-025-08744-2

https://x.com/danijarh/status/1907511182598222095

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对台军售的远洋货轮抵达的时间越来越近了,终于到了见分晓的时候

对台军售的远洋货轮抵达的时间越来越近了,终于到了见分晓的时候

扶苏聊历史
2026-01-21 16:30:15
国际奥委会:当年北京奥运的标准太高了!但悉尼靠贿赂抢走主办权

国际奥委会:当年北京奥运的标准太高了!但悉尼靠贿赂抢走主办权

墨兰史书
2026-01-14 13:25:03
宁德9岁男童在托管期间坠入排污井身亡,涉事托管中心暂停营业,当地多方回应

宁德9岁男童在托管期间坠入排污井身亡,涉事托管中心暂停营业,当地多方回应

扬子晚报
2026-01-21 19:05:29
打球真干净!作为快船首发大中锋,祖巴茨已连续两场比赛0犯规

打球真干净!作为快船首发大中锋,祖巴茨已连续两场比赛0犯规

大眼瞄世界
2026-01-21 22:36:27
一头牛用扫帚挠痒!1万年来,全球首个牛熟练使用工具案例曝光

一头牛用扫帚挠痒!1万年来,全球首个牛熟练使用工具案例曝光

红星新闻
2026-01-21 13:05:10
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
9300 mAh!iPhone 17 Pro 新配件来了,售价 234 元

9300 mAh!iPhone 17 Pro 新配件来了,售价 234 元

全是技能
2026-01-21 16:40:38
《小城大事》杜涛赔了夫人又折兵,才知高春梅对李秋萍的算计最狠

《小城大事》杜涛赔了夫人又折兵,才知高春梅对李秋萍的算计最狠

感影的世界
2026-01-22 11:16:49
曼联报价百万求购左闸小妖,欲截胡切尔西!又一青训小将确定下家

曼联报价百万求购左闸小妖,欲截胡切尔西!又一青训小将确定下家

罗米的曼联博客
2026-01-22 09:59:29
北京老太住养女家20年,临终给养女2万的卡,养女取钱时却傻眼了

北京老太住养女家20年,临终给养女2万的卡,养女取钱时却傻眼了

牛魔王与芭蕉扇
2025-03-19 15:55:23
倒闭!常州知名大饭店全面停业!

倒闭!常州知名大饭店全面停业!

常州大喇叭
2026-01-21 17:14:30
剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

剪发、玩手机、拒交流!小玥儿这波“无声反抗”,狠狠打谁的脸?

阿废冷眼观察所
2025-12-29 03:51:04
出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

出身浙江豪门,前夫是上海顶级富豪,现仍在前夫集团担任高层领导

素衣读史
2026-01-19 15:12:16
王楚钦孙颖莎主管教练落实!王励勤为樊振东留好位子,蒯曼二选一

王楚钦孙颖莎主管教练落实!王励勤为樊振东留好位子,蒯曼二选一

十点街球体育
2026-01-22 00:05:03
毛主席时代的十大名牌,如今还有多少能买到?

毛主席时代的十大名牌,如今还有多少能买到?

珺瑶婉史
2026-01-20 19:25:03
“关注弟弟多一点,女儿可能会觉得偏心”男子尝试破解抑郁症去世的女儿手机密码:有执念,走时一句话都没留

“关注弟弟多一点,女儿可能会觉得偏心”男子尝试破解抑郁症去世的女儿手机密码:有执念,走时一句话都没留

观威海
2026-01-22 10:18:10
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
东吴比蜀汉多撑17年,为何连个像样的结局都拍不出来?

东吴比蜀汉多撑17年,为何连个像样的结局都拍不出来?

掠影后有感
2026-01-21 10:32:21
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
贾国龙适合办机关食堂

贾国龙适合办机关食堂

次元君情感
2026-01-22 04:03:48
2026-01-22 12:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14383文章数 66522关注度
往期回顾 全部

科技要闻

日系彩电时代“彻底落幕”

头条要闻

牛弹琴:特朗普大闹达沃斯 将欧洲同行骂了个狗血喷头

头条要闻

牛弹琴:特朗普大闹达沃斯 将欧洲同行骂了个狗血喷头

体育要闻

珍妮回应爆料:湖人不感激詹姆斯付出绝非事实

娱乐要闻

钟丽缇土耳其高空落泪 与张伦硕拥吻

财经要闻

申通快递创始人被前夫索要股份

汽车要闻

今年集中上市 旅行车的春天可能真要来了

态度原创

旅游
本地
游戏
时尚
公开课

旅游要闻

吕梁莲花池:冬日景致暖民心

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

预购《马拉松》自动下载《命运2》 官方回应:是bug

50+女性穿衣没头绪?教你3个显瘦还时髦的思路,照搬就好看

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版