网易首页 > 网易号 > 正文 申请入驻

DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖

0
分享至

新智元报道

编辑:定慧 英智

【新智元导读】谷歌DeepMind研发的DreamerV3实现重大突破:无需任何人类数据,通过强化学习与「世界模型」,自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步,并已登上Nature。

AI又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石!

在刚刚登上Nature的论文中,谷歌DeepMind的智能体通过纯·自我学习,顺利完成了收集钻石的任务。

论文链接:https://www.nature.com/articles/s41586-025-08744-2

对此,DeepMind的计算机科学家Danijar Hafner表示:「Dreamer是一个重要的里程碑,标志着AI又朝着通用人工智能前进了一大步。」

又是AI和《我的世界》,为何这次就成了迈向AGI的一大步

用AI来挑战《我的世界》早已是AI界「喜闻乐见」的项目了。

作为世界上排名第一且月活超过1亿的游戏,《我的世界》可以说是涵盖了几乎所有年龄段的人群。

早在两三年前,包括OpenAI在内的各个模型都有挑战《我的世界》的尝试。

更早在2019年,研究人员就认为《我的世界》的开放式游戏环境可能非常适合AI研究。

比如一个七岁的小孩在观看了10分钟演示视频后就能学会如何在游戏中找到稀有的钻石,而当年的AI还远远做不到这一点。

AI从《我的世界》中的一个随机位置开始,必须完成某些任务来找到钻石

为何这次DeepMind就敢说是「通向AGI的一大步」呢?

这次的任务——在游戏内寻找钻石——听起来容易,但其实非常困难,「高玩」们也要花20-30分钟才能找到一个钻石。

给不熟悉游戏的朋友解释下这个任务为什么这么困难:

1. 每一次的游戏场景都是随机世界,包含各种地形的虚拟 3D 世界,包括森林、山脉、沙漠和沼泽,这让AI无法只记住一种特定策略来作弊;

2. 想要获得钻石需要经过一系列复杂的前置流程,并不是随机在地图寻找,比如你需要:

  • 先找到树木

  • 然后将树木分解为木材,木材也仅仅是用来制作一个工作台

  • 有了工作台再加上更多的木材你才可以制作一个木头镐头

  • 然后才能开始挖掘以寻找钻石


钻石恒久远,AI不疲倦
AI研究人员专注于在《我的世界》中寻找钻石,Hafner说因为这需要一系列复杂的步骤,是一个很长的里程碑链条,因此它需要非常深入的探索。

DeepMind的Dreamer AI在《我的世界》中进行了多次游戏学习如何收集钻石

之前的尝试让AI系统收集钻石依赖于使用人类游戏的视频或研究人员引导系统完成各个步骤。

相比之下,Dreamer通过强化学习的试错技术自行探索游戏的所有内容——它识别出可能带来奖励的动作,重复这些动作并放弃其他动作。

强化学习是一些重大AI进展的基础,但之前的程序都是专家型的——它们无法从零开始在新领域应用知识。


成功的关键是构建「世界模型」

Dreamer成功的关键在于它构建了周围环境的模型,并使用这个世界模型来「想象」未来的情景并指导决策。

就像我们自己的抽象思维一样,世界模型并不是周围环境的精确复制品。

世界模型允许Dreamer尝试不同的事情,「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。

这种能力还可能有助于创造能够在现实世界中学习互动的机器人——在现实世界中,试错的成本要比在视频游戏中高得多。

研究团队一开始并不是奔着「钻石测试」去研究的,测试Dreamer在钻石挑战上的表现是一个事后的想法。

「在构建整个算法时并没有考虑到这一点」,Hafner 说,但团队意识到,这是测试其算法是否能够开箱即用、处理不熟悉任务的理想方式。

在《我的世界》中,团队使用了一种协议,每当Dreamer完成钻石收集过程中涉及的12个逐步步骤之一时,就会获得一个「+1」的奖励——这些步骤包括制作木板和熔炉、开采铁矿并锻造铁镐。

这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏,这样Dreamer就不会适应某个特定的配置——而是学会了获得更多奖励的一般规则。

在这种设置下,Dreamer需要连续玩大约九天才能找到至少一颗钻石。

而高手玩家找到一颗钻石需要20到30分钟,新手则需要更长的时间。


在Minecraft中进行钻石挑战
游戏中的每一次都设定在一个独特的随机生成且无限的三维世界中。 每一次持续到玩家死亡或达到36,000步(相当于30分钟),根据MineRL竞赛提供的动作形成了一个分类动作空间,其中包括抽象的制作动作。

据DeepMind宣称,Dreamer是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。

所有的Dreamer智能体都在一亿次步骤内发现了钻石。所有物品的成功率显示在图右扩展数据中。

尽管其他几个强大的算法(例子中的PPO、Rainbow和IMPALA)进展到了诸如铁镐等高级物品,但没有一个发现钻石。

Dreamer算法核心原理

Dreamer算法的核心是学习一个世界模型。 这就像是智能体的大脑,让智能体具备丰富的感知能力,通过想象未来场景来规划行动。 算法由三个关键的神经网络组成:世界模型、评论家网络和行动者网络。 世界模型通过自动编码学习感官输入的表示,并通过预测潜在动作的未来表示和奖励来实现规划。 将世界模型实现为递归状态空间模型,如图所示。

评论家网络则对世界模型预测的每个结果进行价值判断,评估这个结果对实现目标的帮助有多大。

行动者网络根据评论家的判断,选择能达到最佳结果的行动。

这三个网络相互协作,在智能体与环境交互的过程中,通过重放经验同时进行训练。

在训练过程中,世界模型的学习至关重要。它要学习从感官输入中提取有用信息,还要预测未来的状态和奖励。

为实现这一目标,世界模型需要最小化预测损失、动态损失和表示损失。

预测损失用于训练解码器和奖励预测器,动态损失训练序列模型预测下一个表示,表示损失则让表示更具可预测性。

图中可视化了世界模型的长期视频预测。

实验结果

DeepMind团队在8个领域的150多个任务中评估Dreamer算法的通用性,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成。

图中展示了基准测试结果,Dreamer在所有测试中均有更好的表现。

在Atari基准测试中,它能在使用少量计算资源的情况下,超越MuZero算法,也优于Rainbow和IQN算法。

在ProcGen基准测试中,面对随机生成的关卡和视觉干扰,Dreamer算法在5000万帧的预算内,超过了经过调优的PPG和Rainbow算法。

在DMLab基准测试里,它在1亿帧训练后,性能超过了IMPALA和R2D2+智能体,数据效率大幅提升。

在Atari100k基准测试中,尽管训练预算仅为40万帧,Dreamer算法依然能超越其他方法。

在BSuite基准测试中,它同样表现出色,在尺度稳健性方面有很大改进。

研究人员进行了消融实验,结果表明,所有的稳健性技术都有助于提高算法性能。

研究人员还对Dreamer算法的缩放属性进行了研究。

他们训练了不同规模的模型,参数从12M到4M。结果发现,扩大模型规模不仅能提高任务性能,还能减少数据需求。

更多的梯度步数也能减少学习成功行为所需的交互次数。这表明Dreamer算法在计算资源增加时,能够稳健地提升性能,为实际应用提供了更灵活的选择。

这篇论文是关于训练一个单一算法,期望其能在多样化的强化学习任务中表现出色。

在《我的游戏》中寻找钻石也许仅仅通向AGI之路的第一关。

AI的下一个更大目标是《我的世界》玩家面临的终极挑战:击杀末影龙,这个虚拟世界中最可怕的生物。

参考资料:

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

https://www.nature.com/articles/s41586-025-08744-2

https://x.com/danijarh/status/1907511182598222095

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
医保大变革!4月1日执行,取消备案、全家共济、药店可报销

医保大变革!4月1日执行,取消备案、全家共济、药店可报销

复转这些年
2026-03-26 09:27:58
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

张本智和回击中国网友:我是自愿加入日本籍的,凭啥让我滚出四川?哭诉:那是我老家

乒乓网国球汇
2026-03-27 00:03:40
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

郭正亮直播突发脸歪嘴斜,连夜就医引全网担忧:别像张雪峰那样拼

行者聊官
2026-03-26 11:56:25
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

宋喆出狱后现状:县城搬菜月入三千,前妻杨慧横店开公司年入千万

一盅情怀
2026-03-26 14:47:59
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
2026-03-27 03:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
游戏
数码
亲子
军事航空

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版