DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖|算法|谷歌|游戏|人工智能|虚幻引擎|知名企业|deepmind

DeepMind闭关修炼「我的世界」，自学成才挖钻登Nature！人类玩家瑟瑟发抖

2025-04-03 13:24:37　来源: 新智元

北京举报

分享至

新智元报道

编辑：定慧英智

【新智元导读】谷歌DeepMind研发的DreamerV3实现重大突破：无需任何人类数据，通过强化学习与「世界模型」，自主完成《我的世界》中极具挑战的钻石收集任务。该成果被视为通往AGI的一大步，并已登上Nature。

AI又进化了，在没有任何人类数据的参与下，自己玩《我的世界》还能找到钻石！

在刚刚登上Nature的论文中，谷歌DeepMind的智能体通过纯·自我学习，顺利完成了收集钻石的任务。

论文链接：https://www.nature.com/articles/s41586-025-08744-2

对此，DeepMind的计算机科学家Danijar Hafner表示：「Dreamer是一个重要的里程碑，标志着AI又朝着通用人工智能前进了一大步。」

又是AI和《我的世界》，为何这次就成了迈向AGI的一大步

用AI来挑战《我的世界》早已是AI界「喜闻乐见」的项目了。

作为世界上排名第一且月活超过1亿的游戏，《我的世界》可以说是涵盖了几乎所有年龄段的人群。

早在两三年前，包括OpenAI在内的各个模型都有挑战《我的世界》的尝试。

更早在2019年，研究人员就认为《我的世界》的开放式游戏环境可能非常适合AI研究。

比如一个七岁的小孩在观看了10分钟演示视频后就能学会如何在游戏中找到稀有的钻石，而当年的AI还远远做不到这一点。

AI从《我的世界》中的一个随机位置开始，必须完成某些任务来找到钻石

为何这次DeepMind就敢说是「通向AGI的一大步」呢？

这次的任务——在游戏内寻找钻石——听起来容易，但其实非常困难，「高玩」们也要花20-30分钟才能找到一个钻石。

给不熟悉游戏的朋友解释下这个任务为什么这么困难：

1. 每一次的游戏场景都是随机世界，包含各种地形的虚拟 3D 世界，包括森林、山脉、沙漠和沼泽，这让AI无法只记住一种特定策略来作弊；

2. 想要获得钻石需要经过一系列复杂的前置流程，并不是随机在地图寻找，比如你需要：

先找到树木
然后将树木分解为木材，木材也仅仅是用来制作一个工作台
有了工作台再加上更多的木材你才可以制作一个木头镐头
然后才能开始挖掘以寻找钻石

钻石恒久远，AI不疲倦
AI研究人员专注于在《我的世界》中寻找钻石，Hafner说因为这需要一系列复杂的步骤，是一个很长的里程碑链条，因此它需要非常深入的探索。

DeepMind的Dreamer AI在《我的世界》中进行了多次游戏学习如何收集钻石

之前的尝试让AI系统收集钻石依赖于使用人类游戏的视频或研究人员引导系统完成各个步骤。

相比之下，Dreamer通过强化学习的试错技术自行探索游戏的所有内容——它识别出可能带来奖励的动作，重复这些动作并放弃其他动作。

强化学习是一些重大AI进展的基础，但之前的程序都是专家型的——它们无法从零开始在新领域应用知识。

成功的关键是构建「世界模型」

Dreamer成功的关键在于它构建了周围环境的模型，并使用这个世界模型来「想象」未来的情景并指导决策。

就像我们自己的抽象思维一样，世界模型并不是周围环境的精确复制品。

世界模型允许Dreamer尝试不同的事情，「世界模型真正赋予了人工智能系统想象未来的能力」Hafner 说。

这种能力还可能有助于创造能够在现实世界中学习互动的机器人——在现实世界中，试错的成本要比在视频游戏中高得多。

研究团队一开始并不是奔着「钻石测试」去研究的，测试Dreamer在钻石挑战上的表现是一个事后的想法。

「在构建整个算法时并没有考虑到这一点」，Hafner 说，但团队意识到，这是测试其算法是否能够开箱即用、处理不熟悉任务的理想方式。

在《我的世界》中，团队使用了一种协议，每当Dreamer完成钻石收集过程中涉及的12个逐步步骤之一时，就会获得一个「+1」的奖励——这些步骤包括制作木板和熔炉、开采铁矿并锻造铁镐。

这些中间奖励促使 Dreamer 选择了更有可能获得钻石的动作。团队每 30 分钟重置一次游戏，这样Dreamer就不会适应某个特定的配置——而是学会了获得更多奖励的一般规则。

在这种设置下，Dreamer需要连续玩大约九天才能找到至少一颗钻石。

而高手玩家找到一颗钻石需要20到30分钟，新手则需要更长的时间。

在Minecraft中进行钻石挑战
游戏中的每一次都设定在一个独特的随机生成且无限的三维世界中。每一次持续到玩家死亡或达到36,000步（相当于30分钟），根据MineRL竞赛提供的动作形成了一个分类动作空间，其中包括抽象的制作动作。

据DeepMind宣称，Dreamer是第一个在不使用人类数据的情况下从零开始在《我的世界》中收集钻石的算法。

所有的Dreamer智能体都在一亿次步骤内发现了钻石。所有物品的成功率显示在图右扩展数据中。

尽管其他几个强大的算法（例子中的PPO、Rainbow和IMPALA）进展到了诸如铁镐等高级物品，但没有一个发现钻石。

Dreamer算法核心原理

Dreamer算法的核心是学习一个世界模型。这就像是智能体的大脑，让智能体具备丰富的感知能力，通过想象未来场景来规划行动。算法由三个关键的神经网络组成：世界模型、评论家网络和行动者网络。世界模型通过自动编码学习感官输入的表示，并通过预测潜在动作的未来表示和奖励来实现规划。将世界模型实现为递归状态空间模型，如图所示。

评论家网络则对世界模型预测的每个结果进行价值判断，评估这个结果对实现目标的帮助有多大。

行动者网络根据评论家的判断，选择能达到最佳结果的行动。

这三个网络相互协作，在智能体与环境交互的过程中，通过重放经验同时进行训练。

在训练过程中，世界模型的学习至关重要。它要学习从感官输入中提取有用信息，还要预测未来的状态和奖励。

为实现这一目标，世界模型需要最小化预测损失、动态损失和表示损失。

预测损失用于训练解码器和奖励预测器，动态损失训练序列模型预测下一个表示，表示损失则让表示更具可预测性。

图中可视化了世界模型的长期视频预测。

实验结果

DeepMind团队在8个领域的150多个任务中评估Dreamer算法的通用性，包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励尺度、二维和三维世界以及程序生成。

图中展示了基准测试结果，Dreamer在所有测试中均有更好的表现。

在Atari基准测试中，它能在使用少量计算资源的情况下，超越MuZero算法，也优于Rainbow和IQN算法。

在ProcGen基准测试中，面对随机生成的关卡和视觉干扰，Dreamer算法在5000万帧的预算内，超过了经过调优的PPG和Rainbow算法。

在DMLab基准测试里，它在1亿帧训练后，性能超过了IMPALA和R2D2+智能体，数据效率大幅提升。

在Atari100k基准测试中，尽管训练预算仅为40万帧，Dreamer算法依然能超越其他方法。

在BSuite基准测试中，它同样表现出色，在尺度稳健性方面有很大改进。

研究人员进行了消融实验，结果表明，所有的稳健性技术都有助于提高算法性能。

研究人员还对Dreamer算法的缩放属性进行了研究。

他们训练了不同规模的模型，参数从12M到4M。结果发现，扩大模型规模不仅能提高任务性能，还能减少数据需求。

更多的梯度步数也能减少学习成功行为所需的交互次数。这表明Dreamer算法在计算资源增加时，能够稳健地提升性能，为实际应用提供了更灵活的选择。

这篇论文是关于训练一个单一算法，期望其能在多样化的强化学习任务中表现出色。

在《我的游戏》中寻找钻石也许仅仅通向AGI之路的第一关。

AI的下一个更大目标是《我的世界》玩家面临的终极挑战：击杀末影龙，这个虚拟世界中最可怕的生物。

参考资料：

https://www.nature.com/articles/d41586-025-01019-w#ref-CR1

https://www.nature.com/articles/s41586-025-08744-2

https://x.com/danijarh/status/1907511182598222095

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.