网易首页 > 网易号 > 正文 申请入驻

杀疯了!通过游戏“元宇宙”,Deepmind让AI学会玩各种没玩过的游戏,骚操作不断

0
分享至

大数据文摘出品

对于AI来说,完成一个单一任务或许相对简单,但是涉及到合作和博弈时,AI往往显得有些愚蠢。

AI研究机构一直致力于通过一些涉及到合作和博弈的游戏来开发AI在这方面的能力。

早在2019年,文摘菌就报道过,。

近期,Deepmind将这方面的研究又向前推进了一步。

根据7月27日Deepmind官方博客的介绍,Deepmind最新的AI智能体可以在没有玩过一款游戏的时候,而这一切的背后居然是Deepmind搭建的一款游戏“元宇宙”

我们来看看怎么回事。

为了驾驭各种小游戏,Deepmind的AI骚操作不断

论文总是枯燥的,所以文摘菌先带大家看一看Deepmind的演示,看看这些AI在没玩过这些游戏的情况下,是如何通过各种骚操作赢的游戏的

先来一个OpenAI之前探索过的捉迷藏游戏,下面这张图中正在追赶的是蓝色的AI小人,左上角是它的第一视角,而躲藏的是红色AI小人。

为了躲避蓝色小人的追捕,红色小人果断进入了一个从未探索果过的陌生地域,还顺手将一块板子横在身后。要注意的是,双方AI都没有玩过这款游戏。

不过,蓝色AI小人也不是吃素的,在另一个地图上,蓝色AI小人丢失了自己的目标,但是他结合地形发现了更好的追捕方法——登上制高点。最终,红色AI小人被抓到了。

上面是一款博弈的游戏,下面我们来看一款相互合作的游戏。游戏的目标很简单,两个AI只要有一个到达一个高台上的紫色塔尖就行,于是当其中一个AI成功将一款板子搭到了高台上,任务便成功完成了。

不过这远没有结束,目标是接触到塔尖,而不是非得爬上去,所以AI又成功发现了另一个更简单的方法,直接用一款板子将紫色塔尖砸下来不久行了。

下一个游戏也是合作类的,目标是阻止紫色的球滚落到红色的地面。这次游戏两个AI一共探索了三种方法,第一种是用自己的身体挡住小球,显然,这个方法比较低效;

第二种方法是借助两侧的墙面,将小球挤到墙角不动就行;

最后,AI发现了一个最简单的方法,直接将小球放到一块板子上,小球不就永远不会跟地板接触了,nice~

最后再来看一个登顶小游戏,两个AI比赛,成功站立在白色高台上的获胜,首先是蓝色AI小人先找到了白色高台并且登了上去,在它以为自己已经获胜的时候,红色AI小人直接过来,将蓝色AI小人干掉,自己留在了白色高台上。

上面几款游戏都是AI从未玩过的,但显然AI在接触一会之后,都会成功找到获胜的方法,这中间有的是依靠合作,有的则需要博弈。

Deepmind的这个成就让大家似乎见到了通用人工智能的曙光,也许在人类看来这些AI或许还很笨,但是最起码,他们不再每玩一个游戏就要训练上亿次了。

这一切,都要归功于Deepmind打造的游戏“元宇宙”。

为了让AI智能体学会举一反三,Deepmind打造包含数十亿任务的游戏“元宇宙”

为了达到轻易上手各种游戏的效果,Deepmind为这些AI智能体打造了一个包含数十亿游戏任务的“元宇宙”,名为XLand。

在这个游戏“元宇宙”中,无数的“游戏星球”组成了“游戏星系”,每个星球上的游戏按竞争性、平衡性、可选则性、探索难度四个纬度进行区分。

比如左上角那个例子,游戏双方需要将小球赶到自己的区域才算获胜,“不是你死就是我亡”,一点合作的机会都没有,所以它的竞争性指标直接被拉满了。

而右上角那个游戏,则是要求将几何体按颜色归类到一起,多个智能体合作完成任意一组配对就可以,所以竞争性很低,但是可选择性很强。

在学习的过程中,Deepmind让这些智能体AI由易到难开始学习,不断补齐在竞争性、平衡性、可选则性、探索难度这是个方面的短板,每成功解锁一个游戏,AI都会获得奖励,从而一步一步变成游戏大师。

除了由易到难的训练顺序,Deepmind的研究人员的训练方法也很符合人类的习惯,通过估计游戏的子目标,要想达到胜利,需要先完成什么,后完成什么,这样一步步持续引导智能体的注意力。

同时,为了让智能体更加多才多艺,获得更加泛化的能力,研究人员设定在学习时,每个新任务都要基于通关的旧任务生成,保持学习的连续性。

最终,通过四次迭代,产生出的第五代就可以更好的适合各种环境,各种合作和博弈任务。最后的第五代智能体在XLand 4000多个“星球”中共玩了70万个游戏,经历了2000亿次训练,完成了340万个独特任务。

这样的开放式训练让一些基于强化学习的智能体甚至可以达到零样本学习。

这种面对任务一看就会的AI,离我们心里的通用人工智能还有多远?

论文链接:

https://storage.googleapis.com/deepmind-media/papers/Open-Ended%20Learning%20Leads%20to%20Generally%20Capable%20Agents/open-ended-learning-paper.pdf

https://deepmind.com/research/publications/2021/open-ended-learning-leads-to-generally-capable-agents

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
解放:马步芳以为八万骑兵无敌,彭总近百挺机枪出击,时代变了

解放:马步芳以为八万骑兵无敌,彭总近百挺机枪出击,时代变了

王嚾晓
2026-02-23 18:01:59
“不合理不透明!”沪上新能源车充电,遭遇“三重收费”!市民直呼“太离谱”

“不合理不透明!”沪上新能源车充电,遭遇“三重收费”!市民直呼“太离谱”

新民晚报
2026-02-24 19:05:37
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

浔阳咸鱼
2026-02-23 08:40:09
撒贝宁一家回武汉,不住家住酒店,父亲独居,母亲是他一生的遗憾

撒贝宁一家回武汉,不住家住酒店,父亲独居,母亲是他一生的遗憾

相思赋予谁a
2026-02-24 17:29:20
成都一小区晚上发生火灾,街道办:2人轻伤,原因正调查

成都一小区晚上发生火灾,街道办:2人轻伤,原因正调查

极目新闻
2026-02-24 15:48:30
光通信+通信设备,公司深度绑定英伟达,布局3.2T CPO产品

光通信+通信设备,公司深度绑定英伟达,布局3.2T CPO产品

巨丰财经
2026-02-24 17:09:28
摊手也能传染?NBA名嘴:东契奇的雕像应该是他抱怨裁判的样子

摊手也能传染?NBA名嘴:东契奇的雕像应该是他抱怨裁判的样子

爱体育
2026-02-25 00:01:58
英超 1 亿王牌铁心跑路,红军曼联皇马疯抢,谁能笑到最后?

英超 1 亿王牌铁心跑路,红军曼联皇马疯抢,谁能笑到最后?

奶盖熊本熊
2026-02-25 05:41:37
同仁堂:“同仁堂”品牌所有人为同仁堂集团,本公司及部分子公司获同仁堂集团许可使用“同仁堂”商标和字号

同仁堂:“同仁堂”品牌所有人为同仁堂集团,本公司及部分子公司获同仁堂集团许可使用“同仁堂”商标和字号

每日经济新闻
2026-02-24 23:35:07
男子花5600元套中汽车:老板当场翻脸,要30万押金,被扒底朝天

男子花5600元套中汽车:老板当场翻脸,要30万押金,被扒底朝天

奇思妙想草叶君
2026-02-24 20:42:14
商竣程惨败被吐槽WTA勇闯ATP的即视感,深度分析其当下技术困境

商竣程惨败被吐槽WTA勇闯ATP的即视感,深度分析其当下技术困境

网球之家
2026-02-24 22:28:32
冠名费缩水7000万!中超赞助商没信心,为保品牌价值连续3年换名

冠名费缩水7000万!中超赞助商没信心,为保品牌价值连续3年换名

篮球看比赛
2026-02-24 15:52:50
三观不正!张本智和刚赢下国乒克星 目标大满贯,满屏中文加油

三观不正!张本智和刚赢下国乒克星 目标大满贯,满屏中文加油

越岭寻踪
2026-02-24 04:33:53
美国华人:华人精英移民到美国之后,不出两代基本上都成为普通人

美国华人:华人精英移民到美国之后,不出两代基本上都成为普通人

南权先生
2026-02-24 15:59:57
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
在岸人民币兑美元较上个交易日夜盘收盘涨220点

在岸人民币兑美元较上个交易日夜盘收盘涨220点

财联社
2026-02-25 03:12:15
微信显示一条横杠,证明已经不是对方好友了

微信显示一条横杠,证明已经不是对方好友了

匹夫来搞笑
2026-02-23 15:23:30
国务院825号令正式施行,乱查车乱罚款全面规范,道路出行更保障

国务院825号令正式施行,乱查车乱罚款全面规范,道路出行更保障

白浅娱乐聊
2026-02-25 04:35:42
英伟达苹果赴韩“抢人”,韩企人才保卫战打响?

英伟达苹果赴韩“抢人”,韩企人才保卫战打响?

IT之家
2026-02-24 18:09:10
同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

同样煮饺子,“盖盖煮”和“不盖盖煮”区别大,难怪煮出来不一样

阿龙美食记
2026-02-23 17:00:18
2026-02-25 06:07:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6828文章数 94531关注度
往期回顾 全部

游戏要闻

《死亡搁浅2》PC版配置需求公开!最低GTX1660畅玩

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

头条要闻

男子搂住继女强吻动作亲密 当地妇联介入

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

科技要闻

宇树科技发布四足机器人Unitree As2

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

本地
房产
艺术
数码
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

330万人涌入!春节全国楼市,第一个卖爆的区域出现了!

艺术要闻

高剑父写梅,笔走龙蛇

数码要闻

《死亡搁浅2》PC版推荐配置RTX 3060可FHD 60帧,Steam国区298元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版