网易首页 > 网易号 > 正文 申请入驻

2000亿次开放学习后,DeepMind的智能体成精了

0
分享至

有这样一批智能体,在完全没有见过的游戏任务里,也学会了游刃有余地解决目标。

譬如面对下面这样一个高地,它们要取到上面的紫色金字塔。

没有跳跃功能的它们,看似开始“焦躁”地乱扔起东西来,实则其中一块板子正好被“扔”成了楼梯,这不就巧了,目标完成!

你可能会说这只是“瞎猫撞死耗子”罢了,但多次实验发现,该智能体可以复现该方法的!

而且它还会不止一种方法,“我不上去,你下来”——直接借助板子把目标扒拉下来了!

这也行?

而这些成精了的智能体来自DeepMind

现在,为了让AI更加多才多艺、举一反三,他们专门给智能体打造了一个包含了数十亿游戏任务的“元宇宙”XLand:让智能体在不断扩展、升级的开放世界中通过上亿次的训练练就了不俗的泛化能力

最终效果就像前面看到的,无需在新游戏中从头训练,它们就能自主解决任务!

DeepMind也因此发表了一篇论文,就叫做:《从开放学习走出来的通用智能体》。

如何做到的呢?

“元宇宙”XLand

最功不可没之一的就是这个庞大的“元宇宙”模拟空间。

这是一个“游戏星系”,里面有无数个“游戏星球”,每个星球上的游戏按竞争性、平衡性、可选项、探索难度四个维度进行区分。

比如图左上介绍的“抢方块”游戏:蓝色智能体需要把黄色的立方体放到白色区域,红色智能体需要把同一个立方体放在蓝色区域。

啊想想就头大,所以这个游戏的竞争性值都拉满了,而由于双方的条件/目标都一样,所以平衡性值也很高,因为需要定位目标区域,所以探索难度并不小

再比如图右上的“将球体和立方体配对”:蓝色/红色智能体要将几何体按颜色归类到一起,完成任意一组配对就行。这个游戏的可选性值就拉满了,但竞争性就没那么强。

ps.蓝色游戏代表是完全竞争性的,粉色为完全合作性的。

不管是哪种游戏任务,这批智能体都从最简单的开始(比如仅“靠近紫色立方体”这种),一步步解锁复杂度升级的游戏(比如和另一个智能体“捉迷藏”),其中每一项游戏都有奖励,智能体们的目标就是将拿到的奖励最大化。

而智能体“玩家”们是通过阅读收到的目标的文字描述、观察RGB图像来感知周围环境来完成任务。

生成的新任务要基于旧任务,且难度要刚刚好

除了上面这个开放式的学习环境,训练方法也很重要。

研究人员使用的神经网络训练架构提供了一种针对智能体内部循环状态的注意力机制——通过估计所玩游戏的子目标,来持续引导智能体的注意力。

这种策略让智能体学习到更具普遍能力的策略。

还有一个问题:如此广阔的游戏环境,什么样的游戏任务分布能产出最善于泛化的智能体呢?

研究人员通过持续调整每个智能体的游戏分布发现,每个新任务都要基于通关的旧任务生成,不能太难,也不能太容易。

这个也基本符合一般认知。

它们先经历了四次迭代:

每个任务由多个智能体参与竞争,在旧任务上适应得好的智能体,会带着权重、瞬时任务分布、超参数等参与到新一轮任务中继续学习。此时也会加入新的智能体让竞争“活”起来。

智能体表现出明显的零样本学习能力

最后生成的第五代智能体,在XLand 4000多个“星球”里玩了大约70万个游戏,每一个智能体都经历了2000亿次训练,完成了340万个独特任务。

到了这个时候,这些智能体已经能够顺利完成每一项评估任务(除了少数即使是人类也不可能完成的)。

整个实验也最终表明,通过开发像XLand这样的环境和这样开放式的练方法,一些基于RL的智能体已表现出明显的零样本学习能力(0-shot)。

比如使用工具、打拦(ridge-fencing)、“捉迷藏”、找立方体、数数、合作或竞争等。

研究人员也观察到智能体们面对新任务时不知道“什么是最好的解决办法”,但它们会不断地试验直到达到目标。

这个过程中出现的有趣的”紧急启发式行为”,除了开头提到的搭梯子,还有这个临时更换更简易目标的例子——

在一个游戏中该智能体需要从3个目标中任选一个完成:

1、将黑色金字塔放到黄色球体旁边;
2、将紫色球体放到黄色金字塔旁边;
3、将黑色金字塔放到橙色区域。

它一开始找到了一个黑色金字塔,想去完成目标3,但在搬运过程中看到了黄色球体,于是它就在1秒内改变了主意,选择直接将金字塔放在黄色球体旁边完成目标1。(整个过程一共耗时6秒)

最后,看完了DeepMind的研究,再抛给大家一个问题:我们离真正的通用人工智能还有多远?

(ps.你发现了吗,文章最开头高台取金字塔任务中的小红智障体就不行,一直打转,面对小蓝搭好的梯子甚至直接毁掉)

论文地址:
https://arxiv.org/abs/2107.12808

https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太阳逆转森林狼!布克13+3唐斯遇麻烦,华子拉胯,杜兰特防守立功

太阳逆转森林狼!布克13+3唐斯遇麻烦,华子拉胯,杜兰特防守立功

鱼崖大话篮球
2024-04-24 09:00:13
雨҉雨҉雨҉!新一轮强降水今晚到!25日最强!五一假期广东天气将……

雨҉雨҉雨҉!新一轮强降水今晚到!25日最强!五一假期广东天气将……

佛山电视台小强热线
2024-04-24 20:52:22
揭秘男催乳师:从业两年买房,高薪还能接触女客户,网友坐不住了

揭秘男催乳师:从业两年买房,高薪还能接触女客户,网友坐不住了

夜读史料录
2024-01-06 21:37:07
马斯克评氢能源车:100度电生产氢气能跑200公里,电车跑600公里

马斯克评氢能源车:100度电生产氢气能跑200公里,电车跑600公里

杂谈哥闲谈
2024-04-15 16:42:46
马斯克被前员工吐槽为鸽子CEO:来了拉完屎就走 曾向特斯拉股东要求25%控制权,否则单干【附特斯拉企业分析】

马斯克被前员工吐槽为鸽子CEO:来了拉完屎就走 曾向特斯拉股东要求25%控制权,否则单干【附特斯拉企业分析】

前瞻网
2024-04-24 09:07:11
好痛的领悟!打板追涨停已吃16个跌停,长了记性,放我出去吧!

好痛的领悟!打板追涨停已吃16个跌停,长了记性,放我出去吧!

资本百科
2024-04-24 14:50:18
宁波女孩带2000穷游西藏失踪十年,变成墨脱无人区的“隐秘莲花”

宁波女孩带2000穷游西藏失踪十年,变成墨脱无人区的“隐秘莲花”

冬天来旅游
2024-04-23 09:07:19
哈里王子请西藏高僧与母亲戴安娜王妃通灵,真凶竟是王室成员

哈里王子请西藏高僧与母亲戴安娜王妃通灵,真凶竟是王室成员

真实故事汇
2024-04-02 15:49:31
4月24日冲突事件引爆四川巴中:多名身着制服工作人员与卖菜老人

4月24日冲突事件引爆四川巴中:多名身着制服工作人员与卖菜老人

鬼菜生活
2024-04-25 01:49:09
被上海奶奶圈粉了!坚决不穿老年装,裙不配运动鞋,美得优雅得体

被上海奶奶圈粉了!坚决不穿老年装,裙不配运动鞋,美得优雅得体

时尚穿搭生活馆
2024-04-06 23:07:27
又有男星被曝出轨!愿净身出户与前任复合,陈晓赵丽颖往事被扒出

又有男星被曝出轨!愿净身出户与前任复合,陈晓赵丽颖往事被扒出

叶二娱评
2024-04-24 16:59:33
深夜,突发“爆雷”!

深夜,突发“爆雷”!

中国基金报
2024-04-23 23:16:14
G3新疆83-105不敌广州,发布会邱彪说了什么?回应赵睿吴冠希伤势

G3新疆83-105不敌广州,发布会邱彪说了什么?回应赵睿吴冠希伤势

篮球资讯达人
2024-04-25 01:57:15
4:1!姆巴佩大杀四方:天秀助攻+独造3球,书写3大纪录+欧洲第一

4:1!姆巴佩大杀四方:天秀助攻+独造3球,书写3大纪录+欧洲第一

阿超他的体育圈
2024-04-25 03:43:52
重要里程碑!SpaceX完成猎鹰火箭第300次着陆回收,马斯克:保持其每年50%的增速【附运载火箭行业市场现状分析】

重要里程碑!SpaceX完成猎鹰火箭第300次着陆回收,马斯克:保持其每年50%的增速【附运载火箭行业市场现状分析】

前瞻网
2024-04-24 11:46:11
最强女海王!河南已婚女子同时交13名男友,颜值照曝光,网友:确实长得美……

最强女海王!河南已婚女子同时交13名男友,颜值照曝光,网友:确实长得美……

鱼乐星鲜事
2024-04-08 20:38:06
没戏了!华为小米的订单被“代工巨头”拿走,郭台铭:这很不公平

没戏了!华为小米的订单被“代工巨头”拿走,郭台铭:这很不公平

高山非凡创作
2024-04-23 17:23:55
CBA季后赛大冷门,新疆男篮挖错人,邱彪21个前场篮板球都赢不了

CBA季后赛大冷门,新疆男篮挖错人,邱彪21个前场篮板球都赢不了

极度说球
2024-04-24 23:50:58
周琦遭严惩又收坏消息!广厦官微深夜硬刚,辽媒带节奏,杜锋上火

周琦遭严惩又收坏消息!广厦官微深夜硬刚,辽媒带节奏,杜锋上火

邮轮摄影师阿嗵
2024-04-24 15:54:41
发生关系,多久一次最舒服?

发生关系,多久一次最舒服?

匡北北
2023-12-15 23:56:59
2024-04-25 04:22:44
量子位
量子位
追踪人工智能动态
9317文章数 175240关注度
往期回顾 全部

科技要闻

特斯拉被爆大量毁约应届生 友商"在线抢人"

头条要闻

美总统拜登签署剥离法案 TikTok发声明反对

头条要闻

美总统拜登签署剥离法案 TikTok发声明反对

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

财经要闻

居民气价确实在涨,多地正普遍发生

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

房产
家居
教育
数码
公开课

房产要闻

大手笔收购!华润入局三亚城市更新!

家居要闻

光影之间 空间暖意打造生活律动

教育要闻

中考典型题解析·不难但关键·你会做吗?

数码要闻

苹果5月7日发布会邀请函: 全新iPad Pro 2024将亮相

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版