网易首页 > 网易号 > 正文 申请入驻

狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下

0
分享至

机器之心报道

编辑:大盘鸡

AI 的宝可梦之旅。

是不是说起「口袋妖怪」,你就不困了?

「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今,它可以被分为数个世代,成为很多玩家心中的经典之作。游戏画风简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。

如果训练 AI 来玩宝可梦,你觉得它的实力如何?

推特用户 @computerender 用强化学习训练 AI 玩起了宝可梦。他也通过视频记录了这一过程,不仅生动地展示了训练过程,还详尽地介绍了其中的方法。

  • 项目地址:https://github.com/PWhiddy/PokemonRedExperiments
  • 视频地址:https://www.youtube.com/watch?v=DcYLT37ImBY

当你打开视频,就能观看两万场 AI 玩的《宝可梦・红》。一开始,AI 没有任何的知识和经验,只能够随机按下按钮。但在五年的模拟游戏时间里,他在经历中习得了更多能力。最终,AI 能够抓住宝可梦,进化它们,并击败了健身房的领导者。

那么这是怎么做到的呢?

最基础的目标是让 AI 去探索地图。作者所使用的方法是在 AI 到达新位置时给予奖励。

作者记录 AI 在玩游戏时看到的每个屏幕并将当前屏幕与记录中的所有屏幕进行比较,看看是否有接近的匹配。如果没有找到匹配,这意味着 AI 发现了一些新东西。在此情况下,作者将给它一个奖励,并将新屏幕添加到记录中。独特屏幕带来的奖励可以鼓励它继续寻找游戏的新部分。

经过几次迭代之后,AI 能更快的走出初始房间。但在这过程中,作者发现了随着探索越来越多,AI 却会被「困」在某处。这是因为该场景中有草、水、随意走动的 NPC,这会更容易触发新场景产生。作者通过改变画面差异的像素阈值来进行改进。

除此之外,AI 还遇到了战斗画面大致相同,无法得到奖励而逃离的行为。但是不战斗,就无法前进。最后,作者通过增加额外奖励来保持 AI 的前进。

战斗画面相似性较高

增加额外关卡奖励

当然,AI 在这个过程中遇到的问题远多于此。

当宝可梦战斗的时间很长,其默认行动被耗尽时,它似乎会卡住,在多次训练迭代之后,才有了实质性的改进。作者发现,在看到一只鸽子第一次参与进来后,它终于知道当一个移动耗尽时该做什么,并能够切换到另一个替代移动。

就当一切顺利时,作者发现了一个关键问题。AI 会直接投入战斗,即使是那些它无法获胜的战斗。并且,它从不去宝可梦中心治疗,这意味着当它输了,它会一直回到游戏的开始。

作者试图使用输掉战斗就减去奖励来改进,但是没有效果。当 AI 即将失败时,它没有避免艰难的战斗,而是拒绝按下按钮继续无限期地拖延。这在技术上满足了目标,但不是作者想要的。

作者在细致地观察后发现,在一些罕见的情况下会造成巨大的奖励减扣。一直以来,AI 都会在一场游戏中扣出比预期多 10 倍的奖励。作者在回顾时发现,AI 宝可梦中心,在角落里的电脑前徘徊。登录并漫无目的地按了一会儿按钮后,它将一只宝可梦存入了系统,随即大量奖励就流失了。这是因为奖励是根据宝可梦的等级总和分配的。因此,存入一只 13 级的宝可梦就会立即损失 13 分。这会发出强烈的负面信号,给 AI 造成类似创伤的体验。AI 不像人类那样有情感,但一个具有极端奖励价值的事件仍会对它的行为产生持久的影响。在这种情况下,仅仅失去一次宝可梦就足以让 AI 对整个宝可梦中心形成负面联想,从而在今后的游戏中完全避开它。为了解决这个问题,作者再次修改奖励函数,只有当等级增加时才给予奖励。这似乎解决了问题。重新启动训练后,AI 开始访问宝可梦中心。

当它到达了宝可梦中心内的月亮山入口。在这里,一个男人会以 500 元的价格卖给你一条魔法鲤鱼。魔法鲤鱼在短期内一点帮助都没有,所以你可能会认为 AI 不会对此感兴趣。然而,购买它是获得 5 级的超级简单方法。所以 AI 每次都买。在所有的游戏中,它总共购买了超过 10000 个魔法碳水化合物。

作者将 AI 行为与人类类比

作者还分析了 AI 的行动路线,它似乎更喜欢在地图的几乎所有边缘逆时针行走。这意味着,当站在右边的边缘时,它更喜欢往上走,蓝色显示的就是这种情况。当上方有边缘时,它喜欢往左走,显示为粉红色。当左边有边缘时,它喜欢向下走,用橙色表示。而当下面有一条边时,它更喜欢向右走,显示为绿色。

作者在视频中表明,机器学习的基本挑战是在不明确告诉程序如何做的情况下让它做一些事情。这意味着,如果你的模型没有按照你预期的方式运行,你必须弄清楚如何通过学习算法或在线训练数据间接地改进它。强化学习增加了一层间接性。在此基础上,输入模型的训练数据不再是静止的、受你控制的,而是模型在早期时间点行为的产物。这种反馈循环会导致无法预测的突发行为。

在没有机构规模的资源时,作者建议你可以这么做:

  • 将问题简化,以避免工具、资源的限制。
  • 接下来,在合理的时间和成本内迭代实验的设置非常重要。
  • 然后需要仔细考虑 AI 如何与环境交互以及奖励函数如何设计。在视频中,作者对他所用到的奖励函数已经有所介绍,但是受制于篇幅,并没有介绍全部。它使用到了至关重要的七个函数,实际上还有更多的并没有测试或是最终使用。
  • 通过可视化的方法了解 AI 的行为。

作者说道,在未来还可能应用迁移学习的方法。即在一个大型的广泛数据集上预先训练一个模型,然后可以非常有效地利用它来完成新任务。在过去,这已经给计算机视觉和自然语言处理领域带来了革命性的变化。在将其应用于 RL 方面,已经有一些有趣的早期工作,但尚未真正落地。这是由于这些类型的任务缺乏大型的多样化数据集。

在视频最后,作者还介绍了项目的更多操作细节。

更多详细内容,请观看原视频。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
何洁上乘风减掉70斤!美上热搜,从160斤到90斤她是怎么做到的

何洁上乘风减掉70斤!美上热搜,从160斤到90斤她是怎么做到的

小村民
2024-04-27 13:31:08
军中色虎谷俊山,贪污300亿,无人敢动,背靠两大保护伞,被判死缓

军中色虎谷俊山,贪污300亿,无人敢动,背靠两大保护伞,被判死缓

天闻地知
2024-04-25 17:15:16
当老师不吃香了?厦门教师招聘疑因取消编制无人报考,官方回应了

当老师不吃香了?厦门教师招聘疑因取消编制无人报考,官方回应了

阿蒙聊教育
2024-04-26 21:13:21
到底是逻辑重要还是立场重要?

到底是逻辑重要还是立场重要?

手工制作阿爱
2024-04-25 07:30:30
“内控重大缺陷”!会计师事务所出具否定意见,这家A股公司将戴帽!

“内控重大缺陷”!会计师事务所出具否定意见,这家A股公司将戴帽!

证券时报e公司
2024-04-27 08:26:17
小米汽车推出小米SU7 5月限时购车权益

小米汽车推出小米SU7 5月限时购车权益

界面新闻
2024-04-27 10:09:57
最新进展!韩媒:韩国五大医院教授达成一致,决定“每周休诊一天”

最新进展!韩媒:韩国五大医院教授达成一致,决定“每周休诊一天”

环球网资讯
2024-04-26 15:00:19
今日缅甸果敢:往日汉字国门已被更换,现使用缅文已成主流

今日缅甸果敢:往日汉字国门已被更换,现使用缅文已成主流

我是兰兰
2024-04-27 11:47:37
年轻时选择看起来貌似最轻松的捷径,十几年后,子弹才正中眉心

年轻时选择看起来貌似最轻松的捷径,十几年后,子弹才正中眉心

娱乐圈酸柠檬
2024-04-22 21:31:40
其实我们很多人,都还没有意识到,人一旦步入七十岁以后

其实我们很多人,都还没有意识到,人一旦步入七十岁以后

今日养生之道
2024-04-27 12:08:47
湖南卫视知名主持人在美国定居,开保时捷拎爱马仕,成二胎辣妈

湖南卫视知名主持人在美国定居,开保时捷拎爱马仕,成二胎辣妈

娱乐白名单
2024-04-17 14:24:39
判了!“广洲人家”赔偿“广州酒家”200万元

判了!“广洲人家”赔偿“广州酒家”200万元

环球网资讯
2024-04-27 13:19:01
未来3年可能出现的变化:现金、房子会贬值,而这4样却可能升值!

未来3年可能出现的变化:现金、房子会贬值,而这4样却可能升值!

静海
2024-02-19 19:00:40
立陶宛遭欧盟“背叛”,中国赢得胜利,局势反转,棋子成弃子了

立陶宛遭欧盟“背叛”,中国赢得胜利,局势反转,棋子成弃子了

星辰故事屋
2024-04-27 19:07:25
特殊信号!一天发生四件大事:菲律宾可能要对国内的中国人下手了

特殊信号!一天发生四件大事:菲律宾可能要对国内的中国人下手了

清欢渡语
2024-04-25 21:49:17
中国绝不容许!为解除35万亿美债危机,美国欲复刻亚洲金融风暴

中国绝不容许!为解除35万亿美债危机,美国欲复刻亚洲金融风暴

小马哥谈体育
2024-04-27 03:15:45
特斯拉这款车型刚上市几天,就上调价格超7200元!特斯拉又遭调查,啥情况?前高管出手,套现13亿元......

特斯拉这款车型刚上市几天,就上调价格超7200元!特斯拉又遭调查,啥情况?前高管出手,套现13亿元......

每日经济新闻
2024-04-27 09:17:24
俄军本周迎接ATACMS导弹灭顶,唯一可祈祷的就是不要砸向自己

俄军本周迎接ATACMS导弹灭顶,唯一可祈祷的就是不要砸向自己

移光幻影
2024-04-25 10:58:06
我真不是马后炮,早就说了张小斐是“假火”,一个人扛不动票房了

我真不是马后炮,早就说了张小斐是“假火”,一个人扛不动票房了

闻星盼夏
2024-04-26 19:02:24
天蝎座若遇上这三个星座,会输得一败涂地,还放不下,舍不得

天蝎座若遇上这三个星座,会输得一败涂地,还放不下,舍不得

树莓说故事
2024-04-27 14:25:50
2024-04-27 19:50:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

游戏要闻

《最终幻想16》二周目出现严重BUG 克莱夫同伴没了

头条要闻

杨晓明涉嫌违纪违法 曾带队研发全球首款新冠灭活疫苗

头条要闻

杨晓明涉嫌违纪违法 曾带队研发全球首款新冠灭活疫苗

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

科技要闻

特斯拉这款车型刚上市几天,就上调价格

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

本地
旅游
艺术
手机
公开课

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

旅游要闻

散装河北,冀北、冀东、冀中、冀南如何划分?

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

手机要闻

vivo X100 Ultra 顶配版通过无线电认证,内置卫星通信系统

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版