网易首页 > 网易号 > 正文 申请入驻

狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下

0
分享至

机器之心报道

编辑:大盘鸡

AI 的宝可梦之旅。

是不是说起「口袋妖怪」,你就不困了?

「口袋妖怪」是「宝可梦」的非官方译名。从 1996 年至今,它可以被分为数个世代,成为很多玩家心中的经典之作。游戏画风简单,但是身为策略游戏,其中包含的角色、属性、战术、体系等让这个游戏入门容易精通难。

如果训练 AI 来玩宝可梦,你觉得它的实力如何?

推特用户 @computerender 用强化学习训练 AI 玩起了宝可梦。他也通过视频记录了这一过程,不仅生动地展示了训练过程,还详尽地介绍了其中的方法。

  • 项目地址:https://github.com/PWhiddy/PokemonRedExperiments
  • 视频地址:https://www.youtube.com/watch?v=DcYLT37ImBY

当你打开视频,就能观看两万场 AI 玩的《宝可梦・红》。一开始,AI 没有任何的知识和经验,只能够随机按下按钮。但在五年的模拟游戏时间里,他在经历中习得了更多能力。最终,AI 能够抓住宝可梦,进化它们,并击败了健身房的领导者。

那么这是怎么做到的呢?

最基础的目标是让 AI 去探索地图。作者所使用的方法是在 AI 到达新位置时给予奖励。

作者记录 AI 在玩游戏时看到的每个屏幕并将当前屏幕与记录中的所有屏幕进行比较,看看是否有接近的匹配。如果没有找到匹配,这意味着 AI 发现了一些新东西。在此情况下,作者将给它一个奖励,并将新屏幕添加到记录中。独特屏幕带来的奖励可以鼓励它继续寻找游戏的新部分。

经过几次迭代之后,AI 能更快的走出初始房间。但在这过程中,作者发现了随着探索越来越多,AI 却会被「困」在某处。这是因为该场景中有草、水、随意走动的 NPC,这会更容易触发新场景产生。作者通过改变画面差异的像素阈值来进行改进。

除此之外,AI 还遇到了战斗画面大致相同,无法得到奖励而逃离的行为。但是不战斗,就无法前进。最后,作者通过增加额外奖励来保持 AI 的前进。

战斗画面相似性较高

增加额外关卡奖励

当然,AI 在这个过程中遇到的问题远多于此。

当宝可梦战斗的时间很长,其默认行动被耗尽时,它似乎会卡住,在多次训练迭代之后,才有了实质性的改进。作者发现,在看到一只鸽子第一次参与进来后,它终于知道当一个移动耗尽时该做什么,并能够切换到另一个替代移动。

就当一切顺利时,作者发现了一个关键问题。AI 会直接投入战斗,即使是那些它无法获胜的战斗。并且,它从不去宝可梦中心治疗,这意味着当它输了,它会一直回到游戏的开始。

作者试图使用输掉战斗就减去奖励来改进,但是没有效果。当 AI 即将失败时,它没有避免艰难的战斗,而是拒绝按下按钮继续无限期地拖延。这在技术上满足了目标,但不是作者想要的。

作者在细致地观察后发现,在一些罕见的情况下会造成巨大的奖励减扣。一直以来,AI 都会在一场游戏中扣出比预期多 10 倍的奖励。作者在回顾时发现,AI 宝可梦中心,在角落里的电脑前徘徊。登录并漫无目的地按了一会儿按钮后,它将一只宝可梦存入了系统,随即大量奖励就流失了。这是因为奖励是根据宝可梦的等级总和分配的。因此,存入一只 13 级的宝可梦就会立即损失 13 分。这会发出强烈的负面信号,给 AI 造成类似创伤的体验。AI 不像人类那样有情感,但一个具有极端奖励价值的事件仍会对它的行为产生持久的影响。在这种情况下,仅仅失去一次宝可梦就足以让 AI 对整个宝可梦中心形成负面联想,从而在今后的游戏中完全避开它。为了解决这个问题,作者再次修改奖励函数,只有当等级增加时才给予奖励。这似乎解决了问题。重新启动训练后,AI 开始访问宝可梦中心。

当它到达了宝可梦中心内的月亮山入口。在这里,一个男人会以 500 元的价格卖给你一条魔法鲤鱼。魔法鲤鱼在短期内一点帮助都没有,所以你可能会认为 AI 不会对此感兴趣。然而,购买它是获得 5 级的超级简单方法。所以 AI 每次都买。在所有的游戏中,它总共购买了超过 10000 个魔法碳水化合物。

作者将 AI 行为与人类类比

作者还分析了 AI 的行动路线,它似乎更喜欢在地图的几乎所有边缘逆时针行走。这意味着,当站在右边的边缘时,它更喜欢往上走,蓝色显示的就是这种情况。当上方有边缘时,它喜欢往左走,显示为粉红色。当左边有边缘时,它喜欢向下走,用橙色表示。而当下面有一条边时,它更喜欢向右走,显示为绿色。

作者在视频中表明,机器学习的基本挑战是在不明确告诉程序如何做的情况下让它做一些事情。这意味着,如果你的模型没有按照你预期的方式运行,你必须弄清楚如何通过学习算法或在线训练数据间接地改进它。强化学习增加了一层间接性。在此基础上,输入模型的训练数据不再是静止的、受你控制的,而是模型在早期时间点行为的产物。这种反馈循环会导致无法预测的突发行为。

在没有机构规模的资源时,作者建议你可以这么做:

  • 将问题简化,以避免工具、资源的限制。
  • 接下来,在合理的时间和成本内迭代实验的设置非常重要。
  • 然后需要仔细考虑 AI 如何与环境交互以及奖励函数如何设计。在视频中,作者对他所用到的奖励函数已经有所介绍,但是受制于篇幅,并没有介绍全部。它使用到了至关重要的七个函数,实际上还有更多的并没有测试或是最终使用。
  • 通过可视化的方法了解 AI 的行为。

作者说道,在未来还可能应用迁移学习的方法。即在一个大型的广泛数据集上预先训练一个模型,然后可以非常有效地利用它来完成新任务。在过去,这已经给计算机视觉和自然语言处理领域带来了革命性的变化。在将其应用于 RL 方面,已经有一些有趣的早期工作,但尚未真正落地。这是由于这些类型的任务缺乏大型的多样化数据集。

在视频最后,作者还介绍了项目的更多操作细节。

更多详细内容,请观看原视频。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
乌克兰军队赫尔松发起反攻,前锋已渡过第聂伯河

乌克兰军队赫尔松发起反攻,前锋已渡过第聂伯河

名人苟或
2026-03-24 16:06:22
最新研究:早餐加一物,降低全身炎症、癌症风险!爱吃的人赚到了

最新研究:早餐加一物,降低全身炎症、癌症风险!爱吃的人赚到了

DrX说
2026-03-23 14:00:13
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

当“整容脸”混进央视年代剧,碰上天然脸演员,简直是降维打击!

嘴角上翘的弧度
2026-03-24 01:01:55
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
国家出手!成品油价临时调控,每升少涨8毛5

国家出手!成品油价临时调控,每升少涨8毛5

大象新闻
2026-03-23 15:49:01
实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

实锤了!歼10C飞行员明确披露,我军预警机可直接制导空空弹

Ck的蜜糖
2026-03-24 18:40:46
哈萨克斯坦80%石油宁愿绕远卖欧洲,为何就是不卖隔壁中国?真相让人意外

哈萨克斯坦80%石油宁愿绕远卖欧洲,为何就是不卖隔壁中国?真相让人意外

文史明鉴
2026-03-19 23:10:12
3月24日俄乌:俄军消耗超过补充的速度

3月24日俄乌:俄军消耗超过补充的速度

山河路口
2026-03-24 19:18:09
四川一男子称戒烟两年攒下11844元:每次想抽烟就给女儿转15元,就当花出去了

四川一男子称戒烟两年攒下11844元:每次想抽烟就给女儿转15元,就当花出去了

大象新闻
2026-03-24 18:49:03
我的技术并不比世界第1差!我能打败任何人!郑钦文的话引发众怒

我的技术并不比世界第1差!我能打败任何人!郑钦文的话引发众怒

搏击江湖
2026-03-24 20:35:57
突发!卖黄金,救市!

突发!卖黄金,救市!

中国基金报
2026-03-24 20:36:04
昔日“催收大王”被催收!永雄集团遭银行及自家创始人追债共计超5000万,公司回应

昔日“催收大王”被催收!永雄集团遭银行及自家创始人追债共计超5000万,公司回应

红星新闻
2026-03-24 13:00:06
220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

220吨!中国再次破获稀土走私,伪装“废铁”偷偷卖给美国军火商

策前论
2026-03-23 20:10:45
下周是最危险的时候

下周是最危险的时候

派克斯研究院
2026-03-24 15:47:38
钱再多有什么用?赵本山一家4口如今现状,给所有中老年人提了醒

钱再多有什么用?赵本山一家4口如今现状,给所有中老年人提了醒

心灵的触动a
2026-03-19 10:35:16
韩国前国脚李天秀:韩国本届世界杯的分组是历届大赛中最好的

韩国前国脚李天秀:韩国本届世界杯的分组是历届大赛中最好的

懂球帝
2026-03-24 12:42:59
四川省人大常委会原党组成员、副主任宋朝华被提起公诉

四川省人大常委会原党组成员、副主任宋朝华被提起公诉

新京报
2026-03-24 10:12:10
阴挺是什么病?主要原因是什么?女性要远离这种社交癌

阴挺是什么病?主要原因是什么?女性要远离这种社交癌

医学科普汇
2026-03-24 21:35:06
2026-03-24 22:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12588文章数 142592关注度
往期回顾 全部

游戏要闻

《红色沙漠》发售四天 全球销量超过400万

头条要闻

张雪峰被指心脏骤停在苏州抢救 公司回应:没收到通知

头条要闻

张雪峰被指心脏骤停在苏州抢救 公司回应:没收到通知

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

科技要闻

黄仁勋看透中国AI圈 人情世故卷出最快创新

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

教育
房产
数码
艺术
公开课

教育要闻

小学几何训练营,四边形中的燕尾模型

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

数码要闻

一加40W超级冰点磁吸散热器发布,229元

艺术要闻

揭秘!伊丽莎白泰勒如何复制埃及艳后的魅惑魅力?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版