网易首页 > 网易号 > 正文 申请入驻

你的《超级马里奥兄弟》通关了没?基于PPO强化学习算法的AI成功拿下29个关卡!

0
分享至

《超级马里奥兄弟》你能玩到第几关?

说起这款FC时代的经典游戏,大家可能再熟悉不过了,大鼻子、留胡子,永远穿着背带工装服的马里奥大叔,成为了很多80/90后的童年回忆。

看着画面中熟悉的马里奥大叔一路跌跌撞撞,躲避半路杀出来的毒蘑菇,锤子乌龟,头盔兔子、食人花,感觉又回到了小时候。

最早发行的这版《超级马里奥兄弟》设置8个场景,每个场景分为4关,共32个关卡,相信很多朋友至今还没有完全通关。

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此,他决定利用强化学习AI算法来帮他完成未通关的遗憾。

现在他训练出的AI马里奥大叔已经成功拿下了29个关卡。

不过,遗憾的是第4、7、8场景中的第4关卡未通过。Viet Nguyen解释说,这与游戏规则的设置有关。在一场游戏结束后,玩家可以自行选择通关路径,但这可能出现重复访问同一关卡的情况,所以AI未成功进入到这三关游戏之中。

Viet Nguyen使用的强化学习算法正是OpenAI研发的近端策略优化算法(Proximal Policy Optimization,简称PPO,他介绍,此前使用A3C代码训练马里奥闯关,效果远不及此,这次能够达到29关也是超出了原本的预期。

现在Viet Nguyen已经将基于PPO编写的完整Python代码发布到了Github上,并给出了详细的使用说明,感兴趣的朋友可以体验一下:

还会玩Dota的AI算法:PPO

据了解,PPO是OpenAI在2017年开发的算法模型,主要用来训练虚拟游戏玩家OpenAI Five,这位虚拟玩家在2018年的Dota2人机对抗赛中,战胜过世界顶级职业选手,同时能够打败99.95%的普通玩家。

复杂的游戏环境一直被研究人员视为AI训练的最佳场景。为了让AI掌握游戏规则,学会运用策略,强化学习是研究人员常用的机器学习方法之一,它能够描述和解决AI智能体(Agent)在与环境交互过程中通过学习策略实现特定目标的问题。

近端策略优化算法(PPO)已成为深度强化学习基于策略中效果最优的算法之一。有关该算法的论文已经发布在arXiv预印论文库中。

论文中指出,PPO是一种新型的策略梯度(Policy Gradient)算法,它提出新的“目标函数”可以进行多个训练步骤,实现小批量的更新,解决PG算法中步长难以确定的问题。固定步长的近端策略优化算法如下:

(每次迭代时,N个actor中的每个都收集T个时间步长的数据。 然后在这些NT时间步长的数据上构建替代损失,并使用 minibatch SGD 进行K个epochs的优化。)

研究人员表明,该算法具有信任区域策略优化(TRPO)的一些优点,但同时比它实施起来更简单,更通用,具有更好的样本复杂性(凭经验)。为了证实PPO的性能,研究人员在一些基准任务上进行了模拟测试,包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中,一种基本的功能是具备连续性的运行和转向,如在马里奥在遇到诸如地面或者空中障碍时,能够以此为目标进行跳转和躲避。论文中,研究人员为了展示PPO的高维连续控制性能,采用3D人形机器人进行了测试,测试任务分别为:

(1)仅向前运动;(2)每200个时间步长或达到目标时,目标位置就会随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

可以看出,在第六帧的放大图中,人形机器人朝目标移动,然后随机改变位置,机器人能够跟随转向并朝新目标运行。说明PPO算法在连续转控方面具备出色的性能表现。

那么它在具体游戏中“获胜率”如何呢?研究人员运用Atari游戏合集(含49个)对其进行验证,同时与A2C和ACER两种算法进行了对比。为排除干扰因素,三种算法全部使用了相同的策略网络体系,同时,对其他两种算法进行超参数优化,确保其在基准任务上的性能最大化。

如上图,研究人员采用了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在持续100集训练中的每集的平均获胜数。 前者更适合快速学习,后者有助于最终的比赛表现。可以看出PPO在指标一种的获胜次数达到了30,在小样本下有更高的胜率。

最后研究人员还强调,PPO近端策略优化的优势还在于简洁好用,仅需要几行代码就可以更改为原始策略梯度实现,适用于更常规的设置,同时也具有更好的整体效果。

更多论文详细内容,请参见地址:https://arxiv.org/abs/1707.06347

最后一问:

《雪人兄弟》《绿色兵团》《忍者神龟》《双截龙》《魂斗罗》等众多经典FC游戏中,你最喜欢哪一个,是否全部通关了呢?

https://www.reddit.com/r/MachineLearning/comments/hy3hry/p_python_implementation_of_proximal_policy/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵丽颖突然发博官宣,全网沸腾,憋了一年多的大招终于放出来了

赵丽颖突然发博官宣,全网沸腾,憋了一年多的大招终于放出来了

孤傲何妨初
2026-05-23 22:33:35
女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

女学霸发明“咯噔字体”,老师低分警告:别用个性挑战考试底线

蝴蝶花雨话教育
2026-05-07 00:05:04
苹果杀疯了!iPhone 17系列暴降1000元后销量暴增:中国区激活量累积突破3000万台

苹果杀疯了!iPhone 17系列暴降1000元后销量暴增:中国区激活量累积突破3000万台

快科技
2026-05-23 16:34:17
这个导致口臭的小脏东西, 90% 的人都有,天天刷牙也逃不掉

这个导致口臭的小脏东西, 90% 的人都有,天天刷牙也逃不掉

科普中国
2026-05-24 10:41:38
别嘲笑杨瀚森了,他在NBA场均数据远超周琦,但一消息对他很不利

别嘲笑杨瀚森了,他在NBA场均数据远超周琦,但一消息对他很不利

姜大叔侃球
2026-05-24 16:10:56
英超巨星愿今夏加盟皇马,但一切取决于穆里尼奥

英超巨星愿今夏加盟皇马,但一切取决于穆里尼奥

篮坛第一线
2026-05-24 01:16:26
美光CEO:当前全球内存短缺可能延续至2026年之后,行业大规模新产能释放至少要等到2028年

美光CEO:当前全球内存短缺可能延续至2026年之后,行业大规模新产能释放至少要等到2028年

新浪财经
2026-05-24 23:14:17
印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

印尼的豪赌大溃败,给全世界提了个醒:中国行我也行,纯粹是幻觉

云舟史策
2026-04-22 07:24:21
记者:皇马有重要人物不满阿隆索使用马斯坦托诺的方式

记者:皇马有重要人物不满阿隆索使用马斯坦托诺的方式

懂球帝
2026-05-24 17:18:12
母亲把积蓄全给舅舅,父亲平静说无妨,带全家迁往南方再没回故乡

母亲把积蓄全给舅舅,父亲平静说无妨,带全家迁往南方再没回故乡

麦子情感故事
2026-05-24 19:11:23
佟丽娅为陈思诚整理衣服疑似复婚!离婚后首同框,一家三口超有爱

佟丽娅为陈思诚整理衣服疑似复婚!离婚后首同框,一家三口超有爱

八卦王者
2026-05-22 09:30:17
李刚仁追到财阀千金!曾与女团成员传绯闻,这捷径选择你看好吗?

李刚仁追到财阀千金!曾与女团成员传绯闻,这捷径选择你看好吗?

绿茵八卦君
2026-05-24 18:10:03
是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

是巧合,还是冥冥中自有天意?3位航天员连“名字”都这么巧

快看张同学
2026-03-13 10:37:40
陈慧琳49岁弟弟陈司翰罕露脸,中年发福气质仍儒雅,至今仍未婚育

陈慧琳49岁弟弟陈司翰罕露脸,中年发福气质仍儒雅,至今仍未婚育

八斗小先生
2026-05-23 11:08:44
蓝思科技24万股东,坐了场过山车

蓝思科技24万股东,坐了场过山车

财天COVER
2026-05-24 19:06:18
辽宁舰大修一年真相炸锅:止动轮挡都换了,等的根本就不是歼-15

辽宁舰大修一年真相炸锅:止动轮挡都换了,等的根本就不是歼-15

阿握聊事
2026-05-24 18:58:31
死伤惨重!乌克兰捅了大篓子,袭击俄罗斯学校,中俄都有行动

死伤惨重!乌克兰捅了大篓子,袭击俄罗斯学校,中俄都有行动

未来已来风云变幻
2026-05-24 18:58:24
又有30个高盛重仓股暴涨,14个直接涨停,名单出炉,2个主线

又有30个高盛重仓股暴涨,14个直接涨停,名单出炉,2个主线

鹏哥投研
2026-05-24 11:45:34
90人遇难!山西沁源重大矿难背后:百亿民企家族独权

90人遇难!山西沁源重大矿难背后:百亿民企家族独权

老猫观点
2026-05-24 17:44:42
彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

彭德怀临终前多次求见朱德未果,朱德怒斥:还有啥子可怕的

史之铭
2026-05-23 00:48:03
2026-05-25 00:24:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69412文章数 656134关注度
往期回顾 全部

游戏要闻

iG新主场刚开启就跌入涅槃组!Theshy复出无望,被TT零封奇耻大辱

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

房产
艺术
健康
手机
公开课

房产要闻

疯狂周末,海口楼市突然爆了!

艺术要闻

砸十几亿,烂十几年!福建福清富创世纪城,还有救吗?

外泌体 ≠ 生长因子!它们之间究竟有何区别?

手机要闻

为什么建议大家赶紧换新机?五点原因,望周知!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版