网易首页 > 网易号 > 正文 申请入驻

王者荣耀:绝悟AI的原理浅析

0
分享至

本文作者:NGA-43097891

相信大家这几年或多或少都听过深度学习这个概念。绝悟AI正是深度学习的产物,更确切说绝悟AI的核心是深度强化学习(Deep Reinforcement Learning)。本人粗略阅读腾讯AI lab 叶德珩博士一作的论文

[1](链接在文末参考文献中),此文发表的人工智能的顶会2020 AAAI上面(虽然这个会议的水平个人感觉最近有些下降)。下面本人结合论文和一些资料,对绝悟的内部原理细节做进行阐述。

首先是背景,相信大家应该都听过围棋AI-AlphaGo。之前的阿尔法狗一战成名让强化学习名声大噪。之后便有各种游戏AI,例如DeepMind的星际争霸的AI与OpenAI的Dota2的AI,这两个比较早,因该是两三年之前。之前便取得不错的成绩,因为本人是刀塔玩家,所以当时TI比赛期间见过AI 5v5 明星挑战赛。下面将绝悟与go做个对比:

上面主要介绍绝悟AI在1v1的环境下,相比于Go的计算复杂度上面,以Action space(直译动作空间)为例王者荣耀的每一帧的操作可以分解为100+个离散的动作(比如位移,点击技能,点击攻击按键等),这里的9000帧每局游戏应该是考虑到人类的反应时间而设置的帧数。所以我们可以看到,游戏AI的复杂度是很高的。

下面还需要提出两个概念,智能体(agent)和游戏单元(game unit),智能体可以简单理解为英雄,游戏单元包括小兵,野怪,防御塔之类。
由于1v1难以获取高效的数据(叶博士说1v1练英雄比较多),所以采用无监督学习的方式,采用自对弈的方式(即我训练我自己)。
下面正式进入绝悟的细节:
首先是系统架构方面,也是就是绝悟AI的整体到底是个什么东东。

首先要说明的是,上述各个模块是独立的,下面我将逐一介绍。

1)AI server with Game Env部分:这就是AI打AI(我打我自己)的地方,并且与游戏环境做交互,这里设计到游戏的内核部分。

2)Dispatch部分:这个部分主要就是收集游戏数据,传输给下一个部分

3)Memory Pool部分:其中进行存储前一部分传输过来的数据,并且对数据进行处理,以方便喂给我们的学习器。

4)RL learner部分:顾名思义,就是训练强化学习的模型的地方,并且将输出的数据再传输给我们的第1)部分(这里的输出简单理解应该就是我们英雄所执行的各种动作),这样AI就可以与AI博弈。
(腾讯果然财大气粗,这里光显卡用了1000+,应该是英伟达专业级的神经网络显卡)

看完上述的描述,大家应该发现,RL learner才是AI的核心,没错下面我将详细介绍RL learner部分,照例我们先看框图:

看不懂没关系,因为这个东西确实不是专业的确实很难看懂,我会尽量用浅显的语言对其进行解读。因为内部机制过于复杂,我会尽量用浅显的语言进行描述。下面从左往右进行分析:

1)Encoded observations部分:这个部分有三个输入,首先Unit输入部分,这里包括我方英雄,地方英雄,英雄的移动,防御塔等。其次Image部分,我个人理解应该是,自身英雄周围的一个区域的图像。最后Game state Info部分, 包括比如经济,人头,血量之类的数据。图像经过卷积网络得到一个向量(大家就简单理解为图像识别就可以),Unit的数据和Game state Info的数据则经过FC(全连接网络)得到不同的向量(这里大家理解为,就是把这些游戏里的数据,转换成为另外一种形式,牺牲点严谨性来说,就是转换成一串数字)。之后把这三部分转后的数字,我们拼接起来,变成更大的一长串数字,这就是我们从当前环境中提取的信息。

2)第二部分就是核心部分了,(这部分不想看可以跳过去)。这部分包括LSTM(长短时记忆网络)和Attention(注意力)机制,将之前的一大串输出输入到这个LSTM网络当中,经过FC变换之后,得到初步的输出。Attention部分用了RL探索的剪枝(y1s1,我不是搞强化学习的,这个地方我也不是很懂),反正作用就是,我面前很多东西,比如野怪,小兵,它,敌方英雄,我该干谁呢,就由这个决定就完事了。具体的细节有能力有兴趣的坛友可以去看论文。

3)第三部分模型的输出部分,当然这个部分呢,还是需要再上一步做些调整和变化的。细心的朋友已经发现了,上面这几个输出不是独立的,具体什么意思呢。

这里列举了最简单的移动按钮为例(就是移动轮盘)。首先是button按钮,其次的四个是我该怎么拖动这个按钮(就是我拖动技能,方向和距离),这个大家都很熟悉,一定能秒懂我什么意思。最后一个是Target部分,就是目标,就是我该瞄准谁呢?小兵、塔、敌方英雄等。技能按钮以此类推。

(论文中提到,虽然这些输出有依赖,但是通过一些手段,可以使其独立,就是这几个没什么关系。这里面就是这篇文章比较有新意的地方,叫Dual-clip PPO,反正这些东西不影响我们对AI的理解)

以上就是系统框架内容,通过不断的训练优化这个模型(这里涉及到网络的训练问题,很复杂,还要看工程师的“炼丹”能力如何),AI英雄会越来强,没错就是越来越强,不要问为什么(深度学习的可解释性是个很大的难题),事实摆在眼前。
上面内容是不是有点复杂,确实我也这么觉得,如果你都看懂了,说明你很有“炼丹“的天赋(手动狗头)。

下面我们说点轻松的:
为了测试AI的性能,AI团队还邀请了几位职业选手进行1v1对抗,以下是论文截图,结果表明,AI可以达到职业水准(没错,就是这么牛x)。

这里还有一个细节,AI的反应时间是133ms,论文中说133ms是顶级业余选手的反应时间,所以被绝悟揍是很正常的。下面是职业怎么挨打的数据,大家看看就好。

然后AI又去找路人玩家PK,数据如下

可以发现,大部分都是绝悟赢,输的几场,用官方的解释来说呢,可能是因为HanXin(二一横扫),SunWukong(吉吉国王),HouYi(真正的射手)比较依赖暴击,由于暴击是一个不确定因素,所以对于AI来说有些影响。

再来个泥潭之前的日常话题ELO:

这是论文里,训练狄仁杰的效果图,我们看见官方内部给出的玩家水平评价指标就是ELO。模型训练大约7小时,已经可以干掉游戏自带的AI了,12小时达到星耀水平,30小时达到王者水平,60小时达到荣耀王者水平,70小时已经接近职业水平(为了防止杠精,怎么职业和荣耀差不多,我不做解释,这是论文给出的数据)。

最后我给出一个论文中另外一个有意思的点,也可能是整篇文章对于我们最有帮助的部分。

这是AI的奖励机制,从上到下依次是,英雄生命、塔生命(这里应该是敌方的塔)、钱、蓝量、死亡次数、击杀数、经验与补刀。旁边的数字代表这些行为的权重,也就是权重越高,AI对这些东西越重视(推塔游戏名不虚传,游戏AI教我玩游戏系列)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

赵薇前夫被曝曾2天赌输1.87亿,再借9360万继续赌到输光为止

开开森森
2026-06-30 22:33:55
全球拒接奥运,奥委会关注中国,中方回应2036台北见

全球拒接奥运,奥委会关注中国,中方回应2036台北见

烟雨洛神生
2026-06-23 22:54:59
警报拉响!2026高考志愿大洗牌,今年千万别跟风去当“韭菜”

警报拉响!2026高考志愿大洗牌,今年千万别跟风去当“韭菜”

辉哥说动漫
2026-06-30 01:09:07
大蒜被点名了!发现:肺结节病人吃大蒜,不必等多久,或有4变化

大蒜被点名了!发现:肺结节病人吃大蒜,不必等多久,或有4变化

岐黄传人孙大夫
2026-07-01 22:20:03
小米首款NAS首销告捷:自带西数红盘,被赞“买硬盘送机身”

小米首款NAS首销告捷:自带西数红盘,被赞“买硬盘送机身”

TechWeb
2026-07-01 12:30:22
厄瓜多尔主帅自宣离任:我怀着感激之情,向这个大家庭告别

厄瓜多尔主帅自宣离任:我怀着感激之情,向这个大家庭告别

懂球帝
2026-07-01 15:17:17
行为经济学有个冷酷发现:让领导重用你的,不是能力不是忠诚,而是你无意识流露的这2种“价值锚定”信号

行为经济学有个冷酷发现:让领导重用你的,不是能力不是忠诚,而是你无意识流露的这2种“价值锚定”信号

心理观察局
2026-07-01 07:16:06
美联储主席发声,释放重要政策信号!美股全线下挫

美联储主席发声,释放重要政策信号!美股全线下挫

证券时报
2026-07-01 22:33:06
Here we go!罗马诺:武什科维奇将加盟布莱顿,总价超5000万镑

Here we go!罗马诺:武什科维奇将加盟布莱顿,总价超5000万镑

懂球帝
2026-07-01 23:33:14
久保建英:这批人四年后大概率还在国家队,这次止步实在可惜

久保建英:这批人四年后大概率还在国家队,这次止步实在可惜

懂球帝
2026-07-01 08:48:07
中国空调在欧洲卖爆,欧洲空调商预警:打不过中国制造,就改规则

中国空调在欧洲卖爆,欧洲空调商预警:打不过中国制造,就改规则

泠泠说史
2026-07-01 11:31:38
仅剩20%!中国第一个消失的沙漠比台湾大,NASA:地球更绿了

仅剩20%!中国第一个消失的沙漠比台湾大,NASA:地球更绿了

抽象派大师
2026-06-30 01:34:25
哈兰德实话说:我真踢不动加时赛了;挪威对阵巴西胜算极其渺茫!

哈兰德实话说:我真踢不动加时赛了;挪威对阵巴西胜算极其渺茫!

让心灵得以栖息
2026-07-01 11:48:54
岚图董事长炮轰无底线营销:广告法对这几个人无效

岚图董事长炮轰无底线营销:广告法对这几个人无效

电动知家
2026-06-30 20:28:35
朱珠意大利雨中漫步被偶遇!一家三口撑伞散步,这画面美得像电影

朱珠意大利雨中漫步被偶遇!一家三口撑伞散步,这画面美得像电影

今古深日报
2026-07-01 10:21:16
辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,戳美国软肋

辽宁舰退役去向已确定?不卖俄不拆解,意义远超交易,戳美国软肋

九客说事
2026-06-30 21:01:55
WTT美国大满贯:莎头组合连扳3局大逆转!国乒新增外战5胜2负

WTT美国大满贯:莎头组合连扳3局大逆转!国乒新增外战5胜2负

全言作品
2026-07-02 06:50:28
3位短剧“一哥”转战长剧连连翻车!是功底不够还是时运不佳?

3位短剧“一哥”转战长剧连连翻车!是功底不够还是时运不佳?

阿废冷眼观察所
2026-07-02 04:58:57
新一届港姐亮相红毯,这审美又回来了

新一届港姐亮相红毯,这审美又回来了

娱你同欢
2026-06-28 20:48:27
AI批量造富,奢侈品行业迎来全新消费主力

AI批量造富,奢侈品行业迎来全新消费主力

IT之家
2026-07-01 20:02:22
2026-07-02 08:03:00
NGA incentive-icons
NGA
NGA玩家社区
18946文章数 183814关注度
往期回顾 全部

游戏要闻

《GTA6》新情报泄露:露西娅真主角 游戏细节丰富

头条要闻

媒体:乌军更能打了 掌握"有效打法"跟俄打得有来有回

头条要闻

媒体:乌军更能打了 掌握"有效打法"跟俄打得有来有回

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

科技要闻

Claude Code被曝“植入木马”识别中国用户

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

游戏
艺术
家居
手机
房产

《龙腾世纪》开发者称生成式AI是祸害:技术远未成熟

艺术要闻

宋朝:生活品味,比权力和财富更重要!

家居要闻

传奇筑 日常诗

手机要闻

曝iPhone17将涨价!生产计划下调

房产要闻

洞察新局 | 2026年天河置业红盘图鉴

无障碍浏览 进入关怀版