网易首页 > 网易号 > 正文 申请入驻

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

0
分享至

新智元报道

编辑:定慧

【新智元导读】还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!

AI 又有「新活」了!

德州大学奥斯汀分校的研究团队用Transformers和离线强化学习训练出了一个宝可梦对战AI智能体,不但打法像人,还能在全球排名中杀进前 10%。

论文地址:https://metamon.tech/

是的,你没看错,这不是那种靠搜索和规则的AI,而是靠人类历史对战数据「喂出来」的智能体,能自己学着打。

这个宝可梦游戏(全称Competitive Pokémon Singles)有多复杂呢?

在对战平台https://pokemonshowdown.com/上可以看到,即使不考虑策略,光是精灵、动作和物品的数量已经多到了非常夸张的程度(根本翻不完)。

这意味着,AI要在信息不完全、策略博弈的环境中,把每一步出招、每一次换人,都当成下围棋一样来算。

宝可梦对战融合了国际象棋般的长远策略规划、扑克牌那样充满未知信息和随机性,再加上足以填满一本百科全书的宝可梦、招式、特性和规则。玩家需要精心设计和操控自己的宝可梦队伍,击败对手的所有宝可梦才能获胜。这样一个充满不确定性、状态空间极其庞大的游戏,对AI来说是绝佳又极具挑战性的研究课题。

这种硬核程度,更像是宝可梦版的《星际争霸》。

把「回放」喂给 AI,教它打宝可梦

研究团队开发了一个名为Metamon的平台,它使用来自Pokémon Showdown(以下简称PS)的人类游戏数据集来启用离线RL工作流。

PS会创建一个日志(过程「回放」),记录每场战斗。

玩家保存日志以供日后研究、与朋友分享有趣的结果,或作为记录官方锦标赛结果的证明。

PS的回放数据已经超过十年——足够的时间积累数百万个重放,比如下面的是10年前2014年的战斗回放。

PS回放数据集是一个完全的、自然发生的人类数据集合,但这个数据集有个问题——这些数据是以第三方角度收集的,而不是第一人称,训练智能体需要用第一人称视角。

研究团队通过将观众视角分别转换为每个玩家的视角来解锁PS回放数据集。

最终,研究团队搞出一个47.5万局真实人类对战组成的离线强化学习数据集,而且每天还在持续增长中。

在序列数据上使用离线强化学习算法训练

宝可梦拥有一个非常复杂的状态空间,因此在使用离线强化学习(offline RL)进行训练时,策略模型可能需要具备较大的规模和复杂的结构。

为了使训练过程更加稳定,将这个问题转化为行为克隆(Behavior Cloning, BC)的角度来理解:预测一个人类玩家的动作,实际上是在尝试推理模仿的这个玩家的策略,以及他们对对手的理解。

为了实现准确的预测,模型往往需要较长的上下文输入。

强化学习(RL)在这种场景下的作用,是帮助我们从包含了不同水平玩家(包括竞技和休闲玩家)决策的大规模数据中,筛选出有效信息。

采用的解决方案是actor-critic架构,其中critic的训练方式是使用标准的一步时序差分(temporal difference, TD)更新来输出Q值。至于actor的损失函数,其一般形式如下:

接下来,需要为CPS(Competitive Pokémon Simulator)定义观测空间、动作空间和奖励函数。

智能体需要获取足够的信息,以便能够模拟人类玩家的决策,而PS网站的用户界面是一个显而易见的参考点。

不过,由于模型具备记忆能力,因此无需在每一个时间步都提供全部信息。

最终达成了一个折中方案:输入由87个文本词语和48个数值特征组成。

下图展示了数据集中一场回放中的示例。观测只包含对手当前上场的宝可梦。

仅仅依靠强化学习能打赢人类吗?

传统做法教AI玩游戏,通常会设计规则、模拟状态、设计算法。

但这篇论文反其道而行之:直接喂数据,让它「模仿」人类怎么打。

他们训练了多个大小不同的智能体,从1500万参数的小模型,到2亿参数的大模型。

其中有的通过模仿学习训练(IL),有的则用离线强化学习(RL)进一步优化,还有的则加上「自我对战」的数据做微调。

可以在Pokémon Showdown上观看各个模型的游戏重播。

最强AI打上全球天梯前 10%

说了这么多,这AI真的能打吗?

研究者将多个版本的模型送上Pokémon Showdown的天梯服务器——这是全世界宝可梦高玩集中的地方。

结果模型居然排进了全球活跃玩家的前10%,并成功登上了排行榜。

在图中展示了Glicko-1阶梯分数及其评分偏差。柱状图标签标注的是GXE(胜率期望)统计数据。

阶梯分位数(Ladder Percentiles),在 2025年2月至3月期间下载的回放数据中,共识别出14,022个在第1到第4世代活跃的用户名。

以第1世代(Gen1)为例,在这些用户名中,有5,095个参与了 Gen1OU(标准对战规则),其中有2,661个活跃度较高,达到了在最终结果统计时拥有有效 GXE(胜率期望)数据的标准。

这可能是你第一次听说有人用Transformer打宝可梦,还打赢了人类。

但从技术视角看,这背后是强化学习、模仿学习、大模型训练和数据重构的完整链路。

它不只是一个「有趣的实验」,更像是一次对数据驱动游戏 AI 的深度演练。

下一步,或许可以不是打游戏,而是让AI玩转更复杂的现实任务。

此外,不同的训练策略以及大规模自我对战(self-play)技术,或许能够让智能体带来超越人类表现的突破。

参考资料:

https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

奇思妙想草叶君
2025-11-14 23:39:25
央八首播!51集谍战剧连续四天收视第一,央视精选果然不凡。

央八首播!51集谍战剧连续四天收视第一,央视精选果然不凡。

阿乐乐电影v
2025-11-15 16:35:02
杭州母亲偷看00后女儿手机大吃一惊:月薪九千元的女儿每月花五千元购买秒回师服务

杭州母亲偷看00后女儿手机大吃一惊:月薪九千元的女儿每月花五千元购买秒回师服务

观威海
2025-11-15 15:06:06
重磅!川普政府酝酿移民禁令,禁止12个国家的公民移民美国

重磅!川普政府酝酿移民禁令,禁止12个国家的公民移民美国

大洛杉矶LA
2025-11-15 07:09:01
越来越难了!深圳一工厂订单不足加班少了,发文激励员工跨区工作

越来越难了!深圳一工厂订单不足加班少了,发文激励员工跨区工作

火山诗话
2025-11-15 17:55:20
三星杯丁浩胜金志锡与廖元赫会师决赛 中国棋手第八次包揽冠亚军

三星杯丁浩胜金志锡与廖元赫会师决赛 中国棋手第八次包揽冠亚军

劲爆体坛
2025-11-15 15:42:04
全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

国乒二三事
2025-11-15 06:14:50
高市早苗涉台错误言论,在日本国内遭到多方质疑

高市早苗涉台错误言论,在日本国内遭到多方质疑

环球时报新闻
2025-11-15 14:08:40
新甲午战争?这次中国要摧毁日本的军国意志,要击沉日本岛,要雪百年之耻!

新甲午战争?这次中国要摧毁日本的军国意志,要击沉日本岛,要雪百年之耻!

李光满说
2025-11-13 20:24:13
王伟烈士的妻子阮国琴退役了,如今他的儿子 也是一位海军现役军官

王伟烈士的妻子阮国琴退役了,如今他的儿子 也是一位海军现役军官

Ck的蜜糖
2025-11-13 11:46:35
段永平最新千亿持仓来了!新进阿斯麦

段永平最新千亿持仓来了!新进阿斯麦

新浪财经
2025-11-15 11:32:43
魏建军:炒作电动车的资本已经走了

魏建军:炒作电动车的资本已经走了

大象新闻
2025-11-15 09:30:21
“清江两案”为什么久侦不破,因为罪犯就藏在公务员队伍里

“清江两案”为什么久侦不破,因为罪犯就藏在公务员队伍里

文史旺旺旺
2025-11-14 18:45:15
商务部新闻发言人就荷经济大臣卡雷曼斯就安世半导体问题表态答记者问

商务部新闻发言人就荷经济大臣卡雷曼斯就安世半导体问题表态答记者问

界面新闻
2025-11-14 21:42:06
当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

当陈松伶和小李琳同框,才发现女人到中年,幸不幸福都写在脸上

喵喵娱乐团
2025-11-14 16:05:23
每一口都可能促癌!哈佛大学最新:这些食品,或使癌前病变风险增45%;且缩短端粒长度,加速衰老

每一口都可能促癌!哈佛大学最新:这些食品,或使癌前病变风险增45%;且缩短端粒长度,加速衰老

医诺维
2025-11-15 15:30:14
郑州灵活就业参保缴费通知:12月31日前完成!

郑州灵活就业参保缴费通知:12月31日前完成!

大象新闻
2025-11-15 13:42:22
联合国秘书长将改选,中美杠上了,中方不排除连续否决美支持人选

联合国秘书长将改选,中美杠上了,中方不排除连续否决美支持人选

乐天闲聊
2025-11-15 11:11:53
外交部深夜提醒“避免”赴日,谁还在浦东机场排队?

外交部深夜提醒“避免”赴日,谁还在浦东机场排队?

天真无牙
2025-11-15 15:35:13
哇塞!演员情侣官宣结婚,谭松韵刘昊然送祝福,网友高呼青春回归

哇塞!演员情侣官宣结婚,谭松韵刘昊然送祝福,网友高呼青春回归

策略剖析
2025-11-15 13:14:38
2025-11-15 19:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13876文章数 66247关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

时尚
数码
旅游
公开课
军事航空

冬天的“销冠”,已被羽绒服预定

数码要闻

华为WATCH ULTIMATE DESIGN非凡大师紫金款开启预售,本月发布

旅游要闻

“莲韵赏秋 闽赣有约” 广昌文旅推介会在福建三明举办

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版