网易首页 > 网易号 > 正文 申请入驻

《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

0
分享至

人类《王者荣耀》玩家,真要打不赢 AI 了?

曾经,我们都以为,像《王者荣耀》这样需要实时操作、团队协作和战略判断的游戏,是人类玩家的绝对主场。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。

如今,一项来自腾讯的新研究或将颠覆我们的这种认知——

在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。

例如,在以下案例中,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后,做出“打暴君、拿主宰”的最佳综合决策

从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同时确保其原本具备的推理与解释能力(知道“是什么”)不受影响。

论文链接:https://arxiv.org/pdf/2508.21365

结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟,以更低的数据和计算需求达到了与传统 RL 方法相当的性能

此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域,一直存在一道难以跨越的鸿沟:陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂

简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境,既有可控性,能设定明确的规则和目标,又足够复杂,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。

TiG框架:将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略

表|TiG 的提示模板

具体到《王者荣耀》的对局里,TiG 框架涉及如下关键技术细节:

  1. 游戏状态表征

TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。

  1. 构建数据集

TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。

不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了重标注(Relabeling)算法,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。

  1. 强化学习算法(GRPO)

TiG 使用了“群体相对策略优化”(GRPO)算法,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。

图|TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。

并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。

为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:

  • GRPO:仅使用 GRPO 方法训练基础模型;

  • SFT:使用 SFT 训练数据集训练基础模型;

  • SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果,我们可以得出以下关键发现:

首先,多阶段训练——特别是 SFT 与 GRPO 的结合,显著提升了模型性能

图|动作预测任务(左),不同模型错误案例分布(右)

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84%,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91%,在《王者荣耀》的战略决策上远超其他模型。

同时,此训练方法还保留了通用语言和推理能力

表|关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后准确率从 65.8% 升到 66.9%

此外,TiG 在其他任务中的泛化能力良好

为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。

表|模型在与板载相关任务上的性能

实战案例

光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。

案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。

TiG 先判断对局阶段:已经进入中后期,“防御塔和野区保护机制已经失效”。再看当前局势:刚发生过小规模冲突,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个小失误,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。

基于分析,TiG 把“摧毁敌方中路一塔”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。

接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“和姜子牙在敌方中路一塔处会合,集中火力推塔”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。

最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂,完全能和人类玩家配合打团

未来:不止于《王者荣耀》

《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而,研究团队也承认,TiG 依然存在一些局限性。如下:

  • 严重依赖 LLM 的能力:TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。

  • 领域泛化性待验证:目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。

  • 样本效率有待提升:尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。

  • 策略可解释性待提高:基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。

为此,研究团队表示,可以从以下几个方向改进 TiG:

一方面,未来的工作将侧重于将 TiG 扩展到更广泛的环境中,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。

另一方面,研究需要长期记忆或跨越较长状态转移进行推理的任务。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月,「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
崔永熙:现在的体能大概就是打10-15分钟,比赛后腿还是会酸

崔永熙:现在的体能大概就是打10-15分钟,比赛后腿还是会酸

懂球帝
2026-03-18 12:56:38
【独家】消息人士:菲飞机非法闯我黄岩岛领空遭解放军警告驱离

【独家】消息人士:菲飞机非法闯我黄岩岛领空遭解放军警告驱离

环球网资讯
2026-03-18 16:11:16
破案了!34岁泰国被杀女子新进展:凶手长相帅气、有钱,也有案底

破案了!34岁泰国被杀女子新进展:凶手长相帅气、有钱,也有案底

笔墨V
2026-03-18 18:57:16
历史开了个玩笑,第一个倒下的不是乌克兰,而是百年中立的瑞士!

历史开了个玩笑,第一个倒下的不是乌克兰,而是百年中立的瑞士!

新车知多少
2026-03-18 01:21:21
市值蒸发2754亿!Lululemon的命,系在中国人的钱包上

市值蒸发2754亿!Lululemon的命,系在中国人的钱包上

说财猫
2026-03-18 22:46:47
38军在三所里缴获无数,江拥辉:打半辈子仗,从未见过的人间奇景

38军在三所里缴获无数,江拥辉:打半辈子仗,从未见过的人间奇景

阿器谈史
2026-03-18 16:19:40
属虎的,4月5号以后,你这三件“丑事”捂不住了

属虎的,4月5号以后,你这三件“丑事”捂不住了

智慧生活笔记
2026-03-18 19:31:49
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
在美国买了房,房子是你的不假一旦你无力负担房产税照样无家可归

在美国买了房,房子是你的不假一旦你无力负担房产税照样无家可归

忠于法纪
2025-12-23 21:02:38
突发,又一电商平台含泪倒下

突发,又一电商平台含泪倒下

品牌营销报
2026-03-18 09:31:27
新婚夜妻子出上联:人上有人人压人,丈夫的下联让妻子开心不已

新婚夜妻子出上联:人上有人人压人,丈夫的下联让妻子开心不已

周哥一影视
2026-03-17 14:21:07
内向理工男做出14亿人用的App:这所大学,为何盛产科技大佬?

内向理工男做出14亿人用的App:这所大学,为何盛产科技大佬?

最华人
2026-03-17 14:38:22
四川一老父亲坐30小时大巴带上百斤土特产看女儿,女儿:我心疼他,不让他带就生气

四川一老父亲坐30小时大巴带上百斤土特产看女儿,女儿:我心疼他,不让他带就生气

观威海
2026-03-18 22:35:12
美司令已有预感,中美一旦开战,摆在美军面前只有两个选择

美司令已有预感,中美一旦开战,摆在美军面前只有两个选择

让生活充满温暖
2026-03-11 21:04:01
伊朗外长称拉里贾尼遇害不会动摇伊朗政治架构,如果有一天外交部长殉职,最终也会有人接替

伊朗外长称拉里贾尼遇害不会动摇伊朗政治架构,如果有一天外交部长殉职,最终也会有人接替

大象新闻
2026-03-18 17:52:01
600468,2分钟直线封板!储能板块,涨停潮!

600468,2分钟直线封板!储能板块,涨停潮!

证券时报e公司
2026-03-18 12:22:31
伊朗证实巴斯基民兵指挥官在美以袭击中丧生

伊朗证实巴斯基民兵指挥官在美以袭击中丧生

澎湃新闻
2026-03-18 18:25:03
默茨与伊朗战争“划清界限”

默茨与伊朗战争“划清界限”

参考消息
2026-03-17 18:59:26
火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

火没灭,烟又起!朝鲜半岛,正在成为新的风暴中心

空间展示知识
2026-03-15 20:42:34
武汉卓尔信息科技有限公司被暂停全军采购资格

武汉卓尔信息科技有限公司被暂停全军采购资格

齐鲁壹点
2026-03-18 14:14:24
2026-03-19 02:11:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

游戏要闻

全球先锋赛:G2崩溃,BLG零封G2!G2打不出BLG任何底牌

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

头条要闻

伊朗大部分地区突然"断网" 与国际互联网全面断联

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

家居
房产
教育
本地
公开课

家居要闻

复古格纹 轻法森系风

房产要闻

大规模召回离职员工?碧桂园最新回应!

教育要闻

学习效率低,常见的3个误区

本地新闻

春色满城关不住|粉色浪漫已至,来宁波共赏樱花雨

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版