网易首页 > 网易号 > 正文 申请入驻

《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

0
分享至


人类《王者荣耀》玩家,真要打不赢 AI 了?

曾经,我们都以为,像《王者荣耀》这样需要实时操作、团队协作和战略判断的游戏,是人类玩家的绝对主场。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。

如今,一项来自腾讯的新研究或将颠覆我们的这种认知——

在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。

例如,在以下案例中,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后,做出“打暴君、拿主宰”的最佳综合决策



从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同时确保其原本具备的推理与解释能力(知道“是什么”)不受影响。


论文链接:https://arxiv.org/pdf/2508.21365

结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟,以更低的数据和计算需求达到了与传统 RL 方法相当的性能

此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域,一直存在一道难以跨越的鸿沟:陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂

简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境,既有可控性,能设定明确的规则和目标,又足够复杂,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。

TiG框架:将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略


表|TiG 的提示模板

具体到《王者荣耀》的对局里,TiG 框架涉及如下关键技术细节:

  1. 游戏状态表征

TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。

  1. 构建数据集

TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。

不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了重标注(Relabeling)算法,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。

  1. 强化学习算法(GRPO)

TiG 使用了“群体相对策略优化”(GRPO)算法,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。


图|TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。

并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。

为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:

  • GRPO:仅使用 GRPO 方法训练基础模型;

  • SFT:使用 SFT 训练数据集训练基础模型;

  • SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果,我们可以得出以下关键发现:

首先,多阶段训练——特别是 SFT 与 GRPO 的结合,显著提升了模型性能


图|动作预测任务(左),不同模型错误案例分布(右)

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84%,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91%,在《王者荣耀》的战略决策上远超其他模型。

同时,此训练方法还保留了通用语言和推理能力


表|关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后准确率从 65.8% 升到 66.9%

此外,TiG 在其他任务中的泛化能力良好

为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。


表|模型在与板载相关任务上的性能

实战案例

光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。

案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。


TiG 先判断对局阶段:已经进入中后期,“防御塔和野区保护机制已经失效”。再看当前局势:刚发生过小规模冲突,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个小失误,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。

基于分析,TiG 把“摧毁敌方中路一塔”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。

接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“和姜子牙在敌方中路一塔处会合,集中火力推塔”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。

最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂,完全能和人类玩家配合打团

未来:不止于《王者荣耀》

《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而,研究团队也承认,TiG 依然存在一些局限性。如下:

  • 严重依赖 LLM 的能力:TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。

  • 领域泛化性待验证:目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。

  • 样本效率有待提升:尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。

  • 策略可解释性待提高:基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。

为此,研究团队表示,可以从以下几个方向改进 TiG:

一方面,未来的工作将侧重于将 TiG 扩展到更广泛的环境中,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。

另一方面,研究需要长期记忆或跨越较长状态转移进行推理的任务。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月,「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验~


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张镇麟加盟首次0分!上海大胜送四川7连败 古德温20+5+6

张镇麟加盟首次0分!上海大胜送四川7连败 古德温20+5+6

醉卧浮生
2025-12-27 21:16:05
美军火还未抵台,洪秀柱突然表态,大陆告知台当局,祖国势必统一

美军火还未抵台,洪秀柱突然表态,大陆告知台当局,祖国势必统一

文史旺旺旺
2025-12-26 20:16:07
73岁普京高调认爱,这就是相差41岁的“一见钟情”

73岁普京高调认爱,这就是相差41岁的“一见钟情”

吃瓜局
2025-12-26 15:30:08
实锤了?《亚洲周刊》扒出徐湖平的父亲身份,岳父疑似身份不简单

实锤了?《亚洲周刊》扒出徐湖平的父亲身份,岳父疑似身份不简单

老寓杂谈
2025-12-27 17:14:46
中新网报道:中国赴柬埔寨游客增长43.5%,你会去俄、柬旅游吗?

中新网报道:中国赴柬埔寨游客增长43.5%,你会去俄、柬旅游吗?

名人苟或
2025-12-27 06:04:21
他们吸过毒,曾经是“烂人”,想要个机会

他们吸过毒,曾经是“烂人”,想要个机会

大风新闻
2025-12-27 15:04:03
93分15板13助!就在今天,79年一遇的NBA奇迹诞生了

93分15板13助!就在今天,79年一遇的NBA奇迹诞生了

篮球大视野
2025-12-27 19:51:50
A股:历史或将重演,不出意外的话,十二月底,股市很可能这样走

A股:历史或将重演,不出意外的话,十二月底,股市很可能这样走

深析古今
2025-12-27 11:08:31
“万税之国”加拿大被冤枉了?实际税负比例竟然比中国还要低

“万税之国”加拿大被冤枉了?实际税负比例竟然比中国还要低

回旋镖
2025-12-27 13:46:40
刑满释放人员任职国有控股企业“高管” ,企业陷困境 一负责人回应:我也正被调查

刑满释放人员任职国有控股企业“高管” ,企业陷困境 一负责人回应:我也正被调查

红星新闻
2025-12-27 17:43:24
性高潮到底什么感觉?真实记录多位女性的自述

性高潮到底什么感觉?真实记录多位女性的自述

大忘路
2025-12-27 20:40:13
日本神奈川某高中因JK校服太可爱了遭扎堆偷拍

日本神奈川某高中因JK校服太可爱了遭扎堆偷拍

随波荡漾的漂流瓶
2025-12-26 18:35:03
李咏妻子哈文在美国过圣诞!吃全聚德烤鸭,调侃自己过成了中国年

李咏妻子哈文在美国过圣诞!吃全聚德烤鸭,调侃自己过成了中国年

娱乐圈圈圆
2025-12-27 10:37:31
再反转!助理辟谣姜昆没出国,网友曝飞机上合照,这次又社死

再反转!助理辟谣姜昆没出国,网友曝飞机上合照,这次又社死

知法而形
2025-12-26 23:23:24
曹建国已从院士名单中撤下

曹建国已从院士名单中撤下

观察者网
2025-12-27 14:20:07
姜昆风波事态升级,具体行程被扒出,当事人曝视频并不是拼接

姜昆风波事态升级,具体行程被扒出,当事人曝视频并不是拼接

凡知
2025-12-27 17:31:13
受权发布|全国人民代表大会常务委员会公告  〔十四届〕第十四号

受权发布|全国人民代表大会常务委员会公告  〔十四届〕第十四号

新华社
2025-12-27 18:03:13
俄上万亿高铁项目,不用中国高铁技术,采用锡纳拉集团,现在怎样

俄上万亿高铁项目,不用中国高铁技术,采用锡纳拉集团,现在怎样

老范谈史
2025-12-26 20:42:10
36岁银行女经理和丈夫先后自杀:生前花180万元预订豪车,身后留下两个幼女丨红星调查

36岁银行女经理和丈夫先后自杀:生前花180万元预订豪车,身后留下两个幼女丨红星调查

红星新闻
2025-12-27 10:37:08
新进展!庞叔令被调查组问询5小时,亚洲周刊遭水军围攻!

新进展!庞叔令被调查组问询5小时,亚洲周刊遭水军围攻!

知法而形
2025-12-26 23:21:46
2025-12-27 22:04:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1427文章数 5081关注度
往期回顾 全部

游戏要闻

Crisp颠覆认知放弃偶像包袱!穿黑丝直播太离谱,竟是Doinb的惩罚

头条要闻

美媒:特朗普显然触及了中国的红线 中方怒了

头条要闻

美媒:特朗普显然触及了中国的红线 中方怒了

体育要闻

NBA教练圈的布朗尼,花了22年证明自己

娱乐要闻

张昊唯逃税涉黄风波落幕:法院认定朋友造谣

财经要闻

注意,开始拉物价了!

科技要闻

小米也涨价了!业界称终端再不涨明年必亏

汽车要闻

好音响比大屏更重要?车企开始“听”用户的

态度原创

游戏
家居
艺术
旅游
公开课

PS5玩家注意!这个设置将改善成千上万款游戏的体验

家居要闻

格调时尚 智慧品质居所

艺术要闻

日本建筑大师出手,为台湾孩子打造知识地标!

旅游要闻

喜迎2026跨年乐享会:文旅康养共生 奏响时代华章

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版