《王者荣耀》要变天？腾讯TiG框架让AI大神队友带你飞|游戏|推塔|姜子牙|tig|moba|知名企业|宇宙机器人

《王者荣耀》要变天？腾讯TiG框架让AI大神队友带你飞

2025-09-05 12:17:01　来源: 学术头条

北京举报

分享至

人类《王者荣耀》玩家，真要打不赢 AI 了？

曾经，我们都以为，像《王者荣耀》这样需要实时操作、团队协作和战略判断的游戏，是人类玩家的绝对主场。哪怕是小学生，也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类，大语言模型（LLM）和传统 RL Agent 在这类游戏中的表现，却显得相对一般。

如今，一项来自腾讯的新研究或将颠覆我们的这种认知——

在“Think-In Games”（TiG）框架的帮助下，LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略，还能清晰地解释每一步决策的逻辑。

例如，在以下案例中，AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后，做出“打暴君、拿主宰”的最佳综合决策。

从技术层面讲，TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互，逐步掌握程序性理解能力（知道“如何做”），同时确保其原本具备的推理与解释能力（知道“是什么”）不受影响。

论文链接：https://arxiv.org/pdf/2508.21365

结果表明，TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟，以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

此外，TiG 还可以为决策提供逐步自然语言解释，提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域，一直存在一道难以跨越的鸿沟：陈述性知识（了解某事物）与程序性知识（掌握操作方法）的割裂。

简单来说，陈述性知识是 “知道某事”，比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”；而程序性知识是“知道如何做某事”，比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克，到多人在线战术竞技（MOBA）游戏，再到沙盒游戏，都成了测试 AI 认知能力的“考场”，提供了丰富的衡量和提升人工智能认知能力的基准，考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏，因其强调团队协作、长期规划和动态目标的特点，为探究高级推理提供了丰富的研究环境，既有可控性，能设定明确的规则和目标，又足够复杂，需要 AI 应对动态变化的战局，就像人类在童年通过玩耍学习一样，AI 也能在游戏里把理论知识转化为实践能力。

TiG框架：将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单：把传统 RL 的决策任务，变成 LLM 擅长的语言建模任务，再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令，转变为生成一段语言引导的策略。

表｜TiG 的提示模板

具体到《王者荣耀》的对局里，TiG 框架涉及如下关键技术细节：

游戏状态表征

TiG 会把《王者荣耀》的实时对局状态，用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时，TiG 定义了 40 个宏观动作，比如“推进上路兵线”“防守基地”“中路抱团”等，让 AI 聚焦于战略决策，而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里，好的战略往往比单个操作更能决定胜负。

构建数据集

TiG 的训练数据，来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私，没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1，只选玩家技能等级超过一定阈值的对局，确保数据有参考价值。

不过，真实对局里的动作标签可能很稀疏，或者不一致。TiG 专门设计了重标注（Relabeling）算法，核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧；如果同一帧有多个动作重叠，就根据动作优先级保留最重要的动作。这样一来，每个游戏状态都有准确的动作标签，AI 学起来更高效。

强化学习算法（GRPO）

TiG 使用了“群体相对策略优化”（GRPO）算法，该框架直接使用来自游戏状态-动作对的反馈来优化策略模型，专门解决《王者荣耀》这类复杂环境下的策略优化问题。

图｜TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略，然后计算每个策略的“组相对优势”——如同一对局状态下，某个策略的胜率比其他高多少，再用 KL 散度约束策略的变化幅度，避免 AI 突然做出离谱决策。

并且，TiG 采用二元奖励函数：如果 AI 预测的动和真实对局里的最优动作一致，就给 1 分；不一致就给 0 分。这种简单直接的奖励方式，能让 AI 快速学会打游戏的正确战略，同时避免冗余输出。

为了测试 TiG 的能力，研究团队在《王者荣耀》环境里做了大量实验，还对比了多个其它 LLM 模型（比如 Qwen 系列、Deepseek-R1）的表现。他们探索了多阶段训练的不同组合方式：

GRPO：仅使用 GRPO 方法训练基础模型；
SFT：使用 SFT 训练数据集训练基础模型；
SFT + GRPO：先用 SFT 训练基础模型，再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果，我们可以得出以下关键发现：

首先，多阶段训练——特别是 SFT 与 GRPO 的结合，显著提升了模型性能。

图｜动作预测任务（左），不同模型错误案例分布（右）

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里，准确率只有 66.67%，经过 TiG 的 GRPO 训练 160 步后，准确率提升到 86.84%，超过了参数规模大很多的 Deepseek-R1（86.67%）；Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后，准确率更是达到 90.91%，在《王者荣耀》的战略决策上远超其他模型。

同时，此训练方法还保留了通用语言和推理能力。

表｜关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科——在数学（Ape210K）、记忆（School-Chinese）、逻辑推理（BBH）等通用基准测试中，模型性能要么保持不变，要么略有提升。例如，Qwen-3-14B 在 BBH 逻辑推理任务中，训练后准确率从 65.8% 升到 66.9%。

此外，TiG 在其他任务中的泛化能力良好。

为了测试 TiG 的泛化能力，研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态，回答开放式问题。结果显示，TiG 在与游戏状态强相关的决策问题上，表现和 Deepseek-R1 相当，甚至在部分场景下更优，说明它不是只会“死记硬背”对局数据，而是真的理解了《王者荣耀》的战略逻辑。

表｜模型在与板载相关任务上的性能

实战案例

光看数据不够直观，来看看 TiG 在《王者荣耀》里的具体表现。

案例：主玩家操控的英雄是阿古朵，正和队友姜子牙一起，在中路对抗敌方血量较低的一塔。

TiG 先判断对局阶段：已经进入中后期，“防御塔和野区保护机制已经失效”。再看当前局势：刚发生过小规模冲突，敌方中路一塔血量低，是推进的好机会，但也有风险。阿古朵血量不足，而且敌方英雄位置不明，可能有埋伏。不过 TiG 在这里有个小失误，误判了双方人数（其实两队都还剩 3 个英雄），但整体分析还是准确的。

基于分析，TiG 把“摧毁敌方中路一塔”定为当前最高优先级目标。因为这能扩大优势，且配合姜子牙的控制技能，成功率很高。同时，TiG 明确“不能因为阿古朵血量低就撤退”，也“不能去追敌方残血英雄而放弃推塔”，确保团队不偏离核心目标。

接着，TiG 制定了对战的策略与指令。给出的具体指令很明确：“和姜子牙在敌方中路一塔处会合，集中火力推塔”，同时特别提醒 “注意敌方埋伏，保持警惕”。针对阿古朵的英雄特性，还建议 “保持安全距离输出，配合姜子牙的控制技能使用大招”，把英雄玩法和当前战术完美结合。

最终，TiG 把复杂的思考过程，浓缩成一句人类玩家能直接执行的指令：“和姜子牙联手压制敌方中路一塔，注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑，又清晰易懂，完全能和人类玩家配合打团。

未来：不止于《王者荣耀》

《王者荣耀》这一案例说明，TiG 框架既做到了“知道是什么”，又做到了“知道如何做”，以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而，研究团队也承认，TiG 依然存在一些局限性。如下：

严重依赖 LLM 的能力：TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性，尤其是在高度复杂或实时性强的环境中，可能会限制策略的表现。
领域泛化性待验证：目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。
样本效率有待提升：尽管 TiG 相比基线方法提高了样本效率，但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中，这一需求可能成为限制因素。
策略可解释性待提高：基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下，这些解释可能无法完全或准确地反映底层的决策过程。

为此，研究团队表示，可以从以下几个方向改进 TiG：

一方面，未来的工作将侧重于将 TiG 扩展到更广泛的环境中，包括那些具有更高复杂性和多样性的场景。此外，我们还希望提升生成解释的真实性，并引入多模态反馈（如视觉或听觉提示），以支持更丰富的操作性学习。

另一方面，研究需要长期记忆或跨越较长状态转移进行推理的任务。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来，我们在《王者荣耀》里遇到的“大神队友”，或许就是由 TiG 框架训练出来的 AI 了。

整理：小瑜

如需转载或投稿，请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月，「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验～

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.