网易首页 > 网易号 > 正文 申请入驻

《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

0
分享至

人类《王者荣耀》玩家,真要打不赢 AI 了?

曾经,我们都以为,像《王者荣耀》这样需要实时操作、团队协作和战略判断的游戏,是人类玩家的绝对主场。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。

如今,一项来自腾讯的新研究或将颠覆我们的这种认知——

在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。

例如,在以下案例中,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后,做出“打暴君、拿主宰”的最佳综合决策

从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同时确保其原本具备的推理与解释能力(知道“是什么”)不受影响。

论文链接:https://arxiv.org/pdf/2508.21365

结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟,以更低的数据和计算需求达到了与传统 RL 方法相当的性能

此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域,一直存在一道难以跨越的鸿沟:陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂

简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境,既有可控性,能设定明确的规则和目标,又足够复杂,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。

TiG框架:将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略

表|TiG 的提示模板

具体到《王者荣耀》的对局里,TiG 框架涉及如下关键技术细节:

  1. 游戏状态表征

TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。

  1. 构建数据集

TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。

不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了重标注(Relabeling)算法,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。

  1. 强化学习算法(GRPO)

TiG 使用了“群体相对策略优化”(GRPO)算法,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。

图|TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。

并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。

为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:

  • GRPO:仅使用 GRPO 方法训练基础模型;

  • SFT:使用 SFT 训练数据集训练基础模型;

  • SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果,我们可以得出以下关键发现:

首先,多阶段训练——特别是 SFT 与 GRPO 的结合,显著提升了模型性能

图|动作预测任务(左),不同模型错误案例分布(右)

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84%,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91%,在《王者荣耀》的战略决策上远超其他模型。

同时,此训练方法还保留了通用语言和推理能力

表|关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后准确率从 65.8% 升到 66.9%

此外,TiG 在其他任务中的泛化能力良好

为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。

表|模型在与板载相关任务上的性能

实战案例

光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。

案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。

TiG 先判断对局阶段:已经进入中后期,“防御塔和野区保护机制已经失效”。再看当前局势:刚发生过小规模冲突,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个小失误,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。

基于分析,TiG 把“摧毁敌方中路一塔”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。

接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“和姜子牙在敌方中路一塔处会合,集中火力推塔”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。

最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂,完全能和人类玩家配合打团

未来:不止于《王者荣耀》

《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而,研究团队也承认,TiG 依然存在一些局限性。如下:

  • 严重依赖 LLM 的能力:TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。

  • 领域泛化性待验证:目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。

  • 样本效率有待提升:尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。

  • 策略可解释性待提高:基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。

为此,研究团队表示,可以从以下几个方向改进 TiG:

一方面,未来的工作将侧重于将 TiG 扩展到更广泛的环境中,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。

另一方面,研究需要长期记忆或跨越较长状态转移进行推理的任务。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月,「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯预测,日本队与荷兰队争小组第一,德国队击败厄瓜多尔队

世界杯预测,日本队与荷兰队争小组第一,德国队击败厄瓜多尔队

足球分析员
2026-06-25 11:00:07
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
王楚钦、孙颖莎、王曼昱等入选国乒爱知-名古屋亚运会参赛名单

王楚钦、孙颖莎、王曼昱等入选国乒爱知-名古屋亚运会参赛名单

澎湃新闻
2026-06-25 11:04:05
上海要再造一条黄浦江?投资超500亿,2030年全线建成

上海要再造一条黄浦江?投资超500亿,2030年全线建成

荷兰豆爱健康
2026-06-25 12:57:35
深圳这家公司重新定义了八小时工作制,上午10点上班晚上9点下班

深圳这家公司重新定义了八小时工作制,上午10点上班晚上9点下班

捣蛋窝
2026-06-25 10:32:34
乌克兰击沉俄罗斯三艘军舰!重创奥伦堡天然气基地

乌克兰击沉俄罗斯三艘军舰!重创奥伦堡天然气基地

项鹏飞
2026-06-24 21:37:22
美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

美飞行员曝伊朗“创新武器”,“简直是外星来的东西”

环球时报国际
2026-06-24 16:38:47
被传与久保建英恋爱,日本女星新田幸香:世界杯球票是自己买的

被传与久保建英恋爱,日本女星新田幸香:世界杯球票是自己买的

懂球帝
2026-06-25 08:42:22
国台办回应郑丽文访美表态

国台办回应郑丽文访美表态

中国网
2026-06-24 13:52:23
被中方制裁全家11天后,菲防长终于露面。开口第一句,就露了馅

被中方制裁全家11天后,菲防长终于露面。开口第一句,就露了馅

花语轻吟
2026-06-25 01:57:20
万众期待!34岁内马尔时隔981天再为巴西队出战,19分钟2次送妙传

万众期待!34岁内马尔时隔981天再为巴西队出战,19分钟2次送妙传

我爱英超
2026-06-25 08:12:46
今年六月气温一反常态,白天温和早晚添衣,老话预兆别不当回事!

今年六月气温一反常态,白天温和早晚添衣,老话预兆别不当回事!

老特有话说
2026-06-25 01:25:03
“经常锻炼”被推翻?专家建议:过了60岁,最好保持3个锻炼习惯

“经常锻炼”被推翻?专家建议:过了60岁,最好保持3个锻炼习惯

观星赏月
2026-06-25 12:15:09
美伊冲突正式落幕,美军创五项首次纪录,16架预警机被炸毁

美伊冲突正式落幕,美军创五项首次纪录,16架预警机被炸毁

钩子的爱好
2026-06-23 18:29:00
几十万只蚊子“以命代言”,这广告直接拿下戛纳大奖!

几十万只蚊子“以命代言”,这广告直接拿下戛纳大奖!

最黑科技
2026-06-25 01:11:37
博主被陌生人辱骂,跨市找到其单位,身份曝光是老师,结局爽了

博主被陌生人辱骂,跨市找到其单位,身份曝光是老师,结局爽了

宝哥精彩赛事
2026-06-25 08:13:06
高考出分后,他发帖求助:中流985还是再战一年?

高考出分后,他发帖求助:中流985还是再战一年?

娱圈观察员
2026-06-24 00:11:16
哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

心理观察局
2026-06-24 07:49:11
被骂上热搜的WPS,背后实控人是雷军

被骂上热搜的WPS,背后实控人是雷军

新浪财经
2026-06-24 22:37:50
4天3板!600584,拟投巨资建高端封测厂

4天3板!600584,拟投巨资建高端封测厂

数据宝
2026-06-25 10:57:20
2026-06-25 15:16:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1434文章数 5081关注度
往期回顾 全部

游戏要闻

198元!《龙之信条2》永久降价 全新DLC今年就来

头条要闻

男子1岁半儿子被女友踢死后出具谅解书 生父最新发声

头条要闻

男子1岁半儿子被女友踢死后出具谅解书 生父最新发声

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

白玉兰颁奖预测,杨幂胜算大吗?

财经要闻

财报炸裂!美光让空头闭嘴

科技要闻

宇树机器人大降价

汽车要闻

少个轮子也能跑?方程豹豹8闪充版云辇P Ultra让新手越野不心慌

态度原创

房产
教育
亲子
本地
时尚

房产要闻

万万没想到 这家国企造的住宅竟成了区域顶流!

教育要闻

中考数学难不难?权威解析来了——

亲子要闻

雷暴哮喘 夏季儿科一大急诊 家长提前知晓

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

最高级的夏季配色,来了!

无障碍浏览 进入关怀版