普林斯顿大学和德州大学奥斯汀分校联手破解游戏AI的终极难题|奥运|rpg|宝可梦|游戏ai

分享至

这项由普林斯顿大学、德州大学奥斯汀分校以及卡内基梅隆大学等多家顶尖学府合作的研究发表于2025年的第39届神经信息处理系统大会（NeurIPS 2025），论文编号为arXiv:2603.15563v1。

当你坐在电脑前玩宝可梦游戏时，可能从未想过这个充满童趣的游戏世界竟然隐藏着人工智能研究的终极挑战。就像一个看似简单的魔方却包含了4.3×10^19种可能的组合一样，宝可梦游戏背后的复杂性远超我们的想象。

想象你是一名侦探，要在完全陌生的城市里破解一起复杂案件。你不仅要从有限的线索中推断真相，还要与其他同样聪明的侦探竞争，同时还得记住成千上万条相互关联的信息。这正是宝可梦游戏为AI系统带来的挑战：在信息不完整的情况下进行策略推理，在竞争环境中做出长期规划，并在数以万计的可能选择中找到最优解。

传统的AI基准测试就像是让学生做标准化考试，每道题都有标准答案，考试时间固定，环境可控。然而现实世界的挑战更像是让这些学生参加一场即兴辩论赛，不仅要快速思考，还要应对对手的意外招数，在信息不完整的情况下做出最佳判断。

这个研究团队发现了一个令人惊讶的事实：尽管目前最先进的AI模型在许多任务上已经超越了人类，但当它们面对宝可梦这样的复杂游戏环境时，表现却远不如人类玩家。这就像是一个在实验室里表现完美的机器人，一旦走出实验室面对真实世界的复杂情况就变得手足无措。

研究团队创建了PokéAgent挑战赛，这个比赛包含两个截然不同但又相互补充的赛道。第一个赛道聚焦于宝可梦对战，要求AI在看不见对手完整信息的情况下进行策略对决，就像下国际象棋但看不到对手的棋子一样。第二个赛道则考验AI的长期规划能力，要求它们尽可能快地完成宝可梦翡翠版的游戏流程，这需要连续做出数千个相互关联的决定。

令人震惊的是，这个看似简单的游戏挑战吸引了全球100多支顶尖研究团队的参与，超过650名研究者在短短几个月内投入到这场AI能力的终极测试中。比赛结果揭示了当前AI技术的一个重要盲点：专门训练的强化学习系统在对战中表现出色，但通用的大语言模型却表现平平；而在需要长期规划的任务中，即使是最先进的AI模型也需要复杂的辅助系统才能取得进展。

这项研究的重要性远远超出了游戏本身。宝可梦游戏环境提供了一个独特的测试平台，能够同时检验AI系统在策略思维、长期规划和不确定环境下决策等多个维度的能力。研究团队发现，在宝可梦对战中表现良好的AI能力与现有的标准AI测试几乎毫无关联，这意味着我们需要全新的评估方法来真正理解AI系统的实际能力。

一、解密宝可梦世界的复杂性

当大多数人提到宝可梦时，脑海中浮现的可能是皮卡丘那张可爱的脸，或者是动画片中小智和他的伙伴们的冒险故事。然而，从AI研究的角度来看，宝可梦世界展现出的复杂程度足以让最先进的计算机系统望而却步。

想象你正在玩一个巨大的多层次游戏。在这个游戏中，你首先要像建筑师一样设计你的团队——从超过1000种不同的宝可梦中选择6只，为每只配置4个技能、合适的道具和能力值分配。这个过程就像是从天文数字般的可能组合中找到最优解，具体来说是10^215种可能的团队配置。

接下来的对战阶段更加复杂。每次对战都像是一场信息不对称的间谍游戏。你能看到对手宝可梦的外观，但不知道它具体的能力值、携带的道具，甚至不确定它会使用哪些技能。在这种情况下，你需要根据有限的信息推测对手的策略，同时规划自己的行动。每个回合都要在大约9种可能的行动中做出选择，而一场对战通常要进行20到100个回合。

研究团队发现，宝可梦对战的状态空间复杂度达到了惊人的10^564——这个数字远远超过了国际象棋的10^47和围棋的10^170。为了理解这个数字的含义，可以想象一下：如果宇宙中的每个原子都代表一个围棋局面，所有这些局面加起来仍然远远少于一个宝可梦对战的可能状态数。

但复杂性还不止于此。与传统游戏不同，宝可梦的"规则"并非一成不变。游戏的管理机构会定期调整游戏平衡，就像足球联盟偶尔会修改规则一样。此外，玩家群体会不断发展新的策略，形成所谓的"元游戏"（metagame）。今天流行的队伍配置可能在下个月就被新的策略完全克制。这种动态变化意味着AI系统不能仅仅依靠记忆已知的策略，而必须具备真正的适应能力。

二、双轨挑战的设计哲学

面对宝可梦世界的巨大复杂性，研究团队设计了一个双轨系统，就像为不同类型的运动员设计不同的奥运项目一样。每个赛道都专门测试AI的特定能力，但两者结合起来能够全面评估一个AI系统的综合实力。

第一个赛道聚焦于竞技对战，使用的是著名的Pokémon Showdown平台。这个平台就像是宝可梦世界的在线棋类游戏室，每天有成千上万的玩家在这里进行对战。研究团队选择了两个代表性的对战格式：第一代OU（Original Universe）和第九代OU。

第一代OU格式就像古典音乐，虽然规则相对简单，但正是这种简洁性创造了更多的战术深度。在这个格式中，隐藏信息的作用更加突出，因为可选择的宝可梦和技能相对较少，玩家更容易进行深度的心理博弈。相比之下，第九代OU格式就像现代交响乐，加入了太晶化（Terastallization）等新机制，使得战术选择更加丰富多样。

对战赛道的评估系统设计得颇为巧妙。研究团队没有采用简单的胜负记录，而是使用了多种评分系统的组合。其中最主要的是全历史布拉德利-特里评分（Full-History Bradley-Terry），这个系统能够更准确地反映不同AI系统的真实实力水平。就像体育比赛中的世界排名一样，这个系统考虑了所有历史对战记录，并给出带有不确定度的评分。

第二个赛道则完全不同，它要求AI系统完成宝可梦翡翠版的速通挑战。速通就像是在限定时间内完成一次复杂的寻宝游戏，不仅要找到正确的路径，还要以最快的速度执行。这个挑战需要AI系统协调多种不同的能力：视觉感知（理解游戏画面）、长期记忆（记住重要的地点和物品）、路径规划（找到最优路线）以及战斗策略（打败遇到的对手）。

速通赛道的设计特别注重实时性。与许多AI研究中允许无限思考时间不同，这里的AI必须在游戏继续运行的情况下做出决策。这就像是要求一名司机在高速公路上行驶时同时阅读地图、计算最优路线并避开障碍物，不能停车慢慢思考。

为了确保公平比较，研究团队创建了标准化的评估框架。他们将速通过程分解为15个关键里程碑，从离开新手村到击败第一个道馆馆主。每个AI系统都在相同的环境中接受测试，使用相同的游戏版本和相同的评估标准。这就像是为所有参赛的赛车手提供相同的赛道条件，确保比较结果的公正性。

三、AI军团的激烈较量

2025年的这场AI挑战赛吸引了前所未有的关注度。超过100支团队报名参赛，650多名研究者加入了技术交流群，形成了一个活跃的研究社区。这个规模相当于一次小型的国际学术会议，但参与者的热情和投入程度远超普通的学术活动。

对战赛道的竞争异常激烈。经过数月的预选赛，前8名队伍进入了淘汰赛阶段。令人意外的是，最终夺冠的队伍并非来自知名的大型科技公司，而是相对较小的研究团队。在第一代OU格式中，PA-Agent团队凭借创新的离线强化学习方法夺得冠军。他们的系统使用了一种巧妙的策略：首先从人类玩家的对战记录中学习基础知识，然后通过自我对战不断改进，最终形成了超越人类水平的对战能力。

第九代OU格式的冠军FoulPlay则采用了完全不同的方法。这个系统基于蒙特卡洛树搜索（MCTS），就像AlphaGo的宝可梦版本。它能够在每一步之前进行深度的前瞻计算，预测10个回合之后可能出现的局面。特别巧妙的是，FoulPlay开发了一套"伤害分组"技术，将具有相似战术意义的伤害数值归为一类，大大提高了搜索效率。

速通赛道的结果更加出人意料。获得冠军的Heatz团队开发了一种名为"脚本策略蒸馏"（SPD）的创新方法。这个方法的思路颇为巧妙：首先让大语言模型将复杂任务分解为多个子目标，然后为每个子目标生成可执行的脚本，最后通过强化学习将这些脚本"蒸馏"成高效的神经网络策略。

Heatz的系统表现令人印象深刻，以40分13秒的成绩完成了第一个道馆的挑战，比第二名快了近一倍。更有趣的是，通过强化学习优化后的系统甚至发现了一些人类速通玩家都不知道的技巧，比如更短的移动路径和更高效的战斗策略。

第二名Hamburg PokéRunners团队选择了更传统的强化学习路径。他们使用递归近端策略优化（Recurrent PPO）训练AI系统，并创新性地引入了"里程碑向量"来帮助AI记住已完成的任务。这个向量就像是AI的"成就清单"，帮助它在复杂的游戏环境中保持方向感。

第三名Anthonys团队则展示了精心设计的辅助系统的威力。他们将游戏过程分解为不同的阶段，为每个阶段设计专门的导航策略，并结合A*寻路算法来计算最优移动路线。虽然这种方法看起来更加"工程化"，但在实际应用中表现出了很好的稳定性。

比赛中最令人意外的发现是大语言模型的表现。尽管GPT、Claude和Gemini等模型在许多任务中表现出色，但在宝可梦挑战中却遇到了严重困难。没有复杂辅助系统的支持，这些模型在速通任务中几乎无法取得有意义的进展。这就像是让一个博学的教授去野外求生，理论知识丰富但缺乏实际操作能力。

四、意外发现：AI的能力鸿沟

比赛结果揭示了当前AI技术中一些令人意外的能力差距。这些发现就像是在看似平静的湖面下发现了复杂的暗流，对我们理解AI的真实能力有着重要启示。

专业AI与通用AI之间的鸿沟比想象中更大。在对战赛道中，专门为宝可梦训练的强化学习系统表现远超通用的大语言模型。最强的强化学习系统能够达到相当于人类高水平玩家的表现，而即使是最先进的大语言模型，在没有复杂辅助系统的情况下，表现也只相当于普通新手玩家。

这种差距在速通赛道中表现得更加明显。研究团队发现，原始的大语言模型在这个任务中的完成率接近于零。它们经常会在游戏的早期阶段就陷入困境，比如在对话循环中卡死，或者在简单的导航任务中迷失方向。这就像是让一个只在图书馆里学习过驾驶理论的人直接开车上高速公路，结果可想而知。

然而，当为大语言模型配备适当的"辅助系统"后，情况发生了戏剧性的改变。这些辅助系统就像是为AI配备了一整套专业工具：感知工具（理解游戏画面）、记忆工具（记录重要信息）、规划工具（制定行动计划）和反思工具（分析错误并改正）。有了这些工具的帮助，大语言模型的表现有了质的飞跃。

研究团队还发现了不同AI模型的独特"性格缺陷"。Claude模型容易出现"记忆腐败级联"现象，一旦错误信息进入其上下文，就会持续很长时间沿着错误路径前进。Gemini模型则表现出"路障行为"，在面对冲突目标时会在不同选择间反复摇摆。GPT模型显示出过度的"计划承诺"，即使策略明显不当也会坚持执行很长时间。而Qwen模型最容易陷入"计算瘫痪"，会在简单的类型相克计算中卡住很长时间。

最有趣的发现可能是宝可梦对战能力与现有AI评估标准之间几乎没有关联。研究团队将比赛结果与BenchPress评估矩阵进行了对比分析。BenchPress是一个包含83个模型和49个基准测试的大型评估框架，能够用仅仅两个潜在维度解释90%以上的性能差异。然而，宝可梦对战的表现却无法被这个低维结构解释，显示出它测试的是一些现有基准测试完全没有覆盖的能力。

这个发现的意义非常重大。它表明，尽管我们有大量的AI基准测试，但可能遗漏了一些重要的认知能力。宝可梦对战需要的策略推理、不确定环境下的决策和对抗性思维，显然是当前评估体系的盲点。

五、技术突破与创新方法

参赛团队开发的创新方法为AI研究带来了许多有价值的技术突破。这些方法就像是为解决复杂难题而发明的新工具，其中许多都有着广泛的应用前景。

冠军团队Heatz开发的脚本策略蒸馏（SPD）方法特别值得关注。这个方法的核心思想是将大语言模型的抽象推理能力与强化学习的高效执行能力结合起来。整个过程分为三个阶段：首先，大语言模型将复杂的长期任务分解为一系列具体的子目标，比如"离开家"、"前往101号路线"、"选择初始宝可梦"等。接着，模型为每个子目标生成可执行的脚本代码，这些脚本包含了详细的行动逻辑。最后，通过模仿学习和强化学习，将这些脚本的知识转移到神经网络中，形成能够快速执行的策略。

这种方法的优势在于结合了两种AI系统的长处。大语言模型擅长高级推理和任务分解，但执行速度较慢；强化学习系统执行迅速，但往往缺乏高级推理能力。SPD方法就像是让一个善于战略规划的将军与一群行动迅速的士兵配合作战，发挥各自的优势。

PA-Agent团队在对战赛道的成功得益于他们对数据动态加权的创新使用。他们发现，简单地将人类对战记录与AI自对战数据混合并不是最优策略。相反，他们开发了一种动态调整数据比例的方法：在训练初期，系统主要从人类数据中学习基础知识；随着训练的进行，逐渐增加自对战数据的比重，最终将人类数据比例降低到10%。这种方法避免了低质量决策的干扰，同时保持了人类专家知识的价值。

FoulPlay团队的根并行蒙特卡洛树搜索也展现了技术创新。传统的MCTS在宝可梦这样的复杂环境中会遇到搜索空间爆炸的问题。FoulPlay通过伤害分组技术巧妙地解决了这个问题。他们将具有相似战术意义的伤害结果归为一类，比如将所有能够击败对手的伤害值归为"致命伤害"类别，将所有不足以击败对手的伤害值归为"非致命伤害"类别。这种简化大大减少了需要搜索的状态数量，使得深度搜索成为可能。

Hamburg团队的里程碑条件化训练方法也很有创意。他们在AI系统中引入了一个二进制向量，用于编码已完成的游戏里程碑。这个向量既作为记忆组件，帮助AI记住已完成的任务，也作为目标条件，指导AI当前应该追求什么目标。这种设计对于缓解灾难性遗忘问题非常有效，使得AI能够在复杂的长期任务中保持一致的进展方向。

4thLesson团队则在优化算法层面做出了贡献。他们使用Kron优化器替代了传统的AdamW优化器，并采用了激活间隔丢弃（AID）技术。Kron优化器虽然计算成本更高，但在扩展模型规模时能够提供更稳定的梯度流。AID技术则通过引入额外的线性性来缓解持续学习中的可塑性损失问题。

六、深层启示与未来展望

宝可梦AI挑战赛的结果为我们理解人工智能的能力边界提供了深刻启示。这些发现就像是在AI能力的地图上标出了未知的terra incognita，指明了未来研究的重要方向。

最重要的发现是视觉理解仍然是AI系统的重大瓶颈。尽管当前的视觉-语言模型在许多任务上表现出色，但在需要精确理解游戏画面细节的情况下，它们仍然力不从心。参赛者普遍反映，AI系统经常犯一些让人哭笑不得的视觉错误，比如分不清方向键的上下，或者无法准确识别游戏菜单的选项。这个问题的根源在于，现有的视觉模型主要针对静态图像进行训练，而游戏环境需要理解动态、交互式的视觉信息。

另一个重要发现是专用AI与通用AI之间的巨大性能差距。这个差距不仅存在于最终表现上，更体现在学习效率和适应能力上。专用的强化学习系统可以通过相对较少的训练达到很高的水平，而通用模型即使经过大量训练，在特定任务上的表现也可能不尽人意。这就像是专业运动员与业余爱好者之间的差距，不仅体现在技能水平上，更体现在训练效率和专项能力上。

然而，挑战赛也展示了混合方法的巨大潜力。最成功的系统往往是那些巧妙结合了不同AI技术优势的方案。比如，Heatz团队的SPD方法结合了大语言模型的推理能力和强化学习的执行效率；一些参赛团队则将符号推理与神经网络学习相结合，既保留了逻辑推理的精确性，又获得了学习能力的灵活性。

研究团队识别出了四个关键的技术挑战方向。首先是视觉-语言同步定位与地图构建（VLM-SLAM）问题。当前的AI系统在基础的定位、距离估计和目标检测方面仍然存在显著不足。开发能够通过语言-视觉接口构建一致空间表示的系统，类似于传统机器人学中的SLAM技术，但通过语言描述而非几何计算实现，将是一个重要突破。

其次是缩小LLM与RL之间的性能差距。虽然强化学习方法在竞技对战中表现出色，但开发能够达到相同性能水平的LLM agent，或者创建能够结合两者优势的混合方法，仍然是一个开放问题。这不仅有理论价值，更有实际应用意义，因为LLM-based系统通常更容易解释和修改。

第三个挑战是使用开源模型实现全游戏完成。虽然专有的前沿模型已经能够在大量辅助系统帮助下完成完整的宝可梦RPG，但没有开源模型能够做到这一点。实现这个目标将使长期RPG评估对更多研究团队变得可行，促进该领域的民主化发展。

最后是接近人类速通时间的挑战。目前最好的AI系统（Heatz的40分13秒）仍然比人类速通玩家慢2.2倍。缩小这个差距需要在导航效率、障碍避免和目标排序等方面取得进展，这些能力对时间关键的规划任务具有更广泛的相关性。

七、超越游戏的深远影响

PokéAgent挑战赛的意义远远超越了游戏AI本身，它为整个人工智能领域提供了重要的方法论启示和技术方向。这个挑战就像是AI能力的一面镜子，映射出当前技术的真实状况和未来发展的可能路径。

从评估方法学的角度来看，宝可梦环境提供了一种全新的AI能力测试范式。传统的AI评估往往将不同能力分离测试，比如单独测试语言理解、视觉识别或逻辑推理。而宝可梦环境要求AI系统同时展示多种能力，更接近真实世界的复杂性。这种综合性评估揭示了一些在单一能力测试中无法发现的问题，比如不同AI系统在面对压力时的"性格差异"。

更重要的是，这个挑战展示了AI系统在面对真正开放性问题时的表现。与许多标准化测试不同，宝可梦游戏没有标准答案，成功的策略可能有很多种。这种开放性更好地反映了AI系统在现实世界中需要面对的情况，也解释了为什么一些在标准测试中表现优异的模型在这里遇到困难。

从技术发展的角度来看，比赛催生的许多创新方法已经开始在其他领域发挥作用。例如，为游戏AI开发的模块化上下文工程技术已经影响了自主编程agent的设计。现在的编程助手系统如Claude Code等都采用了类似的架构模式：跨会话的持久记忆、复杂任务的分层规划、结构化的代码库感知等。

这种技术转移现象表明，游戏AI研究具有重要的溢出效应。游戏环境提供了一个安全、可控的测试平台，让研究者能够验证新的agent架构，而这些架构随后可以应用到更广泛的实际问题中。从某种意义上说，游戏AI研究就像是自主agent技术的"试验田"。

挑战赛还突出了标准化评估的重要性。在PokéAgent之前，各种"X玩宝可梦"的演示虽然引人注目，但由于使用不同的游戏版本、不同的辅助系统和不同的评估标准，很难进行有意义的比较。PokéAgent通过提供标准化的环境和评估协议，使得不同方法之间的比较变得可能和公正。

这种标准化的价值在AI研究历史上已经得到多次验证。Atari学习环境（ALE）催化了十年的强化学习进步，ImageNet推动了计算机视觉的革命，GLUE/SuperGLUE基准测试加速了自然语言处理的发展。PokéAgent有潜力在多智能体学习、长期规划和复杂环境适应等领域发挥类似的推动作用。

从社会影响的角度来看，这项研究也提出了一些值得思考的问题。当AI系统能够在复杂的策略游戏中超越人类时，我们需要重新思考人机协作的模式。在某些需要快速决策和大量计算的场景中，AI可能比人类更有优势；但在需要创造性思维和直觉判断的场景中，人类可能仍然不可替代。

此外，不同AI系统展现出的"性格差异"也为我们理解AI的行为模式提供了新的视角。这些差异不仅是技术问题，也可能影响AI系统在不同应用场景中的适用性。了解这些差异有助于我们为不同的任务选择合适的AI系统，也为开发更加稳健的AI提供了指导。

说到底，PokéAgent挑战赛揭示的最重要问题可能是：我们距离真正的通用人工智能还有多远？当前最先进的AI系统在面对一个看似"简单"的游戏时仍然表现出明显的局限性，这提醒我们，通向AGI的道路可能比我们想象的更加曲折。然而，挑战赛同时也展示了AI技术的巨大潜力和快速进步的可能性。

这项研究为AI发展提供了一个重要的里程碑式评估，不仅测试了当前技术的边界，也为未来的研究方向指明了道路。随着技术的不断进步，我们可以期待看到更多创新方法的涌现，以及AI系统在复杂任务中表现的持续改善。而这一切，都始于一个看似简单的问题：AI能否像人类一样玩宝可梦游戏？答案的探索过程，正在重新定义我们对人工智能能力的理解。

Q&A

Q1：PokéAgent挑战赛是什么？

A：PokéAgent挑战赛是由普林斯顿大学、德州大学等顶尖学府联合举办的大规模AI能力测试比赛，包含宝可梦对战和RPG速通两个赛道，吸引了全球100多支团队参与，旨在测试AI在策略推理、长期规划和复杂环境适应等方面的真实能力。

Q2：为什么宝可梦游戏对AI来说这么困难？

A：宝可梦游戏的复杂性远超想象，状态空间达到10^564种可能性，需要AI在信息不完整的情况下进行策略推理，同时应对对手的动态策略变化。这种复杂性结合了不确定性决策、长期规划和对抗性思维，正是当前AI系统的薄弱环节。

Q3：比赛结果显示了AI技术的哪些问题？

A：比赛揭示了专用AI与通用AI之间的巨大差距，强化学习系统在对战中表现优异，而大语言模型即使是最先进的版本也需要复杂辅助系统才能取得进展。同时发现宝可梦对战能力与现有AI评估标准几乎无关联，说明我们遗漏了一些重要的认知能力测试。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.