纽约大学突破：AI实现多角色同步控制《我的世界》场景建模|游戏|机器人|虚拟世界|生化危机

分享至

这项由纽约大学主导的突破性研究发表于2026年2月，论文编号为arXiv:2602.22208v2，研究团队开发出了名为Solaris的多人游戏世界模型。有兴趣深入了解的读者可以通过该编号查询完整论文。

在人工智能领域，让机器学会"看懂"和"预测"虚拟世界一直是个巨大挑战。以往的AI系统就像一个只能从单一窗口观察房间的人，无法理解整个空间的全貌。而纽约大学的这项研究则让AI获得了"多重视角"的能力，就像同时拥有多双眼睛，能够从不同角度观察和理解同一个虚拟世界。

研究团队选择《我的世界》作为实验场所，这个选择颇具智慧。《我的世界》就像一个巨大的数字乐高世界，玩家可以自由建造、挖掘、探索，而且支持多人同时游戏。这种复杂的三维环境对AI来说是个极好的测试场地，因为它需要理解空间关系、物体交互、以及多个玩家之间的协作行为。

传统的AI视频生成模型就像一个只会模仿单人表演的演员，虽然能够生成看起来真实的视频，但无法处理多人互动的复杂场景。当两个或更多玩家在同一个虚拟世界中行动时，他们的行为会相互影响，就像现实世界中的蝴蝶效应一样，一个玩家放置一个方块，另一个玩家的视野中就会出现这个方块，这种视角一致性对AI来说是个巨大挑战。

Solaris模型的核心创新在于它能够同时理解和预测多个玩家的视角。当玩家A在建造一面墙时，模型不仅要准确预测玩家A看到的建造过程，还要同时预测站在不同位置的玩家B会看到什么。这就像一个导演同时掌控多台摄像机，确保每个镜头都与其他镜头保持逻辑一致性。

为了训练这个复杂的模型，研究团队创建了一个名为SolarisEngine的数据收集系统。这个系统就像一个自动化的电影摄制组，能够让虚拟的"演员"（游戏机器人）在《我的世界》中进行各种活动，同时从多个角度记录下所有的行为和视觉变化。这些机器人会进行建造房屋、挖掘矿物、相互战斗、追逐游戏等多种活动，就像真正的玩家一样。

通过这个系统，研究团队收集了超过1200万帧的多人游戏画面，相当于数百小时的高质量游戏录像。这些数据就像是AI的"教科书"，帮助它学会理解多人游戏中的各种复杂情况。

一、构建虚拟世界的"摄影棚"

要让AI学会理解多人游戏，首先需要大量高质量的训练数据。研究团队面临的第一个挑战就像是要在《我的世界》中建立一个专业的电影摄制组，既要有"演员"（游戏机器人）来表演各种游戏行为，还要有"摄像师"来记录整个过程。

现有的游戏AI平台就像是为单人表演设计的简陋舞台，虽然能够控制游戏角色进行简单动作，但无法支持复杂的多人协作场景。研究团队发现，要么是平台支持多人游戏但无法精确控制角色行为，要么是能够精确控制但不支持多人模式，更别说要记录高质量的视觉画面了。

因此，研究团队从零开始构建了SolarisEngine系统。这个系统的巧妙之处在于将每个虚拟玩家分解为两个部分：一个"控制器"负责决定角色的行为，另一个"摄像机"负责记录角色看到的画面。控制器就像是幕后的木偶师，通过编程指令让游戏角色执行各种复杂的任务，比如建造特定形状的建筑物、与其他角色协作完成项目、或者进行战斗。

摄像机部分则更像是专业的摄影师，它会完全模仿控制器指挥的角色行为，确保记录下的画面与实际游戏状态完全一致。这种设计解决了一个技术难题：如何确保记录的视频与游戏中的实际行为精确对应。

为了让这些虚拟"演员"能够进行真实有趣的游戏行为，研究团队创建了一个丰富的技能库。这些技能就像是演员的台词本，包含了建造、挖掘、战斗、探索等各种游戏活动的具体执行方案。更重要的是，这些技能支持多人协作，比如两个机器人可以合作建造一座桥梁，一个负责搭建桥墩，另一个负责铺设桥面。

整个系统采用容器化技术进行部署，就像是把整个摄制组打包成一个个可以快速部署的单元。这样做的好处是可以同时运行多个"摄制组"，大幅提高数据收集的效率。当某个游戏场景出现问题或者卡住时，系统会自动检测并重新开始，确保数据收集过程的连续性。

通过这个精心设计的系统，研究团队成功收集了包含四大类游戏场景的数据：建造场景包括房屋、塔楼、桥梁等结构的建设；战斗场景涵盖玩家间对战和与怪物作战；移动场景包括追逐、环绕、直线行走等各种运动模式；挖掘场景则包含地下探索、矿物开采、地形改造等活动。

这些数据的珍贵之处在于它们完美捕捉了多人游戏中的互动细节。当一个玩家放置方块时，系统同时记录了这个动作在所有其他玩家视角中的表现。当玩家们合作建造时，每个人的贡献都被准确记录下来。这种多视角同步记录为训练多人世界模型提供了理想的数据基础。

二、让AI学会"多重视角"的思考

收集到海量数据后，下一个挑战是设计能够处理多人视角的AI架构。传统的视频生成模型就像是只会画肖像画的画家，虽然技艺精湛，但只能专注于单一对象。而Solaris需要成为一个能够同时处理多个角色、多个视角的"全景画家"。

研究团队的解决方案颇具巧思。他们没有完全重新发明轮子，而是在已有的优秀视频生成模型基础上进行巧妙改造。这就像是给一台单座跑车改装成双座车，既保持了原有的强大性能，又增加了新的功能。

核心的技术创新在于"视觉交错"机制。简单来说，就是让模型在处理视频时，将不同玩家的画面按时间顺序交错排列，就像编织毛衣时交替使用不同颜色的线一样。这样做的好处是模型可以同时"看到"所有玩家的视角，并且理解它们之间的关联性。

为了让模型能够区分不同的玩家，研究团队为每个玩家分配了独特的身份标识，就像给每个演员戴上不同颜色的名牌。模型在处理每一帧画面时，都知道这是来自哪个玩家的视角，从而能够做出相应的预测和调整。

更巧妙的是，模型采用了"共享注意力"机制。这个机制就像是一个善于协调的指挥家，能够让交响乐团中的不同乐器既保持各自的特色，又和谐统一。在视频生成过程中，不同玩家的视角信息会相互交流和影响，确保生成的多个视角在逻辑上保持一致。

举个具体例子来说，当玩家A在建造一面墙时，模型不仅要预测玩家A会看到墙体逐渐升高的过程，还要同时预测站在墙另一侧的玩家B会看到什么。如果玩家B正好面对着正在建造的墙面，那么在玩家B的视角中也应该看到相同的建造过程，只是角度不同。这种跨视角的一致性正是Solaris模型的核心能力。

模型的动作处理部分也经过了专门优化。研究团队扩展了原有模型的动作空间，让它能够理解《我的世界》中的各种复杂操作，包括移动、跳跃、放置方块、挖掘、攻击、物品切换等。这就像是给模型配备了一套完整的"游戏手册"，让它知道每种动作会产生什么样的视觉效果。

三、循序渐进的训练策略

训练这样一个复杂的多人世界模型就像是培养一个全能的游戏玩家，需要循序渐进的学习过程。研究团队设计了一个四阶段的训练流程，就像是从幼儿园到大学的教育体系，每个阶段都有明确的学习目标和内容。

第一阶段是单人游戏的强化训练。虽然最终目标是多人世界建模，但研究团队发现让模型先彻底掌握单人游戏的各种情况是非常重要的基础。这就像是学习舞蹈时要先练好基本功，掌握了单人的动作要领，才能更好地进行双人或群体舞蹈。

在这个阶段，模型使用了大量的人类游戏数据进行训练。这些数据来自VPT数据集，包含了超过2000小时的真实人类《我的世界》游戏记录。通过学习人类的游戏行为，模型掌握了游戏的基本规律和常见模式，比如挖掘会让方块消失、放置会让方块出现、不同工具有不同效果等等。

第二阶段开始引入多人场景。这时候模型就像是从独奏转向合奏的音乐家，需要学会在演奏自己部分的同时，关注其他演奏者的表现。模型开始使用研究团队收集的多人游戏数据进行训练，学习理解多个玩家同时行动时的复杂交互。

这个阶段的关键是让模型建立起"全局视角"的概念。单人游戏时，模型只需要关注一个视角的变化，但多人游戏时，一个玩家的行为会同时影响多个视角。比如当一个玩家点燃火把时，不仅他自己会看到光亮，附近的其他玩家也会在各自的视角中看到相应的光照变化。

第三阶段是因果关系建模的训练。前两个阶段使用的是"双向"训练方式，就像是让学生既能从前往后读课文，也能从后往前读，这样有助于更全面地理解内容。但在实际应用中，AI需要能够基于当前状态预测未来，这需要"单向"的因果推理能力。

这个阶段的训练就像是教会模型"时间的箭头"，让它明白事件的先后顺序和因果关系。当玩家执行某个动作时，模型需要能够预测这个动作会在未来的画面中产生什么样的变化，而不能"偷看"未来的信息来帮助当前的预测。

第四阶段是自我强化训练，这是整个训练过程中最具挑战性的部分。传统的训练方式就像是让学生永远做课本上的练习题，虽然能学到很多知识，但缺乏应对新情况的能力。自我强化训练则让模型开始"做自己的练习题"，使用自己生成的预测结果来进行进一步的训练。

这个过程中，研究团队引入了"检查点自强化"技术。传统的自强化训练就像是要求学生一边写作业一边背诵所有做过的题目，内存负担极重。检查点技术则像是允许学生把中间步骤写在草稿纸上，需要时再查阅，大大降低了内存使用量，使得更长时间的训练成为可能。

通过这四个阶段的循序渐进训练，Solaris模型最终获得了稳定生成长时间、多视角一致视频的能力。整个训练过程就像是培养一个从业余爱好者成长为专业游戏主播的完整历程。

四、测试AI的"游戏智商"

要验证Solaris模型是否真正掌握了多人世界建模的能力，研究团队设计了一套全面的测试体系，就像是为AI准备的"游戏智商测试"。这些测试涵盖了五个核心能力维度，每一个都对应着多人游戏中的关键挑战。

运动能力测试考察的是模型能否准确理解和预测角色的移动。在测试场景中，一个玩家会进行各种运动，比如向前走、转身、跳跃等，而另一个玩家在旁边观察。模型需要准确预测观察者会看到运动玩家在不同位置的样子。这就像是测试一个导演能否准确预测从不同机位拍摄同一个演员时会得到什么样的画面。

定位能力测试更加复杂，它考验的是模型的空间记忆能力。在这个测试中，两个玩家面对面站立，然后其中一个转身看向别处，过一段时间后再转回来。模型需要准确预测转身的玩家在转回来时能否看到另一个玩家。这个测试的难点在于，当玩家转身时，另一个玩家虽然从他的视野中消失了，但实际上仍然存在于虚拟世界中，模型需要"记住"这个空间关系。

记忆能力测试进一步提升了难度。两个玩家都会转身看向别处，然后再同时转回来。这要求模型不仅要记住单个玩家的位置，还要同时追踪多个玩家的空间关系。就像是要求AI在玩"蒙眼抓人"游戏时，即使看不见其他人，也能记住他们的大概位置。

建造能力测试关注的是模型能否理解环境变化。在测试场景中，一个玩家会建造简单的结构，比如一面墙或一个小房子，而另一个玩家在旁边观察。模型需要准确预测观察者会看到建造过程的每个步骤，包括方块的出现、结构的形成等。这个测试的关键在于验证模型是否理解物理世界的基本规律，比如方块不能悬空、建筑物需要有支撑等。

一致性测试是最具挑战性的，它要求模型确保不同视角之间的逻辑一致性。两个相邻的玩家同时转向同一个方向时，他们应该看到相似的景物。而当他们转向相反方向时，看到的景物应该完全不同。这个测试验证的是模型是否真正理解了三维空间的几何关系。

为了客观评估模型的表现，研究团队采用了"AI评委"的方法。他们使用先进的视觉语言模型作为评判员，让它观看模型生成的视频，然后回答具体的问题。比如在运动测试中，AI评委会被问"视频中的玩家是向左移动还是向右移动？"这种评估方法的优势在于能够自动化地处理大量测试样本，同时保证评判标准的一致性。

测试结果表明，Solaris在各个维度都展现出了令人印象深刻的能力。在运动和一致性测试中，模型的表现接近完美，能够准确预测玩家移动和视角变化的效果。在更复杂的记忆和建造测试中，虽然还有改进空间，但已经远超现有的单人世界模型。

特别值得注意的是，当研究团队将Solaris与简单的多视角拼接方法进行比较时，Solaris的优势更加明显。简单拼接就像是把两个独立的单人视频硬性组合在一起，虽然每个视频本身可能看起来不错，但两个视角之间缺乏逻辑关联，经常出现不一致的情况。而Solaris生成的视频则能保持多视角间的和谐统一。

五、从实验室到现实世界的可能性

Solaris模型展现出的能力远不止是技术演示，它为未来的多个应用领域打开了新的可能性。就像早期的互联网技术看似只是学术研究，但最终改变了整个世界一样，多人世界建模技术也蕴含着巨大的潜力。

在游戏开发领域，这项技术可能带来革命性的变化。传统的游戏测试就像是让人类玩家在游戏中进行各种尝试，找出可能存在的问题和漏洞，这个过程既耗时又费力。有了Solaris这样的技术，游戏开发者可以让AI模拟成千上万种不同的游戏场景，快速发现潜在问题，大大加速游戏开发和优化的过程。

更进一步，这种技术还能用于生成游戏内容。设想一下，当玩家进入一个新的游戏区域时，AI可以基于玩家的历史行为和偏好，实时生成个性化的游戏内容和挑战。这就像是拥有一个永不疲倦的游戏设计师，能够为每个玩家量身定制独特的游戏体验。

在教育和培训领域，多人世界建模技术也展现出巨大价值。传统的虚拟现实培训系统往往只能支持单人操作，或者多人场景的交互效果不够真实。Solaris这样的技术可以创建更加逼真的多人协作训练环境，让学员在虚拟环境中练习团队合作、危机处理等复杂技能。

比如在医疗培训中，多名实习医生可以在虚拟手术室中协作完成复杂手术，每个人都能从自己的视角看到真实的操作环境和其他成员的行为。这种训练方式既安全又高效，能够让学员在没有风险的环境中积累宝贵经验。

在机器人技术领域，这项研究的意义同样深远。现实世界中的机器人往往需要相互协作完成任务，比如工厂中的装配线作业、仓库中的货物分拣等。Solaris展现的多智能体协调能力为开发更智能的机器人系统提供了重要启示。

通过在虚拟环境中训练机器人的协作行为，可以大大降低现实世界测试的成本和风险。机器人可以在虚拟世界中学会如何与其他机器人协调配合，如何处理复杂的多任务场景，然后将这些经验应用到现实操作中。

当然，这项技术目前还存在一些局限性。最主要的限制是训练数据完全来自虚拟环境，这可能导致模型在处理现实世界的复杂情况时表现不够理想。虚拟世界虽然复杂，但仍然是简化的现实，缺少真实世界中的许多不确定因素和细微差别。

另一个挑战是持久性记忆的缺乏。目前的模型虽然能在短时间内保持多视角的一致性，但当玩家长时间分离后再次相遇时，模型可能无法准确记住之前的互动历史。这就像是患有短期记忆障碍的人，虽然能够应对当前的情况，但难以维持长期的关系和连续性。

尽管存在这些限制，Solaris代表的技术方向仍然具有巨大的发展潜力。随着计算能力的提升和算法的改进，这些限制有望逐步得到解决。更重要的是，这项研究为整个人工智能领域提供了一个重要的研究方向，即如何让AI系统更好地理解和预测多智能体交互的复杂场景。

研究团队已经将SolarisEngine系统和相关数据集开源，这意味着世界各地的研究者都可以在此基础上进行进一步的探索和改进。这种开放的研究态度有助于加速整个领域的发展，就像早期的开源软件推动了互联网技术的快速普及一样。

说到底，Solaris不仅仅是一个能够生成多人游戏视频的AI模型，更是向着理解复杂多智能体世界迈出的重要一步。在我们生活的现实世界中，几乎所有有意义的活动都涉及多个参与者的协作和互动。让AI学会理解和预测这种复杂的多方互动，将为构建更智能、更有用的人工智能系统奠定重要基础。

从某种意义上说，这项研究让我们看到了AI技术发展的一个重要趋势：从单一任务的优化转向复杂场景的理解，从孤立的智能体转向协作的智能群体。这不仅仅是技术上的进步，更是对智能本质的更深层次探索。归根结底，真正的智能往往体现在与他人的互动和协作中，而Solaris正是朝着这个方向迈出的坚实一步。对于那些关注AI技术发展趋势的读者，这项研究无疑提供了一个值得深思的视角：未来的AI系统将不再是孤立的智能个体，而是能够理解、预测和参与复杂社会互动的智能群体。

Q&A

Q1：Solaris模型和普通的视频生成AI有什么区别？

A：普通的视频生成AI就像只会画单人肖像的画家，只能处理单一视角的内容。而Solaris是首个能够同时处理多个玩家视角的世界模型，它能确保当一个玩家在《我的世界》中放置方块时，其他玩家的视角中也会同步出现相应的变化，实现真正的多视角一致性。

Q2：SolarisEngine数据收集系统是如何工作的？

A：SolarisEngine就像一个自动化的电影摄制组，它让虚拟机器人在《我的世界》中进行各种游戏活动，包括建造、挖掘、战斗、探索等，同时从多个角度同步记录所有行为和视觉变化。通过这种方式，研究团队收集了超过1200万帧的高质量多人游戏数据。

Q3：这项技术除了游戏还能用在哪些地方？

A：这项技术的应用前景很广泛，包括虚拟现实培训（比如让多名实习医生在虚拟手术室协作）、机器人协作系统开发、教育培训环境构建等。任何需要多个智能体协调配合的场景都可能受益于这种多视角世界建模技术。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.