网易首页 > 网易号 > 正文 申请入驻

谢赛宁也玩MC?开源全新世界模型生成多人一致的游戏视角

0
分享至



机器之心编辑部


电子游戏一直是 AI 领域发展的极大推动力之一。

游戏本身就构建了一个相对完整的世界,并且具有相当易于理解的世界规则。不仅可以训练人工智能对物理世界的理解,训练智能体的交互,更是许多世界模型的构建基础。

研究与视觉相关的 AI 永远绕不开的电子游戏两座大山,其一是代表真实世界风格的《GTA》 ,另一个则是代表虚拟自由风格的《我的世界》。

我们关注到,谢赛宁团队最近在探索世界模型的全新研究方向,把实验目标投向了《我的世界》。









Solaris 模型样本。每一行显示一个生成的视频:左右两侧是模型为每个玩家生成的第一人称视图,中间是模型的第三人称真实视图(未提供给模型)。

视频画面中清楚地展示了两个游戏角色的行为与第一视角的游玩录像。但如果告诉你,这两个第一视角画面均为视频世界模型生成的,你能找到破绽吗?

这就是谢赛宁团队的最新视频世界模型 Solaris,首个多人视频世界模型,能够同时生成多个玩家之间保持一致的第一视角。



  • 项目主页: https://solaris-wm.github.io/
  • 引擎代码: https://github.com/solaris-wm/solaris-engine
  • 模型代码 :https://github.com/solaris-wm/solaris
  • 数据集链接:https://huggingface.co/collections/nyu-visionx/solaris-data
  • 模型链接:https://huggingface.co/collections/nyu-visionx/solaris-models

研究团队发现,目前的视频世界模型仅能处理单人视角,这并不能反映现实世界的真实运作方式,希望能够能够实现多人同步观察一个统一世界。于是,研究团队把视角投向了电子游戏。

Solaris 的核心贡献之一是我们完全自主设计并构建的多人数据采集系统 SolarisEngine,因为现有平台仅针对单人设定而设计。该引擎支持在《我的世界》等游戏中进行协调的多智能体交互和同步视觉捕捉。它是一个可扩展的框架,由 12.6M 帧协调的《我的世界》游戏游玩数据创建。

模型与数据集

SolarisEngine



利用 SolarisEngine 采集的多人数据集任务示例。每一列展示了不同的任务类型(建筑、搭桥、PvP、PvE、追逐、探索、采矿和采集),每种任务包含三个回合。此处展示的第三人称视角仅用于可视化;SolarisEngine 实际渲染的是第一人称观察视角和动作数据,这也是模型训练所使用的输入。

目前已有多种用于控制 Minecraft 智能体的框架,包括 Malmo、MineRL、MineDojo 和 Mineflayer。尽管这些工具各具特色,但没有一个是为多人数据采集而设计的。市面上没有现成的系统可以用来采集真实的多人游戏数据,因此研究团队选择从零开始搭建一个。



SolarisEngine 架构概览。

在数据采集上,研究团队选择以 Mineflayer 为基础,因为它为寻路、方块放置和战斗等操作提供了可组合的基本方法。在此之上,我们构建了一个通信层,允许机器人在任务回合中相互协作。通过这些基础方法的组合,可以形成完整的任务回合,让两个机器人共同完成预设目标。

研究团队构建了一个任务类型库,涵盖了 Minecraft 交互的核心方面:建造房屋和桥梁、PvP 与 PvE 战斗、追逐与探索,以及采矿。尽管任务逻辑是用这些高级原语编写的,但系统会将所有操作转换为低级动作空间,从而兼容从人类玩家那里采集的单人数据集 VPT。

在覆盖游玩动作以外,要构建世界模型的数据集,必须实现提取视觉画面并与动作的对齐。

Mineflayer 虽然能控制角色,但无法渲染图形。为了获取视觉观察数据,团队将每个控制机器人与一个运行官方 Minecraft Java 版客户端的摄像机机器人配对。通过自定义的服务端插件,我们实现了摄像机与控制器的实时同步,使其位置、朝向甚至动作动画完全一致。在后期处理中,我们利用共享的 20 FPS 帧率时间戳,将动作与视觉观察数据进行对齐。

利用 SolarisEngine,团队采集了一个多人 Minecraft 训练数据集,总计包含 9,240 个任务回合,每名玩家贡献 632 万帧,总计 1,264 万帧。

这些任务回合大致分为四大类:建筑(房屋、墙壁、塔楼、桥梁)、战斗(PvP 和 PvE)、移动(追逐、导航、探索)以及采矿。在采样任务类型时,团队采用了与典型任务长度成反比的权重,以保持整体分布平衡。所有动作均被标注为与 VPT 格式兼容的语义游戏事件,涵盖了移动、视角控制以及挖掘、放置、攻击等交互输入。

这是首个带有动作标注、适用于训练世界模型的多人 Minecraft 数据集。



数据集统计。(左)数据集包含四个场景类别。(中)在总共 9,240 个场景和每个玩家 6.32M 帧的情况下,场景类型分布。(右)场景长度分布,大多数场景在 128 到 512 帧之间。

视频世界模型 Solaris

Solaris 是一种可控的视频扩散模型,它能够在给定各玩家历史观察与动作的条件下,联合预测多名玩家的未来观察结果。结合了流匹配(Flow Matching)与扩散强迫(Diffusion Forcing)对其进行训练,其中每个玩家及每个时间步都会采样独立的噪声水平。这使得模型在学习对各玩家观察流进行去噪的同时,保持玩家间的一致性。

研究团队基于 MatrixGame 2.0 构建了该模型,是一个在包括 Minecraft 在内的多种视频游戏上预训练过的单人视频 DiT 模型。研究团队沿用了其预训练权重和冻结的 VAE,并进行了三项关键改进以支持多人模式。

首先,扩展了动作空间以涵盖来自 VPT 的全量 Minecraft 输入,增加了动作条件模块的输入维度。

其次,引入了多人自注意力层,将所有玩家的 Token 进行拼接并互相对照,使得信息可以在每个 DiT 模块内部实现玩家间的交换。对每名玩家独立应用 3D RoPE ,并添加了可学习的玩家 ID 嵌入,以便模型区分不同个体。

第三,所有其他模块(用于首帧条件的交叉注意力、前馈层、动作条件)均保持与 MatrixGame 2.0 一致,并对每名玩家独立运行。尽管我们目前仅在两名玩家的数据上进行训练,但该架构可泛化至任意数量的玩家。



改进型 DiT 模块通过在序列维度上进行视觉交错(visual interleaving)来实现多人建模。多人信息通过一个共享的自注意力(self-attention)模块进行交换。其他模块与 MatrixGame 2.0 保持一致,并对每名玩家独立应用。

评估指标与实验结果

研究团队创建了 Solaris Eval 数据集,通过 7 个独特的、不参与训练的真值任务回合,来测试五种多人协作能力。

首先是移动能力:该部分测试了模型同时在两名玩家视角中渲染视觉一致的智能体位移(WASD)和相机旋转(鼠标)的能力。其中一个机器人移动,另一个观察;由 VLM(视觉语言模型)判断移动玩家的位置在观察者视角中是否发生了正确且一致的变化。



第二是定位能力:测试模型是否能够通过观察记住另一名玩家的位置。一名智能体转身(失去对另一名玩家的视野),停顿,然后转回原位。由于转身的智能体一直处于静止玩家的持续观察中,它应当知道对方所处的位置 ——VLM 会检查该智能体在转回时是否能看到另一名玩家。



第三是一致性:测试协同可见区域在两名玩家视角中是否渲染一致。两名靠近的智能体同时转向同一个随机方向;VLM 会检查两名玩家看到的场景是否相同。



第四是记忆能力:测试模型是否能够跨越时间记住环境和其他智能体。两名智能体同时背对彼此转身,停顿,然后转回原始朝向。VLM(视觉语言模型)会检查两名智能体在转回后是否能重新看到对方。



第五是建造能力:测试模型反映由智能体动作引起的环境变化的能力。一个机器人构建预定义的形状(正方形、水平长条或垂直长条),另一个机器人在旁观察。建造完成后,建筑机器人移动到观察者身边,使完整的结构同时出现在两者的视野中。VLM(视觉语言模型)会评估观察者是否看到了完整的结构。



实验结果

研究团队将本研究的架构实现与 Multiverse 的「帧拼接(frame concatenation)」方法进行了对比,后者是本工作之前唯一现存的多人世界模型。此外,我们还通过对比「无单人模型初始化」的变体,测试了单人阶段预训练的必要性。

我们的方法在视觉效果和所有评估类别的定量指标上均表现更优。在基于运动轨迹的动作执行方面,所有架构变体均表现强劲,并在对应类别的 VLM 评估中获得高分(见表)。但在涉及建筑、场景一致性和玩家视觉对齐等困难场景时,我们的方法展现出了卓越的性能,这体现在这些类别中更高的 VLM 评分上。尽管「帧拼接法」在我们的「移动(Movement)」评估中表现更好,但定性分析发现,该方法在面临「无操作(no-op)」动作时会出现动作幻觉。



跨任务的定量比较。本文的方法与 Multiverse 沿通道维度连接玩家观察结果的方法进行比较。

更多信息,请参阅原始论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
巴拿马后悔了,主动找上中国,愿中方不计前嫌,两国还是好伙伴

巴拿马后悔了,主动找上中国,愿中方不计前嫌,两国还是好伙伴

比利
2026-03-26 23:13:58
公主嫁给权臣为小妾,她前夫却找上门来,凭半面破镜把人带走了!

公主嫁给权臣为小妾,她前夫却找上门来,凭半面破镜把人带走了!

野史日记
2026-03-25 19:30:08
隐身的名字:水泥藏尸案被揭开,任小名抛弃何宇穹嫁刘潇然的真相

隐身的名字:水泥藏尸案被揭开,任小名抛弃何宇穹嫁刘潇然的真相

慢半拍sir
2026-03-27 00:06:26
破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

破防!马英九专访20分钟紧急叫停,“失智疑云”背后藏着更大棋局

戗词夺理
2026-03-26 11:13:50
人生五十岁才是真正关键,这三件事碰都不要碰

人生五十岁才是真正关键,这三件事碰都不要碰

阿郑的读书日常
2025-07-03 15:14:16
放牛老汉在山上发现一个女子,不顾女子的反抗,将女子拖回了家

放牛老汉在山上发现一个女子,不顾女子的反抗,将女子拖回了家

乔生桂
2025-12-05 10:47:42
对标何润东赵丽颖!张凌赫被嘲粉底液将军!评论区惨不忍睹

对标何润东赵丽颖!张凌赫被嘲粉底液将军!评论区惨不忍睹

小邵说剧
2026-03-25 19:50:11
国际奥委会:奥运女子组赛事将仅限生理女性参加,需做基因检测

国际奥委会:奥运女子组赛事将仅限生理女性参加,需做基因检测

界面新闻
2026-03-26 21:27:52
国乒世乒赛选拔:王艺迪夺冠成候选!9人已获名额,陈熠等人落榜

国乒世乒赛选拔:王艺迪夺冠成候选!9人已获名额,陈熠等人落榜

全言作品
2026-03-26 19:26:38
你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

另子维爱读史
2026-02-16 20:35:50
红枣被点名!医生提醒:常吃红枣的高血脂患者,或可收获这几变化

红枣被点名!医生提醒:常吃红枣的高血脂患者,或可收获这几变化

健康科普365
2026-03-19 18:45:03
近半年来,多家工厂密集发布停工放假通知!

近半年来,多家工厂密集发布停工放假通知!

黯泉
2026-03-26 18:48:20
张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

张雪峰老师因心脏病离世,直播中曾坦言书法是“天坑”专业,出路太窄,没错

云隐南山
2026-03-26 16:19:11
法国前总理若斯潘去世

法国前总理若斯潘去世

参考消息
2026-03-26 21:17:12
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
美国这次要栽了,特朗普犯下致命误判,奥巴马8年前警告或成真

美国这次要栽了,特朗普犯下致命误判,奥巴马8年前警告或成真

陌初寒上只
2026-03-27 02:10:00
国产顶级神剧,只可惜,央视播完就禁了

国产顶级神剧,只可惜,央视播完就禁了

独立鱼
2026-03-23 21:22:17
日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

日本诺贝尔奖得主大江健三郎表示:很遗憾,日本很可能将重复历史

议纪史
2025-11-27 14:35:03
原“一汽”总设计师:不管我们怎么改!卡车质量就比不上“二汽”

原“一汽”总设计师:不管我们怎么改!卡车质量就比不上“二汽”

福建平子
2026-03-20 13:58:05
2026-03-27 03:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
手机
旅游
艺术

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

无障碍浏览 进入关怀版