网易首页 > 网易号 > 正文 申请入驻

开局一张图,AI秒生超燃游戏大片!微软首个世界和人类行动模型登Nature

0
分享至

智东西2月20日报道,今日凌晨,微软第一个世界和人类行动模型(WHAM)Muse登上国际顶级学术期刊Nature

Muse是视频游戏生成模型,其参数量最高达到16亿,是基于接近7年的人类游戏数据进行训练,其可以理解游戏中的物理和3D环境,然后生成对应玩家的动作以及视觉效果。

不过,因为研究工作仍处于早期,目前其仅限于以300×180像素的分辨率生成游戏视觉效果。

论文中显示,其生成的游戏视频效果能同时保持一致性、多样性和持久性。具体来说,其生成的两分钟视频效果人类真实游戏效果相近;会提供不同摄像机移动角度、不同角色、游戏工具的多样性效果;还支持开发者添加新元素,并自动合理融入画面。

这一模型由微软研究员游戏智能团队、可教的AI体验(Tai X,Teachable AI Experiences)团队与微软旗下游戏工作室Xbox Games Studios的电子游戏制作公司Ninja Theory合作开发。

微软正在开源权重和样本数据,并提供了一个可视化的交互界面WHAM Demonstrator供开发者体验,开发者可以在开发人员可以在Azure AI Foundry上学习试验权重、示例数据和 WHAM Demonstrator。

Xbox正在考虑基于Muse为用户构建简短的交互式AI游戏体验,将很快在Copilot Labs上试用。

论文地址:https://www.nature.com/articles/s41586-025-08600-3

一、基于7年人类游戏数据训练,模型参数16亿

Muse上下文长度为1秒,在7 Maps数据集上训练,每张图像都以数据集的原始分辨率300×180编码为540个Tokens。7 Maps数据集的数据量相当于7年多的人类游戏时间。研究人员从Xbox游戏Bleeding Edge的7张游戏地图中提取了大约50万个匿名游戏会话的数据,磁盘上总计27.89TiB。

此外,还有1500万到8.94亿参数的模型,上下文长度为1秒,在7 Maps过滤后的Skygarden数据集上训练,每张图像将以128×128编码成256个Tokens。该数据集指的是仅在Skygarden地图上进行1年匿名游戏的数据。

微软官方发布的示例都是通过提示模型使用10个初始帧(1秒)的人类游戏和整个游戏序列的控制器动作来生成的。

例如,用户可以将视觉对象作为初始提示加载到模型,下方视频添加了Bleeding Edge中的图像,然后使用Muse从此起点生成多个可能的延续图像。

此外,用户还可以浏览生成的序列并进行调整,例如使用游戏控制器来指导角色。这些功能演示了Muse的功能如何将迭代作为创作过程的一部分。

Muse在生成游戏视频时可以保持一致性多样性持久性

在一致性方面,下方视频都是基于基于 Muse生成,两段视频演示了该模型生成长达两分钟的一致游戏序列的能力。

多样性方面,以相同的初始10帧(1 秒)真实游戏为条件,下面视频中,上方的三个视频显示了行为多样性(不同的摄像机移动、在生成位置附近徘徊以及导航到中间跳板的各种路径),下方的三个视频显示了视觉多样性(角色的不同悬浮板)。

在持续性方面,模型还可以在修改游戏序列时提示它并保留新引入的元素。例如,在下面的演示中,可以看到新角色被添加到游戏的原始视觉对象中,视频中这一新角色会保留,还会在后续视频中继续存在。

此外,论文中还提到Muse训练的数据是通过与Ninja Theory的合作提供的,数据收集由最终用户许可协议涵盖,研究人员对数据的使用受与游戏工作室的数据共享协议的约束,并由机构审查委员会批准。这些数据是在2020年9月至2022年10月期间记录的。为了最大限度地降低人类数据的风险,他们已从数据中删除了任何个人身份信息(Xbox用户ID),并对结果数据进行清理,以删除非活跃玩家的数据。

二、多学科协作评估,确定三大模型能力

在早期,研究人员首先总结了27名从事游戏开发的创意人员的用户研究结果,以评估发散思维和迭代实践在使用生成式AI实现新颖性设计的重要作用。基于这些见解,他们确定了一组可能对实现创造性构思很重要的生成模型能力,即一致性、多样性和持久性。

其中,一致性可以使得生成的序列随时间推移并与游戏机制保持一致,多样性允许模型产生大量不同的序列,反映不同的潜在结果,以支持发散性思维,持久性使得用户对游戏视觉效果和控制器动作进行修改,并将它们同化到生成的游戏序列中。

Muse基于人类游戏数据进行训练,以预测游戏视觉效果(“帧”)和玩家的控制器动作(“模型架构和数据”部分)。生成的模型准确捕获了游戏环境的3D结构(“模型评估”部分)、控制器动作的效果和游戏的时间结构,使得其生成的视频可以连贯、一致且具有多样性。

一致性需要一个顺序模型,该模型可以准确捕获游戏视觉效果和控制器动作之间的依赖关系;多样性需要模型可以生成数据,保留数据集中视觉对象和控制器动作的顺序条件分布。最后,持久性是通过预测模型提供的,该模型可以以 (修改的) 图像和控制器动作作为条件。其研究方法的关键是将数据构建为一系列离散的Tokens。为了将图像编码为Tokens序列,研究人员使用VQGAN图像编码器。其中,用于对每张图像进行编码的Tokens数量是一个关键的超参数,它在预测图像的质量与生成速度和上下文长度之间进行权衡。

对于Xbox控制器动作,尽管按钮本身是离散的,但研究人员将左右摇杆的x和y坐标离散为11个Buckets,然后训练一个仅解码器的转换器来预测交错图像和控制器动作序列中的下一个Tokens。生成的模型可以通过对下一个Tokens进行自回归采样来生成新的序列。生成过程中,研究人员还可以修改Tokens,以允许修改图像或者控制器动作。

博客中还提到,研究人员最初使用的是V100集群进行训练,他们实现了扩展到在多达100个GPU上进行训练,这最终为H100的大规模训练铺平了道路。此外,借助最初的评估框架和对H100的有效分配,研究人员能够进一步改进Muse实例,包括更高分辨率的图像编码器和更大的模型,并扩展到所有7个Bleeding Edge地图。

微软高级研究员Tabish Rashid提到:“最初分配H100是相当艰巨的,尤其是在早期阶段,要弄清楚如何最好地利用它来扩展到带有新图像编码器的更大型号。经过数月的实验,终于在不同的地图上看到模型的输出,并且不必眯着眼睛看较小的图像,这是非常有益的。”

三、生成效果接近人类真实水平,新角色也能合理融入

论文阐释了研究人员对模型一致性、多样性和持久性的具体评估结果。

研究人员通过Fréchet视频距离 (FVD)衡量一致性效果。研究中使用模型生成游戏视觉效果,以包含视频和控制器动作的1秒游戏体验为条件,再加上人类玩家在接下来的9秒内的游戏过程中采取的控制器动作,可以看出生成的游戏玩法与真实情况匹配。

Wasserstein距离是以前用于评估模型动作是否捕捉到人类动作全部分布的指标。研究人员将真实人类行为的边际分布与模型生成的边际分布进行了比较,Wasserstein距离越短,模型的世代就越接近人类玩家在我们的数据集中采取的行动。在训练过程中,所有模型的Wasserstein距离都会减小,接近人与人基线(计算为人类动作序列中两个随机动作子集之间的平均距离)。


为了评估模型的持久性,研究人员通过插入游戏内对象、其他玩家、地图元素之一来手动编辑游戏图像。结果表明,Muse能够保留已插入到看似合理但新的起始位置的常见游戏元素

结语:微软世界模型,开启重塑游戏体验新大门

微软新推出的世界模型为我们呈现了生成式AI在游戏领域的巨大潜力,正如其在示例中所言,这样的模型既可以学习游戏世界的丰富结构,还能展示如何进一步支持模型的创造性使用。这可能会从根本上改变用户未来保存和体验经典游戏的方式,并使更多玩家接触到它们。

同时,他们一开始通过与多学科人员的协作,以找到构建模型能力满足创意人员需求的切入点,也为模型在不同场景的应用提供了经验。

目前,微软已经开源了权重和样本数据,会加速开发者基于此进行后续研究,或许会在不久的将来诞生基于AI的新颖游戏体验,挖掘出AI在游戏应用的更多应用场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒绝伊朗地面战?陆军参谋长被解职,特朗普需要军方的“自己人”

拒绝伊朗地面战?陆军参谋长被解职,特朗普需要军方的“自己人”

上观新闻
2026-04-04 05:10:15
世界小姐的“丰满身材”!

世界小姐的“丰满身材”!

文刀万
2026-04-04 17:49:19
"猪肝红"!上海人被堵傻眼,多个服务区一度进不去

"猪肝红"!上海人被堵傻眼,多个服务区一度进不去

看看新闻Knews
2026-04-04 20:07:10
终结4连败魔咒!申裕斌4-1陈幸同晋级四强:乒超锤炼后实力暴涨

终结4连败魔咒!申裕斌4-1陈幸同晋级四强:乒超锤炼后实力暴涨

颜小白的篮球梦
2026-04-04 18:55:38
突发!绝味食品补税及滞纳金3.4亿!

突发!绝味食品补税及滞纳金3.4亿!

新浪财经
2026-04-04 11:18:10
金昊,已被执行死刑

金昊,已被执行死刑

中国新闻周刊
2026-04-03 23:17:17
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
“拯救美国大兵”,特朗普“赢学”被打脸

“拯救美国大兵”,特朗普“赢学”被打脸

上观新闻
2026-04-04 17:27:38
工信部连夜紧急提醒:你的iPhone正在被“看光”?请立即执行这个操作

工信部连夜紧急提醒:你的iPhone正在被“看光”?请立即执行这个操作

圆维度
2026-04-03 21:01:05
绝无仅有,美军单日毁伤6架飞机,飞行员争夺战惊心动魄

绝无仅有,美军单日毁伤6架飞机,飞行员争夺战惊心动魄

史政先锋
2026-04-04 16:28:38
一天两架美军战机被击落,特朗普“赢” 不下去了 | 京酿馆

一天两架美军战机被击落,特朗普“赢” 不下去了 | 京酿馆

新京报评论
2026-04-04 15:40:55
李颖现状:57岁住上海豪宅风韵犹存,今和母亲一起生活,婚姻成谜

李颖现状:57岁住上海豪宅风韵犹存,今和母亲一起生活,婚姻成谜

白面书誏
2026-04-04 16:35:27
局势再度升级!首艘开往中国的油轮遭到袭击,是误伤还是警告

局势再度升级!首艘开往中国的油轮遭到袭击,是误伤还是警告

李橑在北漂
2026-04-03 21:08:03
朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

朝鲜宣布停用中国卫星,改用俄罗斯卫星,无形中帮了中国一个忙

花寒弦絮
2026-04-04 00:48:59
19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

大象新闻
2026-04-04 08:49:03
北美观察丨美F-15被击落 伊朗战争的代价正在累积

北美观察丨美F-15被击落 伊朗战争的代价正在累积

国际在线
2026-04-04 10:53:03
台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

海峡导报社
2026-04-04 10:01:02
0-1!山东泰山主场低迷,遭大连英博半场领先,U21小将日渐成熟

0-1!山东泰山主场低迷,遭大连英博半场领先,U21小将日渐成熟

汪星人哟
2026-04-04 19:50:53
这才是真正的东方美人

这才是真正的东方美人

动物奇奇怪怪
2026-04-04 19:05:29
美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

每日经济新闻
2026-04-04 13:47:27
2026-04-04 21:03:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11514文章数 117022关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

马克龙在韩国发表讲话:"中等强国"不能成为中美附庸

头条要闻

马克龙在韩国发表讲话:"中等强国"不能成为中美附庸

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

家居
本地
旅游
公开课
军事航空

家居要闻

温馨多元 爱的具象化

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

新华财经|春假催热旅游市场 多业态联动释放消费活力

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军又一架战机坠毁 此前F-15E被击落

无障碍浏览 进入关怀版