网易首页 > 网易号 > 正文 申请入驻

研究人员提出扩散变换器模型,打造交互式开放世界游戏视频新范式

0
分享至

近年来,生成模型在图像和视频生成领域取得了显著进展,这些技术已经在设计、广告、动画和电影等创意领域得到了广泛应用。

受此启发,研究人员开始探索将生成模型应用于游戏产业,尤其是开放世界游戏。

开发开放世界游戏原型是一项资源密集且成本高昂的工作。由于此类游戏环境复杂、动态事件多样、角色各异,生成新颖且连贯的内容具有挑战性。

随着对这些环境中现实互动和行为的需求增加,复杂性也随之上升。

在这一背景下,来自香港科技大学、中国科学技术大学、中国科学院合肥物质科学研究院和香港中文大学的研究团队推出了 GameGen-X,这是首个专为生成和交互控制开放世界游戏视频而设计的扩散变换器模型。

日前,相关论文发表在预印本平台arXiv上。

据论文介绍,该模型通过模拟丰富的游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量的开放域生成。

更重要的是,它具备交互式控制能力,能够基于当前片段预测以及改变未来内容,来实现对游戏玩法的模拟。

为了实现这一愿景,研究团队首先从零开始收集和构建了开放世界视频游戏数据集(OGameData)。

这是目前最大的、用于开放世界游戏视频生成和控制的数据集,包含超过 100 万个多样化的游戏视频片段,这些片段来自 150 多个游戏,并配有 GPT-4o 生成的信息丰富的说明文本。

OGameData 的特殊之处在于其精细的标注体系,视频片段都配有结构化的、高密度的文本描述。这种细致的标注不仅确保了训练数据的质量,也为模型提供了更丰富的学习素材。

数据集被系统地分为多个子集,包括 OGameData-GEN 用于训练基础生成模型,侧重于生成连贯的游戏内容,而 OGameData-INS 则针对指令调优和交互控制任务进行了优化。

研究团队还开发了一套完整的数据处理流程,涵盖了收集、清洗、分割、过滤和结构化标注等环节。考虑到游戏领域的特殊性,他们结合了 AI 技术和人类专家的智慧。

在数据收集阶段,研究人员特别注重选取最小化用户界面元素的游戏画面,这确保了生成内容的纯粹性和通用性。

通过 PyScene 和 TransNetV2 等工具进行场景检测,团队将视频分割成适当长度的片段,并采用多个先进模型进行筛选和标注,确保了数据集的高质量和多样性。

GameGen-X 的训练过程可以分为两个阶段:基础模型预训练和指令调优。

在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其具备长序列、高质量开放域游戏视频生成能力。

为了实现交互控制,研究团队还设计了 InstructNet 来整合游戏相关的多模态控制信号专家。

在指令调优阶段,只更新 InstructNet 而冻结预训练的基础模型,这确保了在获得交互控制能力的同时,不会损失生成内容的多样性和质量。

具体来说,GameGen-X 结合了基础模型和 InstructNet 的双重架构。

基础模型负责生成高质量的游戏内容,而 InstructNet 则提供多模态交互控制能力,使玩家能够影响生成内容的延续,真实地模拟游戏体验。

为了有效处理视频中的时空冗余信息,研究团队引入了 3D 时空变分自动编码器进行视频压缩,使模型能够高效地处理高分辨率和长序列的视频内容,显著提升了处理效率。

在视频生成和交互控制方面,GameGen-X 采用了创新的掩码时空扩散变换器。该结构的独特之处在于,其巧妙地结合了空间注意力、时间注意力和交叉注意力机制,能够根据文本提示高效地生成游戏视频。

通过精心设计的堆叠配对空间和时间块,每个块都配备了交叉注意力和相应的空间或时间注意力,使模型能够同时捕捉空间细节、时间动态和文本引导信息,从而生成高度连贯和真实的游戏场景。

为了实现真正的交互控制,研究团队在 InstructNet 中创新性地采用了多模态专家系统。

这个系统能够处理多种类型的控制信号,包括结构化文本指令、键盘输入和视频提示等。

实验测试结果显示,与其他具有开放领域生成能力的模型相比,GameGen-X 在生成新颖领域游戏视频剪辑方面表现优异。

GameGen-X 在 Fréchet 初始距离(Fréchet Inception Distance)、Fréchet 视频距离(Fréchet Video Distance)、文本-视频对齐(Text-Video Alignment)和用户偏好(User Preference)等多个指标上均优于其他模型。

在控制指标方面,GameGen-X 的角色动作成功率为 63.0%,环境事件成功率为 56.8%,远远超过 OpenSora-Plan1.2 等其他模型。

总的来说,GameGen-X 展示了生成模型作为传统渲染技术辅助工具的潜力,有效地将创意生成与交互能力结合在一起。

这一研究为游戏内容设计和开发开辟了新的范式,为未来更自动化、数据驱动的游戏开发方法提供了新的可能性。

参考资料:

https://arxiv.org/pdf/2411.00769v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!中国证监会:坚决防止市场大起大落,散户避坑这几招必看

突发!中国证监会:坚决防止市场大起大落,散户避坑这几招必看

复转这些年
2026-01-16 23:58:36
中央把话说透了:真正的公务员,是这8类人,很多人搞错了

中央把话说透了:真正的公务员,是这8类人,很多人搞错了

搬砖营Z
2026-01-12 21:10:19
试过贾府一半男子的多姑娘,为何在试贾宝玉时,成了“灯姑娘”?

试过贾府一半男子的多姑娘,为何在试贾宝玉时,成了“灯姑娘”?

铭记历史呀
2026-01-15 14:24:03
每天2包烟,顿顿8两白酒,70岁李琦跟去世前杨少华状态如出一辙

每天2包烟,顿顿8两白酒,70岁李琦跟去世前杨少华状态如出一辙

以茶带书
2026-01-11 13:55:14
亨格斯邀请阿隆索,卡里克要有耐心,罗塞尼尔有点操之过急

亨格斯邀请阿隆索,卡里克要有耐心,罗塞尼尔有点操之过急

任意球后
2026-01-16 23:54:49
王者归来?前恒大王牌外援有情有义,或解锁新角色重返中超联赛

王者归来?前恒大王牌外援有情有义,或解锁新角色重返中超联赛

零度眼看球
2026-01-16 06:50:29
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
A股临近高点,建议适当兑现

A股临近高点,建议适当兑现

和讯网
2026-01-16 14:33:04
身价不及中国队!日本太强:派大学生+以小打大 4连胜进亚洲杯4强

身价不及中国队!日本太强:派大学生+以小打大 4连胜进亚洲杯4强

侃球熊弟
2026-01-16 22:30:09
阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

阿根廷大逆袭!米莱执政两年,通胀暴跌,经济增速扭负为正!

百态人间
2026-01-07 16:41:49
《寻秦记》开慰劳宴,古天乐强颜欢笑,账面亏损1亿

《寻秦记》开慰劳宴,古天乐强颜欢笑,账面亏损1亿

光影新天地
2026-01-14 18:04:04
降温时间确认,中山最冷或低至10℃

降温时间确认,中山最冷或低至10℃

南方都市报
2026-01-16 16:39:14
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-01-16 17:18:12
加拿大总理见到中方,当面说出了一句话,旁边官员听到后都惊了

加拿大总理见到中方,当面说出了一句话,旁边官员听到后都惊了

老范谈史
2026-01-16 20:37:25
刚刚 | 罗永浩发声!@西贝人心声 涨粉近10000!

刚刚 | 罗永浩发声!@西贝人心声 涨粉近10000!

天津广播
2026-01-16 23:58:28
订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

订婚时新郎长相普通,新娘颜值爆表却望着他移不开眼:生理性喜欢

梅子的小情绪
2026-01-16 21:09:56
美媒:短短1年不到,从存亡边缘到超级大国,中国是怎么做到的?

美媒:短短1年不到,从存亡边缘到超级大国,中国是怎么做到的?

楠楠自语
2025-12-26 15:41:17
自作孽!将球队三分王打入“冷宫”,重用亲信,把强队带成了鱼腩

自作孽!将球队三分王打入“冷宫”,重用亲信,把强队带成了鱼腩

金山话体育
2026-01-16 17:32:52
林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

细品名人
2025-12-31 07:34:46
2026-01-17 00:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16134文章数 514492关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
亲子
时尚
家居
教育

房产要闻

喜封金顶 臻境初呈丨中粮·铂悦壹号3#楼封顶大吉!

亲子要闻

精神科医生:家长的“为你好”也可能对孩子造成创伤

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

家居要闻

岁月柔情 现代品质轻奢

教育要闻

寒假指南|你的国美寒假生活一站式指南,请查收!

无障碍浏览 进入关怀版