网易首页 > 网易号 > 正文 申请入驻

研究人员提出扩散变换器模型,打造交互式开放世界游戏视频新范式

0
分享至

近年来,生成模型在图像和视频生成领域取得了显著进展,这些技术已经在设计、广告、动画和电影等创意领域得到了广泛应用。

受此启发,研究人员开始探索将生成模型应用于游戏产业,尤其是开放世界游戏。

开发开放世界游戏原型是一项资源密集且成本高昂的工作。由于此类游戏环境复杂、动态事件多样、角色各异,生成新颖且连贯的内容具有挑战性。

随着对这些环境中现实互动和行为的需求增加,复杂性也随之上升。

在这一背景下,来自香港科技大学、中国科学技术大学、中国科学院合肥物质科学研究院和香港中文大学的研究团队推出了 GameGen-X,这是首个专为生成和交互控制开放世界游戏视频而设计的扩散变换器模型。

日前,相关论文发表在预印本平台arXiv上。

据论文介绍,该模型通过模拟丰富的游戏引擎特性,如创新角色、动态环境、复杂动作和多样事件,实现了高质量的开放域生成。

更重要的是,它具备交互式控制能力,能够基于当前片段预测以及改变未来内容,来实现对游戏玩法的模拟。

为了实现这一愿景,研究团队首先从零开始收集和构建了开放世界视频游戏数据集(OGameData)。

这是目前最大的、用于开放世界游戏视频生成和控制的数据集,包含超过 100 万个多样化的游戏视频片段,这些片段来自 150 多个游戏,并配有 GPT-4o 生成的信息丰富的说明文本。

OGameData 的特殊之处在于其精细的标注体系,视频片段都配有结构化的、高密度的文本描述。这种细致的标注不仅确保了训练数据的质量,也为模型提供了更丰富的学习素材。

数据集被系统地分为多个子集,包括 OGameData-GEN 用于训练基础生成模型,侧重于生成连贯的游戏内容,而 OGameData-INS 则针对指令调优和交互控制任务进行了优化。

研究团队还开发了一套完整的数据处理流程,涵盖了收集、清洗、分割、过滤和结构化标注等环节。考虑到游戏领域的特殊性,他们结合了 AI 技术和人类专家的智慧。

在数据收集阶段,研究人员特别注重选取最小化用户界面元素的游戏画面,这确保了生成内容的纯粹性和通用性。

通过 PyScene 和 TransNetV2 等工具进行场景检测,团队将视频分割成适当长度的片段,并采用多个先进模型进行筛选和标注,确保了数据集的高质量和多样性。

GameGen-X 的训练过程可以分为两个阶段:基础模型预训练和指令调优。

在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其具备长序列、高质量开放域游戏视频生成能力。

为了实现交互控制,研究团队还设计了 InstructNet 来整合游戏相关的多模态控制信号专家。

在指令调优阶段,只更新 InstructNet 而冻结预训练的基础模型,这确保了在获得交互控制能力的同时,不会损失生成内容的多样性和质量。

具体来说,GameGen-X 结合了基础模型和 InstructNet 的双重架构。

基础模型负责生成高质量的游戏内容,而 InstructNet 则提供多模态交互控制能力,使玩家能够影响生成内容的延续,真实地模拟游戏体验。

为了有效处理视频中的时空冗余信息,研究团队引入了 3D 时空变分自动编码器进行视频压缩,使模型能够高效地处理高分辨率和长序列的视频内容,显著提升了处理效率。

在视频生成和交互控制方面,GameGen-X 采用了创新的掩码时空扩散变换器。该结构的独特之处在于,其巧妙地结合了空间注意力、时间注意力和交叉注意力机制,能够根据文本提示高效地生成游戏视频。

通过精心设计的堆叠配对空间和时间块,每个块都配备了交叉注意力和相应的空间或时间注意力,使模型能够同时捕捉空间细节、时间动态和文本引导信息,从而生成高度连贯和真实的游戏场景。

为了实现真正的交互控制,研究团队在 InstructNet 中创新性地采用了多模态专家系统。

这个系统能够处理多种类型的控制信号,包括结构化文本指令、键盘输入和视频提示等。

实验测试结果显示,与其他具有开放领域生成能力的模型相比,GameGen-X 在生成新颖领域游戏视频剪辑方面表现优异。

GameGen-X 在 Fréchet 初始距离(Fréchet Inception Distance)、Fréchet 视频距离(Fréchet Video Distance)、文本-视频对齐(Text-Video Alignment)和用户偏好(User Preference)等多个指标上均优于其他模型。

在控制指标方面,GameGen-X 的角色动作成功率为 63.0%,环境事件成功率为 56.8%,远远超过 OpenSora-Plan1.2 等其他模型。

总的来说,GameGen-X 展示了生成模型作为传统渲染技术辅助工具的潜力,有效地将创意生成与交互能力结合在一起。

这一研究为游戏内容设计和开发开辟了新的范式,为未来更自动化、数据驱动的游戏开发方法提供了新的可能性。

参考资料:

https://arxiv.org/pdf/2411.00769v1

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界最冷的十座城市,中国有6座上榜,最冷竟然是它!

世界最冷的十座城市,中国有6座上榜,最冷竟然是它!

中国艺术家
2026-01-15 05:23:28
哈登已得28614分,需要多久才能超越3万分?说出来你可能不信

哈登已得28614分,需要多久才能超越3万分?说出来你可能不信

林子说事
2026-01-15 15:09:10
点谁呢?乌姆蒂蒂:教练必须永远是老大,但有球队不是这样

点谁呢?乌姆蒂蒂:教练必须永远是老大,但有球队不是这样

懂球帝
2026-01-15 17:55:07
等孩子考完才敢说的实话:初中这张牌桌,拼的从来不是孩子的智商

等孩子考完才敢说的实话:初中这张牌桌,拼的从来不是孩子的智商

青苹果sht
2026-01-15 06:17:00
樊振东欧洲杀疯了,赞助暴涨12倍,豪门破百年禁忌

樊振东欧洲杀疯了,赞助暴涨12倍,豪门破百年禁忌

让心灵得以栖息
2026-01-15 11:07:58
重磅!恭喜开拓者,升级顶级中锋!

重磅!恭喜开拓者,升级顶级中锋!

体育新角度
2026-01-15 19:19:55
因公牺牲的贺娇龙坠马频率及危害远超奥运 她为了宣传效果太拼了!

因公牺牲的贺娇龙坠马频率及危害远超奥运 她为了宣传效果太拼了!

劲爆体坛
2026-01-15 01:43:04
2026央视春晚首次彩排明星全名单出炉,网友:咋还有“春晚混子”

2026央视春晚首次彩排明星全名单出炉,网友:咋还有“春晚混子”

阿雹娱乐
2026-01-15 11:28:55
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
47岁贺娇龙去世,同学发声:遗体已运回老家,安葬在父亲墓地旁

47岁贺娇龙去世,同学发声:遗体已运回老家,安葬在父亲墓地旁

180视角
2026-01-15 02:15:55
果然男二号不能找太帅的!网友:导演还是没听劝啊!

果然男二号不能找太帅的!网友:导演还是没听劝啊!

老吴教育课堂
2026-01-15 10:01:40
乌克兰继续在改变世界格局

乌克兰继续在改变世界格局

难得君
2026-01-13 19:15:30
特朗普称“阻挠达成俄乌和平协议的人是泽连斯基”,克宫回应

特朗普称“阻挠达成俄乌和平协议的人是泽连斯基”,克宫回应

环球网资讯
2026-01-15 19:39:13
俄罗斯物流大动脉中断,面包药品全面告急,民众恐慌囤货

俄罗斯物流大动脉中断,面包药品全面告急,民众恐慌囤货

石辰搞笑日常
2026-01-15 11:46:41
CBA最新消息!顶级大外援加盟北京首钢,上海男篮主力外援受伤

CBA最新消息!顶级大外援加盟北京首钢,上海男篮主力外援受伤

体坛瞎白话
2026-01-15 16:48:14
人去楼空,杉杉集团上海总部大楼流拍后降价4.5亿

人去楼空,杉杉集团上海总部大楼流拍后降价4.5亿

财视传播
2026-01-14 10:40:22
杨瀚森砍22+7发展联盟遭质疑水平低 韩国球迷:幸好他没打世预赛

杨瀚森砍22+7发展联盟遭质疑水平低 韩国球迷:幸好他没打世预赛

大嘴爵爷侃球
2026-01-15 17:07:00
三星痛失宝座,2025年全球智能手机出货量冠军易主

三星痛失宝座,2025年全球智能手机出货量冠军易主

商业周刊中文版
2026-01-13 17:26:09
太憋屈了!离异女子瞒着家人1800公里奔现,花1000买了个惨痛教训

太憋屈了!离异女子瞒着家人1800公里奔现,花1000买了个惨痛教训

火山诗话
2026-01-14 11:02:42
网格员深夜入户检查和凌晨点外卖被风控事件,它们都说这是为你好

网格员深夜入户检查和凌晨点外卖被风控事件,它们都说这是为你好

清书先生
2026-01-15 16:39:44
2026-01-15 20:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16128文章数 514486关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

中央纪委全会公报发布 首现着重查处"关键少数"等表述

头条要闻

中央纪委全会公报发布 首现着重查处"关键少数"等表述

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

健康
游戏
数码
房产
公开课

血常规3项异常,是身体警报!

别浪费时间了!快来《天下贰·经典版》躺赚零花钱

数码要闻

还得多等:两家英特尔显卡合作伙伴称尚未收到锐炫B770测试板

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版