网易首页 > 网易号 > 正文 申请入驻

昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!

0
分享至



8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

DeepMind在一周前为社区带来了交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源,让大家只能猜测这样的世界模型该如何实现。

8月12日,昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——「Matrix-Game 2.0」,同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展,Matrix-Game 2.0全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

「Matrix-Game 2.0」在实时生成和长序列能力上实现了质的飞跃。相较于上一版本,2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。

在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

这使得「Matrix-Game 2.0」不仅打破了内容生成与交互之间的壁垒,也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能,为构建通用虚拟世界提供了强有力的技术基座。



01

模型架构

「Matrix-Game 2.0」提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了传统依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。

与主流依赖文本语义的模型不同,「Matrix-Game 2.0」避免了语言先验可能带来的语义偏置,转而关注图像中的空间结构和动态模式,从而更真实、更准确地理解和生成虚拟世界。

基础模型架构



「Matrix-Game 2.0」采用图像为中心的感知与生成机制:

1、3D Causal VAE 压缩结构:通过三维因果变分自编码器实现空间和时间维度的高效压缩,提升建模效率与生成能力。

2、多模态扩散 Transformer (DiT):结合视觉编码器与用户动作指令,逐帧生成物理合理的动态视觉序列,并通过 3D VAE 解码成完整视频。

3、用户交互控制:借鉴GameFactory与Genie系列的控制设计框架,引入“动作模块”,实现用户与生成世界之间的交互操作。

实时自回归视频生成



「Matrix-Game 2.0」基于Self-Forcing训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题:

1、因果扩散模型训练:将双向扩散模型蒸馏为因果模型,使用基础模型初始化生成器,并构建小规模数据集,通过近似ODE轨迹进行训练,稳定自回归扩散过程。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。

2、分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。

3、KV 缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。该机制通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出,解决了训练与推理场景下上下文不一致的问题。基于此实现长时视频的高效生成而无需重复计算,单 GPU 上可实现 25 FPS 实时生成。

「Matrix-Game 2.0」能够生成跨场景的长时视频,保持动作和视觉的时序一致性,并且支持用户在交互过程中的连续指令输入,使其成为游戏内容创作、虚拟现实和智能交互系统的理想解决方案。这一方案将可控性、灵活性与效率相结合,推动高质量视频生成技术迈向更广泛的实时应用场景。

例如在一些无约束、不可控的真实场景,「Matrix-Game 2.0」可根据用户输入的任意控制指令(如键盘的 W/A/S/D 方向键、鼠标用于视角移动),生成对应的交互世界视频,支持角色的前后左右移动以及视角变换等动态行为。







在GTA游戏场景、Minecraft和神庙逃亡游戏场景中,「Matrix-Game 2.0」也支持键盘与鼠标操作,并且能够生成真实感更强、符合物理逻辑的可交互视频。









02

三大核心创新突破了传统模型的瓶颈

现有交互式世界模型普遍面临数据瓶颈、实时性不足、生成序列较短等挑战。「Matrix-Game 2.0」通过三大核心创新突破了传统模型的瓶颈:

1、构建了基于Unreal EngineGTA5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。

2、在1.3B小模型基础上设计了动作条件控制模块,支持帧级键盘与鼠标交互输入;并采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。

3、基于领先的架构设计和大量不同领域的高质量数据训练,实现了在多个任务上的领先模型:

(1)Matrix-Game Uni:支持在各种风格的静态真实场景下,进行自由的探索;

(2)Matrix-Game TempleRun:提供在神庙逃亡世界中进行拟真游戏的能力,具有精确的游戏指令指令响应能力;

(3)Matrix-Game GTA:支持在GTA场景中模拟车辆运作,和前两者不同的点在于,GTA模型模拟的世界是一个动态场景,场景内的物体有自身的运动轨迹。



当前,「Matrix-Game 2.0」具备三大核心优势:

1、高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以25 FPS实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。

2、多场景泛化能力:模型具备出色的跨域适应性,不仅适用于特定任务场景,还支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。

3、增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,提升沉浸感与可控性。

那么接下来我们看看「Matrix-Game 2.0」在生成长视频上的能力以及效果:





03

开源世界模型,昆仑万维领跑空间智能研究

以谷歌Genie 3等为代表的世界模型,已经为我们描绘了一个激动人心的未来蓝图。它向我们展示了AI不再仅仅是内容生成器,而是可以构建和模拟世界的“造物主”。随着AI技术的不断进步,我们有理由相信,世界模型将成为我们理解世界、创造未来、并最终实现通用人工智能的关键基础设施。

昆仑万维作为中国领先的人工智能科技公司,不仅打造出天工语言大模型、天工多模态大模型、SWE代码大模型、Agent大模型、视频大模型、音乐大模型、音频大模型等模型底座矩阵,还推出了火爆全球的AIGC产品,如Skywork超级智能体、Mureka等。

布局世界模型,是迈向具身智能与高级空间推理的下一前沿。如今,昆仑万维Matrix系列世界模型的持续迭代与开源,代表了中国空间智能方向研究和应用的新里程碑。我们相信,「Matrix-Game 2.0」将为具身智能体训练与数据生成、虚拟游戏世界快速搭建、影视与元宇宙内容生产等领域带来变革行影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
70岁被送养老院,我给侄子打了个电话,半个月后儿子急疯了

70岁被送养老院,我给侄子打了个电话,半个月后儿子急疯了

木子言故事
2026-01-16 08:28:35
顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

无情有思可
2026-01-17 12:19:55
部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

部队退役我当了狱警,给一个死刑犯剃头时,认出他是失踪多年的队长

浮生实录集
2025-09-18 15:10:05
安徽美女道士胡千慧被捕:精通“胡媚术”,九名男徒弟揭露其罪行

安徽美女道士胡千慧被捕:精通“胡媚术”,九名男徒弟揭露其罪行

小熊侃史
2026-01-15 07:05:08
养女是软肋,丈夫是铠甲,贺娇龙身后的家庭,藏着最动人的温柔

养女是软肋,丈夫是铠甲,贺娇龙身后的家庭,藏着最动人的温柔

牛锅巴小钒
2026-01-17 01:28:50
1948年,国军将领区寿年被俘,为何仅仅2年就被特赦?原因有三个

1948年,国军将领区寿年被俘,为何仅仅2年就被特赦?原因有三个

秀心文雅
2026-01-17 09:01:46
俄国人预测外蒙古可能回归中国,甚至连远东一并归还!

俄国人预测外蒙古可能回归中国,甚至连远东一并归还!

南权先生
2026-01-14 16:43:43
贺娇龙追悼会举行!丈夫悲痛送送别妻子,主编曝光坠马原因

贺娇龙追悼会举行!丈夫悲痛送送别妻子,主编曝光坠马原因

坠入二次元的海洋
2026-01-17 03:16:43
新华社消息|外交部:坚决反对建交国与中国台湾地区商签任何具有主权意涵和官方性质的协定

新华社消息|外交部:坚决反对建交国与中国台湾地区商签任何具有主权意涵和官方性质的协定

新华社
2026-01-16 16:22:36
34死!泰国高铁事故甩锅中国?涉事方黑料彻底藏不住了

34死!泰国高铁事故甩锅中国?涉事方黑料彻底藏不住了

金哥说新能源车
2026-01-17 11:01:00
成都岳钟琪墓地:破败寒酸,毫不起眼,至今都有人前来祭扫

成都岳钟琪墓地:破败寒酸,毫不起眼,至今都有人前来祭扫

铭记历史呀
2026-01-14 13:59:25
3新人到位!成都蓉城2助教加盟国安,前津门虎技术总监也投奔蒙帅

3新人到位!成都蓉城2助教加盟国安,前津门虎技术总监也投奔蒙帅

体坛鉴春秋
2026-01-17 11:10:13
俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

俄国真豪爽! 3 亿抛售北极战略地块,中国想买,挪威为何阻拦?

百科密码
2026-01-16 15:53:58
太意外雷霆三少谁最能赚?哈登4.2亿 杜兰特5亿,看到威少我服了

太意外雷霆三少谁最能赚?哈登4.2亿 杜兰特5亿,看到威少我服了

篮球看比赛
2026-01-17 11:12:56
张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

云舟史策
2026-01-17 11:47:45
难以置信!网传陕西一女孩在监控下“偷”了2000元,商家直接曝光

难以置信!网传陕西一女孩在监控下“偷”了2000元,商家直接曝光

火山诗话
2026-01-17 05:30:35
90岁姥姥为抄近路,徒手翻墙回家,本人回应:我真出息呢;此前其孙女表示,姥姥两耳不闻窗外事,不爱听的都装听不见

90岁姥姥为抄近路,徒手翻墙回家,本人回应:我真出息呢;此前其孙女表示,姥姥两耳不闻窗外事,不爱听的都装听不见

极目新闻
2026-01-17 10:11:48
秦朝竹简破译,历史再无秘密!秦始皇被黑2000年,这下“大白”了

秦朝竹简破译,历史再无秘密!秦始皇被黑2000年,这下“大白”了

铭记历史呀
2026-01-16 14:13:16
特朗普料定镇住后院,变故发生:中国挖美墙脚,打赢两场“胜仗”

特朗普料定镇住后院,变故发生:中国挖美墙脚,打赢两场“胜仗”

知法而形
2026-01-17 12:14:17
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
2026-01-17 13:15:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11085文章数 116943关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

头条要闻

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

本地
房产
时尚
艺术
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

艺术要闻

12个字竟引发书法教育大讨论,你怎么看?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版