网易首页 > 网易号 > 正文 申请入驻

昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!

0
分享至



8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。

DeepMind在一周前为社区带来了交互式世界模型的重大更新Genie 3,实现了交互式实时长序列生成,让世界模型备受关注,然而Genie 3并没有开源,让大家只能猜测这样的世界模型该如何实现。

8月12日,昆仑万维为大家带来了自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——「Matrix-Game 2.0」,同样实现了通用场景下的交互式实时长序列生成的世界模型。并且为促进交互式世界模型领域的发展,Matrix-Game 2.0全面开源,是业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案。

「Matrix-Game 2.0」在实时生成和长序列能力上实现了质的飞跃。相较于上一版本,2.0版本更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。

在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

这使得「Matrix-Game 2.0」不仅打破了内容生成与交互之间的壁垒,也为虚拟人、游戏引擎、具身智能等前沿应用打开了新的可能,为构建通用虚拟世界提供了强有力的技术基座。



01

模型架构

「Matrix-Game 2.0」提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了传统依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。

与主流依赖文本语义的模型不同,「Matrix-Game 2.0」避免了语言先验可能带来的语义偏置,转而关注图像中的空间结构和动态模式,从而更真实、更准确地理解和生成虚拟世界。

基础模型架构



「Matrix-Game 2.0」采用图像为中心的感知与生成机制:

1、3D Causal VAE 压缩结构:通过三维因果变分自编码器实现空间和时间维度的高效压缩,提升建模效率与生成能力。

2、多模态扩散 Transformer (DiT):结合视觉编码器与用户动作指令,逐帧生成物理合理的动态视觉序列,并通过 3D VAE 解码成完整视频。

3、用户交互控制:借鉴GameFactory与Genie系列的控制设计框架,引入“动作模块”,实现用户与生成世界之间的交互操作。

实时自回归视频生成



「Matrix-Game 2.0」基于Self-Forcing训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题:

1、因果扩散模型训练:将双向扩散模型蒸馏为因果模型,使用基础模型初始化生成器,并构建小规模数据集,通过近似ODE轨迹进行训练,稳定自回归扩散过程。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。

2、分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。

3、KV 缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。该机制通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出,解决了训练与推理场景下上下文不一致的问题。基于此实现长时视频的高效生成而无需重复计算,单 GPU 上可实现 25 FPS 实时生成。

「Matrix-Game 2.0」能够生成跨场景的长时视频,保持动作和视觉的时序一致性,并且支持用户在交互过程中的连续指令输入,使其成为游戏内容创作、虚拟现实和智能交互系统的理想解决方案。这一方案将可控性、灵活性与效率相结合,推动高质量视频生成技术迈向更广泛的实时应用场景。

例如在一些无约束、不可控的真实场景,「Matrix-Game 2.0」可根据用户输入的任意控制指令(如键盘的 W/A/S/D 方向键、鼠标用于视角移动),生成对应的交互世界视频,支持角色的前后左右移动以及视角变换等动态行为。







在GTA游戏场景、Minecraft和神庙逃亡游戏场景中,「Matrix-Game 2.0」也支持键盘与鼠标操作,并且能够生成真实感更强、符合物理逻辑的可交互视频。









02

三大核心创新突破了传统模型的瓶颈

现有交互式世界模型普遍面临数据瓶颈、实时性不足、生成序列较短等挑战。「Matrix-Game 2.0」通过三大核心创新突破了传统模型的瓶颈:

1、构建了基于Unreal EngineGTA5的可扩展数据生产管线,生产约1350小时高质量交互式视频数据,提供丰富动作覆盖。

2、在1.3B小模型基础上设计了动作条件控制模块,支持帧级键盘与鼠标交互输入;并采用少步长自回归扩散模型实现实时长序列视频生成,在单个GPU上可达25 FPS的生成速度。

3、基于领先的架构设计和大量不同领域的高质量数据训练,实现了在多个任务上的领先模型:

(1)Matrix-Game Uni:支持在各种风格的静态真实场景下,进行自由的探索;

(2)Matrix-Game TempleRun:提供在神庙逃亡世界中进行拟真游戏的能力,具有精确的游戏指令指令响应能力;

(3)Matrix-Game GTA:支持在GTA场景中模拟车辆运作,和前两者不同的点在于,GTA模型模拟的世界是一个动态场景,场景内的物体有自身的运动轨迹。



当前,「Matrix-Game 2.0」具备三大核心优势:

1、高帧率实时交互长序列生成:支持前后左右移动和视角转动,用户可通过指令操控角色在场景中自由行动,系统以25 FPS实时生成连续画面,单次交互可生成分钟级别长交互视频,动作自然流畅,响应精准。

2、多场景泛化能力:模型具备出色的跨域适应性,不仅适用于特定任务场景,还支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。

3、增强的物理一致性:对物理规则的理解进一步提升,角色在面对台阶、障碍物等复杂地形时,能够展现出符合物理逻辑的运动行为,提升沉浸感与可控性。

那么接下来我们看看「Matrix-Game 2.0」在生成长视频上的能力以及效果:





03

开源世界模型,昆仑万维领跑空间智能研究

以谷歌Genie 3等为代表的世界模型,已经为我们描绘了一个激动人心的未来蓝图。它向我们展示了AI不再仅仅是内容生成器,而是可以构建和模拟世界的“造物主”。随着AI技术的不断进步,我们有理由相信,世界模型将成为我们理解世界、创造未来、并最终实现通用人工智能的关键基础设施。

昆仑万维作为中国领先的人工智能科技公司,不仅打造出天工语言大模型、天工多模态大模型、SWE代码大模型、Agent大模型、视频大模型、音乐大模型、音频大模型等模型底座矩阵,还推出了火爆全球的AIGC产品,如Skywork超级智能体、Mureka等。

布局世界模型,是迈向具身智能与高级空间推理的下一前沿。如今,昆仑万维Matrix系列世界模型的持续迭代与开源,代表了中国空间智能方向研究和应用的新里程碑。我们相信,「Matrix-Game 2.0」将为具身智能体训练与数据生成、虚拟游戏世界快速搭建、影视与元宇宙内容生产等领域带来变革行影响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局来了,安世中国反杀荷兰,这步棋荷兰亏麻了!

大结局来了,安世中国反杀荷兰,这步棋荷兰亏麻了!

三石记
2025-11-02 19:05:08
中方准备算总账了:拖了7年,不许中国新建使馆,英首相继续头铁

中方准备算总账了:拖了7年,不许中国新建使馆,英首相继续头铁

史料布籍
2025-11-02 20:50:01
筹码集中!最新股东户数环比减少30%以上的公司一览

筹码集中!最新股东户数环比减少30%以上的公司一览

A股数据表
2025-11-02 17:00:25
北京知名游乐园起火,最新通报

北京知名游乐园起火,最新通报

南方都市报
2025-11-02 18:33:29
4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

4-0,巴萨天塌了!皇马又赢了+6连胜,稳居榜首

乌龙球OwnGoal
2025-11-02 06:39:42
山姆一张不雅照,刺痛3亿中产!

山姆一张不雅照,刺痛3亿中产!

广告案例精选
2025-11-02 17:37:27
太惊喜!16岁“中国C罗”留洋西班牙爆发:2场狂轰4球!

太惊喜!16岁“中国C罗”留洋西班牙爆发:2场狂轰4球!

邱泽云
2025-11-02 13:43:17
歹徒绑架女富婆,将其强奸,3天后歹徒却哭着说:钱不要了你快走吧

歹徒绑架女富婆,将其强奸,3天后歹徒却哭着说:钱不要了你快走吧

悬案解密档案
2025-10-21 09:31:32
官方已确认!75岁张艺谋,突传消息!

官方已确认!75岁张艺谋,突传消息!

好叫好伐
2025-11-01 18:19:38
章泽天参加APEC峰会,换了造型胜似贵妇,跟大人物握手笑容灿烂!

章泽天参加APEC峰会,换了造型胜似贵妇,跟大人物握手笑容灿烂!

心静物娱
2025-11-02 15:42:14
国米夏窗买错人,2500万先生完全不适应:冬窗租借24岁全能中场

国米夏窗买错人,2500万先生完全不适应:冬窗租借24岁全能中场

里芃芃体育
2025-11-03 05:10:03
知名男演员自曝,被亲戚骗光所有积蓄

知名男演员自曝,被亲戚骗光所有积蓄

极目新闻
2025-11-02 10:28:03
确认开始!大批上海人收到官方短信!多区发布公告

确认开始!大批上海人收到官方短信!多区发布公告

鲁中晨报
2025-11-02 11:11:15
2025年,延迟发工资最严重的一年。

2025年,延迟发工资最严重的一年。

爱吃糖的猫cat
2025-11-02 19:21:22
王艺迪女单夺冠献飞吻!突破外协围剿守住国乒荣誉,郭焱赛后大赞

王艺迪女单夺冠献飞吻!突破外协围剿守住国乒荣誉,郭焱赛后大赞

排球黄金眼
2025-11-03 02:52:56
好消息!菲律宾宣布:11月1日起,恢复中国公民电子签证服务!

好消息!菲律宾宣布:11月1日起,恢复中国公民电子签证服务!

王爷说图表
2025-11-01 22:38:46
证实了,他已套现超70亿元

证实了,他已套现超70亿元

极目新闻
2025-11-02 22:39:12
3-1,英超第8掀翻英超第2,曼城逼近榜首,哈兰德无敌单刀双响炮

3-1,英超第8掀翻英超第2,曼城逼近榜首,哈兰德无敌单刀双响炮

侧身凌空斩
2025-11-03 02:27:57
“过来最后抱我一下吧,因为我活不成了”9岁男孩因不满母亲催促,将刀藏在衣袖中刺死母亲

“过来最后抱我一下吧,因为我活不成了”9岁男孩因不满母亲催促,将刀藏在衣袖中刺死母亲

观威海
2025-11-02 11:18:06
在发生关系时,女性为什么主动要求男人说“下流话”呢?

在发生关系时,女性为什么主动要求男人说“下流话”呢?

王二哥老搞笑
2025-09-15 04:46:09
2025-11-03 05:59:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10685文章数 116892关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
艺术
亲子
公开课
军事航空

TES给Faker打困了!网友称第一次见到Faker打哈欠

艺术要闻

瓦迪斯瓦夫·谢维尼茨基:19世纪波兰杰出的画家

亲子要闻

我发现一个带娃永远不生气的理论

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版