网易首页 > 网易号 > 正文 申请入驻

AI做了个“GTA5”?国产开源世界模型硬刚谷歌,实时交互、分钟级生成

0
分享至

智东西8月12日报道,今日,昆仑万维开源自研世界模型Matrix系列中Matrix-Game交互世界模型的升级版本——Matrix-Game 2.0

上周,谷歌DeepMind推出交互式世界模型Genie 3,实现了交互式实时长序列生成,引起产业关注。然而Genie 3并没有开源。昆仑万维Matrix-Game 2.0是业内首个在通用场景上,实现实时长序列交互式生成的世界模型开源方案。这意味着具身智能、游戏、影视及元宇宙多个领域的开发者将获得一个高开放可用的数据合成、模型训练及场景搭建的生产力工具。

Matrix-Game 2.0有以下三大特点:

1、实时蒸馏。采用 “少步扩散” 技术,实现25FPS(帧/秒)的流式视频合成,能以超高速在复杂环境中生成分钟级、高保真的视频。

2、精准动作注入。一个 “鼠标 / 键盘到帧” 模块,可将用户输入作为直接交互嵌入其中,从而在生成的视频中实现帧级控制和动态响应。

3、大规模交互式数据管道。一个适用于虚幻引擎(Unreal Engine)和《侠盗猎车手 5》(GTA5)的可扩展生产系统,能生成约1200小时的高质量交互式视频数据,涵盖多样化场景,且具备帧级真实感。

▲基于Matrix-Game 2.0生成的交互式模型

这款模型的视频生成效果如何?有什么样的应用价值?又有什么技术亮点?本文带大家一探究竟。

项目主页:
https://matrix-game-v2.github.io/
HuggingFace地址:
https://huggingface.co/Skywork/Matrix-Game-2.0
GitHub地址:
https://github.com/SkyworkAI/Matrix-Game

一、低延迟、高帧率、长时序,国产交互式世界模型开源

相较于上一版本,Matrix-Game 2.0更加侧重低延迟、高帧率的长序列交互性能,能够以25 FPS的速度,在多种复杂场景中稳定生成连续视频内容,且生成时长可扩展至分钟级,大幅提升了连贯性与实用性。

在推理速度显著提升的同时,模型依然保持了对物理规律与场景语义的精准理解,支持用户通过简单指令,自由探索、操控并实时构建结构清晰、细节丰富、规则合理的虚拟环境。

在性能测试上,如下图所示,Matrix-Game 2.0在 Minecraft场景的GameWorld Score基准测试中取得了好成绩,在图像质量、美学品质、鼠标指针等多个方面的得分均超过了全球首个实时可玩可交互的世界模型Oasis。

例如在一些无约束、不可控的真实场景,Matrix-Game 2.0可根据用户输入的任意控制指令,如键盘的 W/A/S/D 方向键、鼠标用于视角移动,生成对应的交互世界视频,支持角色的前后左右移动以及视角变换等动态行为。



▲Matrix-Game 2.0支持无约束、不可控的真实场景交互

在GTA游戏场景和Minecraft场景中,Matrix-Game 2.0也支持键盘与鼠标操作,并且能够生成真实感更强、符合物理逻辑的可交互视频。


▲Matrix-Game 2.0支持GTA游戏场景交互

二、自回归扩散生成机制,实时生成长视频

交互式视频生成领域的最新进展展现了扩散模型作为世界模型的潜力。然而,现有的交互式世界模型依赖于双向注意力机制和冗长的推理步骤,严重限制了实时性能。因此,它们难以模拟现实世界的动态。

为了解决这个问题,昆仑万维提出了Matrix-Game 2.0,一个交互式世界模型,它通过几步自回归扩散算法实时生成长视频。其基础模型源自WanX,通过移除文本分支并添加动作模块,该模型仅根据视觉内容和对应的动作来预测下一帧。

Matrix-Game 2.0的框架由三个关键组件组成:

1、一个适用于虚幻引擎和GTA5环境的可扩展数据生产流水线,可有效生成海量(约 1200小时)交互式视频数据;

2、一个动作注入模块,支持帧级鼠标和键盘输入交互;

3、基于随意架构的几步提炼,用于实时流式视频生成。

Matrix-Game 2.0基于Self-Forcing训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题:

1、因果扩散模型训练:将双向扩散模型蒸馏为因果模型,使用基础模型初始化生成器,并构建小规模数据集,通过近似ODE轨迹进行训练,稳定自回归扩散过程。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。

2、分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。

3、KV缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。该机制通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出,解决了训练与推理场景下上下文不一致的问题。基于此实现长时视频的高效生成而无需重复计算,单GPU上可实现25 FPS实时生成。

Matrix-Game 2.0能够以25 FPS的超快速度跨不同场景生成高质量的分钟级视频。昆仑万维开源其模型权重和代码库,以推进交互式世界建模的研究。

结语:世界模型加速具身智能、游戏影视发展

以谷歌Genie等为代表的世界模型,正推动AI从内容生成工具升级为“世界构建者”,昆仑万维开源的Matrix系列是中国在空间智能领域取得里程碑进展。

随着其最新迭代的Matrix-Game 2.0落地,具身智能体训练与数据生成、虚拟游戏世界高效搭建、影视及元宇宙内容生产等领域有望加速发展,为中国AI产业开辟新范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“神仙员工”每天最早到最晚走,不断上报“稳赚十几万”大项目,老板多次爽快拨款!一看账户资金,傻眼了……

“神仙员工”每天最早到最晚走,不断上报“稳赚十几万”大项目,老板多次爽快拨款!一看账户资金,傻眼了……

洪观新闻
2026-04-27 16:49:40
陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

陆毅50岁体重飙至176斤,血压偏高嘴唇发紫入院

日不西沉
2026-04-26 23:00:12
不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

叮当当科技
2026-04-27 18:12:33
毫无预期地,我遇见了言笑晏晏的江青

毫无预期地,我遇见了言笑晏晏的江青

霹雳炮
2026-04-26 22:56:06
以色列防长放话,斩首伊朗新领袖,伊朗点名普京,中俄联手划红线

以色列防长放话,斩首伊朗新领袖,伊朗点名普京,中俄联手划红线

甜到你心坎
2026-04-27 18:25:51
养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

养老院老太太被水饺噎死,工作人员收拾遗物惊呼:她竟如此尊贵

深度报
2026-04-26 23:11:40
皮尔斯:火箭可以用小史密斯换吉迪,阿门打球很像追梦格林

皮尔斯:火箭可以用小史密斯换吉迪,阿门打球很像追梦格林

懂球帝
2026-04-27 16:19:10
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了

喜欢历史的阿繁
2026-04-26 11:01:11
58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

58岁江珊露面,150斤穿西装腚大腰圆,但脸显年轻几乎没皱纹

墨印斋
2026-04-24 16:43:38
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

王二哥老搞笑
2026-04-22 14:26:21
媒体揭泰山惨败真因,韩鹏三后卫不是原罪,俱乐部三乱才是根本

媒体揭泰山惨败真因,韩鹏三后卫不是原罪,俱乐部三乱才是根本

刘哥谈体育
2026-04-27 18:10:33
从国米非卖品到热刺弃将,只用了3年时间,齐达内接班人毁于性格

从国米非卖品到热刺弃将,只用了3年时间,齐达内接班人毁于性格

足篮大世界
2026-04-27 17:27:12
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
我跟车间女主管吵架,骂她嫁不出去,当晚她气得拎嫁妆找上门

我跟车间女主管吵架,骂她嫁不出去,当晚她气得拎嫁妆找上门

千秋文化
2026-04-25 20:34:11
追觅CEO俞浩发文批评小红书:价值观和盈利模式都有毒

追觅CEO俞浩发文批评小红书:价值观和盈利模式都有毒

鲁中晨报
2026-04-27 07:12:05
广东将有两次降水过程,暴雨再度来袭!省三防办要求应转尽转

广东将有两次降水过程,暴雨再度来袭!省三防办要求应转尽转

南方都市报
2026-04-27 18:08:27
日本大地震!“三餐变一顿”,开始呼叫中国?

日本大地震!“三餐变一顿”,开始呼叫中国?

小正说娱乐
2026-04-27 07:53:23
享界S9麋鹿测试引争议,余承东:存在黑幕,轮胎被放气、拧松

享界S9麋鹿测试引争议,余承东:存在黑幕,轮胎被放气、拧松

三言科技
2026-04-27 09:52:21
森林狼击败掘金后,约基奇引发大规模冲突,NBA宣布处罚决定:约基奇罚50000美元,兰德尔罚35000美元

森林狼击败掘金后,约基奇引发大规模冲突,NBA宣布处罚决定:约基奇罚50000美元,兰德尔罚35000美元

鲁中晨报
2026-04-27 11:20:04
2026-04-27 19:31:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11698文章数 117048关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

东方甄选多位主播离职 罗永浩连发6个问句怒怼网友

头条要闻

东方甄选多位主播离职 罗永浩连发6个问句怒怼网友

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

家居
艺术
手机
亲子
公开课

家居要闻

江景风格 流动的秩序

艺术要闻

你绝对想不到,摄影能让她成为女神!

手机要闻

最强Mate来了!华为Mate 90最快9月亮相:首发麒麟最强芯

亲子要闻

今日孕产营养餐~香煎猪扒

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版