网易首页 > 网易号 > 正文 申请入驻

李飞飞又被超越了?百万「普通视频」打造通用4D世界模型!

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:桃子 好困

【新智元导读】当全行业还在为昂贵的多视角数据焦头烂额时,中科院和CreateAI重磅推出NeoVerse,直接用百万单目视频砸开了4D世界模型的大门,让AI真正学会了理解开放世界。

李飞飞团队提出的 Marble 极大地推动了空间智能的边界,但因其应用场景仍局限于静态环境,本质上归属于 3D 世界模型的范畴。相比之下,4D 世界模型作为空间智能的演进形态,在数字内容创作、游戏开发、自动驾驶仿真及具身智能等领域展现出巨大的应用潜力。然而,当前的 4D 世界模型训练方案正面临严峻的扩展性(Scalability)瓶颈。

模型的训练通常需要成对的视频,即输入给模型的原视角视频,和作为监督的时间同步的新视角目标视频。这种特殊的数据需求使得训练难以扩展到海量的数据上。现有的研究往往受困于以下两点:

这些限制构成了重重壁垒,将互联网上最廉价、最丰富的资源——开放场景单目视频数据阻隔在外。

为此,来自中科院自动化研究所和 CreateAI 的研究者提出了NeoVerse。NeoVerse 彻底抛弃了昂贵的多视角数据和沉重的离线预处理,直接拥抱互联网上的海量单目视频,首次利用100万段开放场景单目视频进行大规模训练。


项目主页:https://neoverse-4d.github.io/

论文链接:https://arxiv.org/abs/2601.00393

前馈式4DGS:免位姿的高效重建底座


NeoVerse 是一种重建-生成混合式的架构,其首先重建出 4D 表示,然后将其用于生成模型的作为新视角的几何引导。要实现训练管线的 scaling up,第一步必须解决「重建速度」问题。NeoVerse 提出了一种免姿态输入(Pose-free)的前馈式 4DGS 模型。

与传统针对专一场景迭代优化的重建方法不同,NeoVerse 基于视觉几何基础变换器(VGGT)进行动态化和高斯化改进。这种前馈式重建无需复杂离线预处理,一次预测即可在几秒内完成动态场景 4D 建模。

双向运动建模

NeoVerse 引入双向运动编码分支,通过交叉注意力机制分别提取前向 ( )和后向( )的运动特征,这种有利于精准预测高斯基元的双向线速度和角速度,实现相邻时间戳的中间时刻高斯插值渲染。

具体来说,对于帧特征 ,NeoVerse 沿时间维度将其复制并切分成两部分: 和 。其中前者作为查询特征,后者作为键和值来获取前向运动特征,反之则得到后向运动特征。

其中 和 分别是 的前向运动特征和 的后向运动特征,这些特征将用于预测高斯基元双向运动的线速度和角速度。

4D高斯化

NeoVerse 定义的 4D 高斯基元如下

包括传统 3D 高斯属性:3D 位置 、不透明度 、朝向 、大小 和球谐系数 。双向建模预测的前后向线速度 和角速度 。以及 4DGS 常用的生命周期 。

其中 3D 位置 是通过预测深度和相机参数将像素深度反向投影到 3D 空间获得的,动态属性 由双向运动特征预测,其他属性则由帧特征预测。

秒级在线构建数据对:规模化训练4D世界模型

稀疏帧重建 × 密集帧渲染

为了进一步加快重建速度从而提升训练效率,NeoVerse 提出「稀疏帧重建,密集帧渲染」策略,在少量稀疏关键帧输入的条件下通过高斯场插值渲染出连续密集的视频画面。对于一个非关键帧时间戳 ,NeoVerse 将其最近的关键帧时间戳 下的高斯基元 转移到 :

其中为了处理非均匀的关键帧间隔,NeoVerse 归一化时间距离 来对不透明度的衰减进行建模, 是 的左右两个关键帧时间戳。生命周期 约束在 范围内,当 接近于1时, 趋于1,表明 ,否则不透明度会快速衰减。

单目退化模拟


在单目视频训练中,最大的挑战是缺乏「新视角」的监督信号。NeoVerse 并没有尝试寻找完美的数据,而是反其道而行之,引入了单目退化模拟机制,在训练的每一次迭代中,NeoVerse 并不是简单地从输入视角渲染,而是刻意「模拟」了单目重建在不同视角下的退化规律,从而建立起一套自监督训练范式:

退化渲染引导

NeoVerse 通过控制分支将模拟的渲染结果(包含渲染图像、深度、不透明度图以及相机位姿的 Plüker 嵌入)注入视频生成模型。在训练过程中,NeoVerse 仅训练控制分支,同时冻结视频生成主干模型,这不仅可以提升训练效率,更重要的是,使其能够支持步数蒸馏 LoRAs,以加速生成过程。

实验结果与分析


NeoVerse 通过 VBench 测评了共计400个测试样例,无论是从重建和生成的运行速度,还是从生成质量上均显著优于现有方法。


即使在具有挑战性场景上进行大幅度视角运动控制。 NeoVerse 依然能在保持精确相机可控性的同时实现更好的生成质量。


较大的相机运动下的渲染图像容易产生包括飞边像素和扭曲等现象。上图展示了 NeoVerse 单目退化模拟的必要性。如果没有在模拟出的退化样本上进行训练,生成模型往往会过于信任重建渲染中的几何伪影,导致出现「鬼影」效果或模糊输出。通过结合退化模拟,生成模型能够学会抑制这些伪影,并在遮挡或扭曲区域生成逼真的细节。

下游应用

在大规模视频训练的支持下,NeoVerse 不仅能实现高精度的 4D 重建与精准漫游,更能跨越影视制作、具身智能与自动驾驶等多个领域,支持多视角生成、视频编辑等丰富下游应用。

子弹时间

从图像到世界:重建 + 生成的迭代闭环

多样化相机控制

视频编辑

具身场景应用

驾驶场景应用

驾驶场景前视相机到多视角相机扩展

总结

NeoVerse 的出现,标志着 4D 空间智能从「实验室精雕细琢」向「大规模数据驱动」的范式转移。它通过攻克核心的扩展性(Scalability)瓶颈,构建了一套能够无缝适配互联网单目视频的训练管线。这种对海量开放场景数据的深度挖掘,不仅让 NeoVerse 在泛化能力上实现了质的飞跃,更使其成为了支撑自动驾驶、具身智能及内容创作等多元领域的通用 4D 世界模型底座。

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
工信部牵头警示锂电池产业非理性竞争,十余家头部企业参与

工信部牵头警示锂电池产业非理性竞争,十余家头部企业参与

界面新闻
2026-01-08 18:14:11
李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

李在明也没想到,访华仅3天,59岁妻子竟凭一个举动给他长脸了

浮光惊掠影
2026-01-08 00:49:35
6金重压下洗牌!王皓出局马琳逆袭,王励勤真的放权了?

6金重压下洗牌!王皓出局马琳逆袭,王励勤真的放权了?

卿子书
2026-01-07 08:13:04
张常宁宣布退役:结束19年球员生涯 未来全职担任江苏女排教练

张常宁宣布退役:结束19年球员生涯 未来全职担任江苏女排教练

醉卧浮生
2026-01-07 16:48:37
被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

娱说瑜悦
2025-12-13 12:24:22
分手传闻持续发酵后,一言不发的庞众望,终于不再顾忌所谓的体面

分手传闻持续发酵后,一言不发的庞众望,终于不再顾忌所谓的体面

观察者海风
2026-01-08 09:35:23
棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

棱镜门事件内幕,美国派16名特种兵进入澳门,斯若登命运扭转!

板栗说事
2024-10-13 12:40:43
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

健康之光
2026-01-05 14:22:46
争议!CBA官方解说员公然搞地域歧视:听到两岸猿声 处罚结果来了

争议!CBA官方解说员公然搞地域歧视:听到两岸猿声 处罚结果来了

念洲
2026-01-08 07:24:21
MiuMiu15.2万镶钻围裙已被订购,网友辣评:村里赶大集也能买

MiuMiu15.2万镶钻围裙已被订购,网友辣评:村里赶大集也能买

现代快报
2026-01-08 16:41:07
比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

比田朴珺更潇洒!王石邀请众人到家打牌聚餐,3位美女暗送秋波

揽星河的笔记
2026-01-07 19:21:08
私拉电线!多辆房车长期停放深圳公园停车场

私拉电线!多辆房车长期停放深圳公园停车场

深圳晚报
2026-01-08 12:47:09
都体:曼联为小因扎吉开1500万镑年薪,但他现在两年5000万欧

都体:曼联为小因扎吉开1500万镑年薪,但他现在两年5000万欧

懂球帝
2026-01-08 18:26:20
瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

离离言几许
2026-01-07 22:38:54
闫学晶奢侈风波升级!官媒出手锐评,韩红却因一特殊举动口碑暴增

闫学晶奢侈风波升级!官媒出手锐评,韩红却因一特殊举动口碑暴增

李健政观察
2026-01-06 21:18:10
挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

挪媒:索帅若执教曼联周薪约5-6万镑,进欧冠奖金300-400万镑

懂球帝
2026-01-08 18:26:20
1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

1972年,毛主席当众指着她鼻子骂:你男人跟别人好了,你怎么不离婚?

寄史言志
2026-01-07 21:08:15
特雷杨怒了!赛中惨遭交易直接爆发,苦笑返场握手,原来詹皇没错

特雷杨怒了!赛中惨遭交易直接爆发,苦笑返场握手,原来詹皇没错

嘴炮体坛
2026-01-08 11:17:26
我国有两座用道士名字命名的城市,千年来风调雨顺,至今未曾改名

我国有两座用道士名字命名的城市,千年来风调雨顺,至今未曾改名

铭记历史呀
2026-01-08 08:21:36
2026-01-08 20:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1961766文章数 5191关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

女子取240万现金"给外甥当彩礼" 外甥:根本没有对象

头条要闻

女子取240万现金"给外甥当彩礼" 外甥:根本没有对象

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

手机
艺术
亲子
数码
时尚

手机要闻

荣耀V20感叹号设计回归,Magic8 Pro Air手机四配色外观曝光

艺术要闻

颐和园金光穿洞

亲子要闻

公婆带不好娃影响事业

数码要闻

A770 16GB MXM性能释放110W,ACEMAGIC M1A PRO迷你主机上市

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

无障碍浏览 进入关怀版