网易首页 > 网易号 > 正文 申请入驻

一张图,开启四维时空:4DNeX让动态世界 「活」起来

0
分享至

仅凭一张照片,能否让行人继续行走、汽车继续飞驰、云朵继续流动,并让你从任意视角自由观赏?

南洋理工大学 S-Lab 携手上海人工智能实验室,给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈(feed-forward) 框架,4DNeX 摆脱了游戏引擎与合成数据的束缚,首次大规模利用真实世界动态影像进行训练,实现「时空视频」的高效、多视角、高保真渲染。

在多项基准测试中,4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法,真正把「一张图生成四维世界」的科幻概念带进了现实。

  • 论文链接:https://4dnex.github.io/4DNeX.pdf
  • 项目主页:https://4dnex.github.io/

1. 研究背景

世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频,但目前尚且缺乏在诸多真实场景上的验证。

世界模型发展的一个重要拐点在于:让模型学会刻画我们身处的动态 3D 世界,并服从其物理定律。 唯有如此,生成的内容才能既逼真又可导,进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与具身智能的重要研究基石,更是迈向可信 AGI 的必经之路。

构建 4D 世界模型的关键能力,在于能否持续产出高保真、可扩展的 4D 内容,其主要在于以下三个方面的研究:

  • 数据– 相较于游戏等引擎合成的数据,真实采集的数据虽能保留物理属性,却难以大量获取,更难标注;
  • 表征- 如何兼顾不同模态(如材质和几何等)特性,设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题;
  • 架构– 当前的不同生成模型架构互有优劣,如何更好地继承现有模型先验,保障高质量仍需探索。

鉴于此,「真实高效」的 4D 世界模型构建非常重要,也充满挑战。

2. 4DNeX-10M Dataset

近千万帧带 4D 标注的视频集

为破解高质量真实 4D 数据稀缺的瓶颈,4DNeX 首度发布4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题,尤以海量「以人为中心」的 4D 数据为特色,囊括丰富的物理属性、动态细节与交互行为,为 4D 世界模型的构建奠定坚实基础。

图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据

为支撑 4DNeX-10M 的构建,研究者们同步设计了一条全自动的数据–标注管线(见下图)。

  • 数据源:单目实拍视频数据,其中动态场景取自 Pexels、Vimeo 等公开视频库;静态场景则整合 RealEstate-10K、DL3DV 等。
  • 首轮清洗:基于光流一致性、亮度统计、运动强度及 OCR 文字检测,剔除低质片段。
  • 标签制作:
  • 内容:LLaVA-Next Video 给视频片段打标。
  • 几何:静态场景使用 Dust3R 三维重建,动态场景使用 Monst3R / MegaSam 四维重建,输出 Semi-Dense 3D/4D 点云图、几何标签。
  • 质量把关:联合置信度(MCV、HCPR 等)与运动平滑度等多重阈值,筛除几何漂移或动态异常序列。

最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。

图 2 4DNeX-10M 构建管线以及数据统计情况

3. 4DNeX 方法架构

表征选取

在 4D 内容生成中,传统「4D」指 3D 空间几何外加时间轴;而在世界模型的语境下,RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征:以 RGB 序列刻画外观(3 维)并以 XYZ 序列编码几何(3 维)。该设计无需显式相机控制,即可同步生成多模态内容,兼顾真实感与物理一致性。

图 3 不同的 RGB 和 XYZ 模态融合策略

算法框架

4DNeX 框架的技术突破在于「宽度融合」这一关键策略:系统比较五种方案后,研究者们发现将 RGB 与 XYZ 在 token 宽度维度直接拼接,可将跨模态距离压到最低。 相比之下,通道融合会扰乱预训练分布,批处理融合又无法保证对齐。

图 4 不同的空间融合策略对比

网络骨架沿用 Wan2.1 视频扩散模型,通过轻量级 LoRA 微调完成适配,主要的策略包括有:

  • 输入端以斜坡深度初始化,先验地逼近自然场景的深度梯度;
  • XYZ 坐标经归一化校正,彻底消除 VAE 潜在空间的分布错位;
  • 软掩码机制在扩散过程中动态约束几何细节,引导结构收敛;
  • 旋转位置编码维持像素级 RGB-XYZ 对齐。

最后,仅需一次轻量重投影即可反算出相机参数,确保输出在物理层面严密自洽。

图 5 4DNeX 框架总览

4. 实验结果

实验验证显示 4DNeX 在效率与质量上实现双重突破:VBench 测试中,其动态幅度达 100%(超越 Free4D 的 40.1%),时空一致性 96.8% 领先业界。用户研究(23 人评估)更显示 85% 用户偏好其生成效果,尤其在运动幅度与真实感方面优势显著。

生成效果可视化证明模型能力 —— 单图输入可输出连贯动态点云序列(图 5),新视角合成在真实场景(in-the-wild)中保持几何一致性(下图 6);与 Animate124、4Real 等基线对比(下图 7),4DNeX 在树叶摇曳幅度、人体动作自然度等细节表现更优。

图 6 4DNeX 生成的视频效果(RGB & Point Map)

图 7 4DNeX 生成未经训练真实世界视频的新视角视频

图 8 4DNeX 对比其他方法的生成效果

User Study 用户调研结果显示 4DNeX 生成的效果优于 Free4D、4Real、Animate124、GenXD 方法。

表格 1 User Study 结果对比

消融实验

研究者们还对比了五种融合 RGB 以及 XYZ 的策略,以发现最佳的多模态融合策略。实验一步证实宽度融合策略的关键作用,消除其他方案(如通道融合)的噪声或对齐失败问题。

图 9 不同融合策略的结果可视化展示

文中视频链接:https://mp.weixin.qq.com/s/_e4C5H6JzqlA1SHKip4USg

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子返程被堵高速,发现20多辆私家车占用应急车道行驶,花半小时挨个拍照举报,当事人发声;交警回应:处理中

女子返程被堵高速,发现20多辆私家车占用应急车道行驶,花半小时挨个拍照举报,当事人发声;交警回应:处理中

扬子晚报
2026-02-24 16:27:31
一个疯子,造出便宜100倍的AI芯片

一个疯子,造出便宜100倍的AI芯片

傅盛
2026-02-23 15:18:48
吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

吵架将孩子扔河里后续:原因曝光,夫妻身份被扒,娃状态让人担忧

社会日日鲜
2026-02-24 09:37:52
妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

妈祖被换女孩三天涨粉几十万:一场“自导自演”的流量狂欢?

听心堂
2026-02-24 11:27:44
女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

女子返乡返程把狗装桶固定车顶走红,主人称“狗狗不愿意长时间坐在车内,想去外面透气”

观威海
2026-02-24 16:50:04
俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

俄乌牺牲士兵们的平凡愿望,如今只能在AI里实现了

网易新闻出品
2026-02-24 10:00:05
弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

弱冷空气在广东“开工”,多地有分散性零星小雨!早晚有轻雾

南方都市报
2026-02-24 11:37:04
“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

妍妍教育日记
2026-02-24 18:13:37
“现在至少要10万”,有人刚花11万买进:这是刚需,不等了

“现在至少要10万”,有人刚花11万买进:这是刚需,不等了

最江阴
2026-02-24 19:15:01
百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

百亿私募再论大方向!春节吹机器人、影视的沉默了,吹恒科的退群了

金石随笔
2026-02-25 00:08:55
母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

母亲刚过世,姨妈来电:你妈每月给我2500生活费得继续给,我笑了

小影的娱乐
2026-02-24 20:06:50
机关事业单位“取消双休”即将提上日程?2026年会落地吗?

机关事业单位“取消双休”即将提上日程?2026年会落地吗?

复转小能手
2026-02-24 17:33:33
2月24日俄乌:俄罗斯四年未能实现任何目标

2月24日俄乌:俄罗斯四年未能实现任何目标

山河路口
2026-02-24 19:41:40
汪小菲官宣三胎出生:承诺会照顾好3个孩子,晒马筱梅与儿子合照

汪小菲官宣三胎出生:承诺会照顾好3个孩子,晒马筱梅与儿子合照

素素娱乐
2026-02-24 16:34:48
小卡合同或因违规被判无效 雄鹿全力争夺挽留字母

小卡合同或因违规被判无效 雄鹿全力争夺挽留字母

体坛周报
2026-02-25 09:05:16
李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

李连杰晒影迷耗时100小时自制海报:谢谢这位有才的朋友;此前,该作者用成龙70部电影中的人物形象制作了海报,获大哥当面感谢

极目新闻
2026-02-24 18:36:26
戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

戏子误国!2026年刚开年,就有3位明星相继塌房,个个荒唐

不似少年游
2026-02-24 19:24:23
百万债务还清了!夫妻俩在杭州开饭店,8年来第一次回老家过年,临行宴请老顾客

百万债务还清了!夫妻俩在杭州开饭店,8年来第一次回老家过年,临行宴请老顾客

环球网资讯
2026-02-25 08:28:39
巴拿马接管长江和记两座港口,外交部:中方将坚决维护企业合法权益

巴拿马接管长江和记两座港口,外交部:中方将坚决维护企业合法权益

澎湃新闻
2026-02-24 15:30:29
一条手链涨24000元!周大福启动新一轮涨价,老铺黄金部分门店被抢购一空,只剩下柜台和柜姐……

一条手链涨24000元!周大福启动新一轮涨价,老铺黄金部分门店被抢购一空,只剩下柜台和柜姐……

极目新闻
2026-02-25 08:50:07
2026-02-25 09:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

头条要闻

87岁上海老人和59岁保姆结婚 称房子被卖遭多次打砸

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

旅游
游戏
亲子
家居
艺术

旅游要闻

新春走基层|暖阳照春城 烟火聚年味

《怪物猎人物语3:命运双龙》访谈

亲子要闻

坑弟弟,我是一把好手

家居要闻

本真栖居 爱暖伴流年

艺术要闻

如果吴清源重生,他会如何与柯洁较量?

无障碍浏览 进入关怀版