网易首页 > 网易号 > 正文 申请入驻

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

0
分享至

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。其他作者均为 Pico MR 团队核心成员。

去年一年来,Sora、可灵、Veo等模型掀起了视频生成领域的革新。而在构建更逼近真实的世界模型征程中,相机可控的视频生成技术堪称核心拼图 —— 它让视频生成模型不再是单向的 “世界模拟器”,而是能被用户自由探索的 “平行宇宙”,为沉浸式 3D 电影等颠覆性应用奠定基础!

然而,从单视角视频,生成其对应的极端视角(比如方位角在 ±90° 改变)新视频仍是行业难题。现有的开源方法或依赖多视角相机 - 视频数据集训练 [4,5],或受困于遮挡区域表示的局限 [1,2],难以跨越 “视角自由” 与 “物理真实” 的双重鸿沟。

对此,PICO-MR 团队提出了一个破局方案:EX-4D,可以从任意单目视频生成其对应的新视角视频。EX-4D:

  • 一致性更强:EX-4D 在 FID、FVD 等指标上超越了最新的开源方法,支持生成高物理一致性的新视角视频。
  • 视角跨度更大:得益于新几何先验格式,EX-4D 能支持极端视角下的高质量视频生成。
  • 综合效果更好:轻量级 LoRA Adapter 能充分利用 WAN-2.1 基座模型的强大生成能力,生成细节、质量更好的视频。

  • Arxiv 链接: https://arxiv.org/abs/2506.05554
  • 项目主页链接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代码链接: https://github.com/tau-yihouxiang/EX-4D

现有方法的困境

目前相机可控的视频生成方法可分为 2 种主要思路。一类方法直接利用相机外参作为条件控制视角生成。这种方法需要自行构建多个视角下的相机 - 视频数据对,并且难以控制不同数据分布下的相机的位移尺度,在未知分布的视频输入上可能出现严重的视角偏移。第二类方法则直接将像素点投影成点云作为额外的先验信息。这些点云投影无法保留物体之间的遮挡关系,在物体的交界部分非常依赖基座模型本身的能力。这种不可控性容易导致错误的几何关系。

EX-4D 的三大核心设计

EX-4D 的核心目标是实现一个泛用的,从单目视频生成新视角下视频的模型。其总体框架如下图所示:

为了充分利用丰富的各类视频数据,同时保证生成视频满足高质量和高物理一致性,EX-4D 提出了如下三个关键设计。

  • 深度密闭网格(DW-Mesh)实现遮挡面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了点云的局限,首次提出使用一个全密闭网格结构,同时记录可见 / 隐面片,无需多视角监督就能统一处理场景拓扑。EX-4D 利用最新的预训练深度预测出每帧深度图,从而将像素点投影到 3D 空间形成网格顶点,并从相邻顶点中构建出网格面片。

EX-4D 根据几何关系标记遮挡面片。通过设置当面片最小角度小于指定阈值,或者跨度大于指定阈值时,可以提取出前景与背景之间的遮挡面。

生成的 DW-Mesh 表达能为每一帧提供连续的遮挡 mask,以此确保极端视角下的生成视频的物理一致性。

  • 模拟 mask 生成策略构建数据集:为解决多视角训练数据缺乏的问题,EX-4D 提出了 2 种模拟 mask 生成策略。

  • 渲染 mask 关注模拟视角移动下的物体间的遮挡关系。EX-4D 利用 DW-Mesh 表示来模拟新视角下的遮挡关系。通过构建输入视角的 DW-Mesh,并在给定相机轨迹下渲染来获得不可见区域的 mask。形态学膨胀可以进一步去除噪声,满足更真实的遮挡逻辑。
  • 跟踪 mask 的则关注保持可见区域的边缘像素一致,以更贴近推理阶段视频下的真实 mask。EX-4D 使用Cotracker3[3] 模型,通过跟踪锚点来确保帧间的可见部分一致性,让训练数据无限逼近真实场景。

借助这两种生成策略,无需昂贵多视角采集,仅凭单目视频就能 “脑补” 全视角数据,破解世界模型训练的数据困局!

  • 轻量级 LoRA Adapter:EX-4D 基于预训练的 WAN-2.1 模型,引入 LoRA-based Adapter,来完成 mask video inpainting 任务。基于 LoRA 的 adapter 架构将 DW-Mesh 的几何先验信息融入视频生成过程,在保持计算需求可控的同时,保证了补全视频的几何一致性和帧间一致性。

实验结果:EX-4D 如何定义「极致」

为了展示 EX-4D 在新视角生成的巨大潜力,EX-4D 使用包含 150 个网络视频的数据集,并使用 FID、FVD 和VBench[6] 等指标评估模型性能。

在各种视角跨度范围之内,EX-4D 均全面超越了现有的开源可控视角生成方法。值得关注的是,新输入视角角度越极端(越偏向 90°),EX-4D 性能优势越明显,充分展示了 DW-Mesh 表示在物理一致性保持上的潜力。在 VBench 指标上,EX-4D 在绝大多数指标上取得最高分,进一步展现了强大的综合生成能力。

此外,EX-4D 还邀请了 50 位志愿者对 EX-4D 和其他开源方法的生成效果进行评分。70.70% 的参与者认为 EX-4D 方法在极端视角下的物理一致性断层领先。

当已有的开源方法在剧烈视角变化中 “露破绽”(物体穿帮、遮挡错乱),EX-4D 却能精确保留高一致性的物体细节。

针对 EX-4D 的充分消融实验充分论证 EX-4D 中每种策略的有效性。其中 DW-Mesh 表示对性能的提升最大。两种针对训练数据的 mask 生成策略对于模型的训练都至关重要。而 EX-4D 采用的 16 rank 轻量级 LoRA-based Adapter 效率已经足够高,增加 rank 仅带来轻微性能提升。

总结与未来展望

定性和定量实验说明,EX-4D 方法能够生成高物理一致性、高质量的视频结果,并且可以广泛用于小角度偏移到极端视角的各种场景,提升了新视角预测的自由度。后续的视频可控生成之中,EX-4D 将着眼于提高深度预测的精度,并提高模型推理速度,向更快、更好的可控视频生成进发,为世界模型助力。

参考文献

[1] Mark YU, Wenbo Hu, Jinbo Xing, and Ying Shan. Trajectorycrafter: Redirecting camera trajectory for monocular videos via diffusion models, 2025.

[2] Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, and Xingang Pan. Trajectoryattention for fine-grained video motion control. In The Thirteenth International Conference on Learning Representations, 2025.

[3] Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, and Christian Rupprecht. Cotracker3: Simpler and better point tracking by pseudo-labelling real videos. In Proc. arXiv:2410.11831, 2024.

[4] Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, and Ceyuan Yang. Cameractrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101, 2024.

[5] Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, and Di Zhang. Recammaster: Camera-controlled generative rendering from a single video, 2025.

[6] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
岛内风向变了?台当局喊话大陆:若时机成熟,愿主动与大陆协商

岛内风向变了?台当局喊话大陆:若时机成熟,愿主动与大陆协商

起喜电影
2026-04-21 17:03:46
052D穿过日本横当水道!这步棋有多狠?

052D穿过日本横当水道!这步棋有多狠?

牲产队
2026-04-20 22:21:15
国内油价还会继续调整吗?专家解读

国内油价还会继续调整吗?专家解读

澎湃新闻
2026-04-21 16:55:55
我今年55了,想用血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这4件事

我今年55了,想用血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这4件事

东林夕亭
2026-03-27 09:07:57
巴勒斯坦最大错误,就是过去向以色列人出售土地,没有底线酿祸根

巴勒斯坦最大错误,就是过去向以色列人出售土地,没有底线酿祸根

抽象派大师
2026-04-21 01:14:08
3艘主力舰沉没!黑海舰队两栖战力彻底清零,俄军补损之路被堵死

3艘主力舰沉没!黑海舰队两栖战力彻底清零,俄军补损之路被堵死

谛听骨语本尊
2026-04-20 19:28:40
100多名私生子跨海追债!DNA撕破遮羞布,集体维权风暴席卷而来

100多名私生子跨海追债!DNA撕破遮羞布,集体维权风暴席卷而来

离离言几许
2026-04-21 07:34:15
重庆铜梁龙新援老树开新花!此前84场3球,如今连场破门土炮第二

重庆铜梁龙新援老树开新花!此前84场3球,如今连场破门土炮第二

硬腿子聊个球
2026-04-21 23:45:22
原来他就是赵心童恩师,因经济收入低转行教练,教出4位世界冠军

原来他就是赵心童恩师,因经济收入低转行教练,教出4位世界冠军

揽星河的笔记
2026-04-21 23:17:32
随着国安1-0绝杀深圳新鹏城,纵观全场,让人产生三点个人感受!

随着国安1-0绝杀深圳新鹏城,纵观全场,让人产生三点个人感受!

田先生篮球
2026-04-21 22:12:28
中日已大吵一架,第三波反击开始,中方追责东京,日本老底被扒光

中日已大吵一架,第三波反击开始,中方追责东京,日本老底被扒光

音乐时光的娱乐
2026-04-22 00:35:44
东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

东风 - 31 泄密大案:总工程师被美色策反,国之重器险遭灭顶之灾

干史人
2026-04-18 13:44:12
4月22日精选热点:MLCC再迎涨价 这些龙头受益最大

4月22日精选热点:MLCC再迎涨价 这些龙头受益最大

元芳说投资
2026-04-21 21:18:30
前仰跳投+空中伸腿!亚历山大17罚继续发酵 美球迷喷他不配拿MVP

前仰跳投+空中伸腿!亚历山大17罚继续发酵 美球迷喷他不配拿MVP

颜小白的篮球梦
2026-04-21 07:41:37
台湾问题即将突破临界点?两大迹象表明,大陆可能要准备出手了

台湾问题即将突破临界点?两大迹象表明,大陆可能要准备出手了

人生就是要简单
2026-04-19 14:12:33
浙江一男子称花1.02元参加“魔鬼辣”挑战,吃完半小时痉挛倒地送医,商家朋友:他是个惯犯,涉嫌敲诈;市监所:商家食材索证索票完整

浙江一男子称花1.02元参加“魔鬼辣”挑战,吃完半小时痉挛倒地送医,商家朋友:他是个惯犯,涉嫌敲诈;市监所:商家食材索证索票完整

中国能源网
2026-04-21 18:19:07
1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

1991年中央派人请张学良回大陆,张:回大陆可以,但我有三个要求

史之铭
2026-04-14 18:16:07
4月22日隔夜要闻:美股收跌 布油逼近100美元 特朗普延长对伊停火 伊官员称其在为发动突袭争取时间

4月22日隔夜要闻:美股收跌 布油逼近100美元 特朗普延长对伊停火 伊官员称其在为发动突袭争取时间

新浪财经
2026-04-22 06:30:33
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
中超争议判罚!颜骏凌超巨失误,VAR介入,陈纯新笑纳大礼

中超争议判罚!颜骏凌超巨失误,VAR介入,陈纯新笑纳大礼

奥拜尔
2026-04-21 20:54:59
2026-04-22 07:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12822文章数 142633关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

亲子
本地
游戏
房产
旅游

亲子要闻

才六天的马宝宝,发这个视频没有别的意思,只是想骗你们生女儿而已

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

涨价两周即回调!索尼官方PS5数字版定价重回399美元

房产要闻

年薪40-50万!海南地产圈还在猛招人

旅游要闻

京城今春“滨水+”玩法迭代

无障碍浏览 进入关怀版