网易首页 > 网易号 > 正文 申请入驻

通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成

0
分享至

本文主要作者是 Bytedance Pico 北美高级研究员胡涛博士,近年来研究领域包括3D 重建与 4D 场景和视频生成,致力于得到一种最佳的物理世界表示模型。其他作者均为 Pico MR 团队核心成员。

去年一年来,Sora、可灵、Veo等模型掀起了视频生成领域的革新。而在构建更逼近真实的世界模型征程中,相机可控的视频生成技术堪称核心拼图 —— 它让视频生成模型不再是单向的 “世界模拟器”,而是能被用户自由探索的 “平行宇宙”,为沉浸式 3D 电影等颠覆性应用奠定基础!

然而,从单视角视频,生成其对应的极端视角(比如方位角在 ±90° 改变)新视频仍是行业难题。现有的开源方法或依赖多视角相机 - 视频数据集训练 [4,5],或受困于遮挡区域表示的局限 [1,2],难以跨越 “视角自由” 与 “物理真实” 的双重鸿沟。

对此,PICO-MR 团队提出了一个破局方案:EX-4D,可以从任意单目视频生成其对应的新视角视频。EX-4D:

  • 一致性更强:EX-4D 在 FID、FVD 等指标上超越了最新的开源方法,支持生成高物理一致性的新视角视频。
  • 视角跨度更大:得益于新几何先验格式,EX-4D 能支持极端视角下的高质量视频生成。
  • 综合效果更好:轻量级 LoRA Adapter 能充分利用 WAN-2.1 基座模型的强大生成能力,生成细节、质量更好的视频。

  • Arxiv 链接: https://arxiv.org/abs/2506.05554
  • 项目主页链接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
  • 代码链接: https://github.com/tau-yihouxiang/EX-4D

现有方法的困境

目前相机可控的视频生成方法可分为 2 种主要思路。一类方法直接利用相机外参作为条件控制视角生成。这种方法需要自行构建多个视角下的相机 - 视频数据对,并且难以控制不同数据分布下的相机的位移尺度,在未知分布的视频输入上可能出现严重的视角偏移。第二类方法则直接将像素点投影成点云作为额外的先验信息。这些点云投影无法保留物体之间的遮挡关系,在物体的交界部分非常依赖基座模型本身的能力。这种不可控性容易导致错误的几何关系。

EX-4D 的三大核心设计

EX-4D 的核心目标是实现一个泛用的,从单目视频生成新视角下视频的模型。其总体框架如下图所示:

为了充分利用丰富的各类视频数据,同时保证生成视频满足高质量和高物理一致性,EX-4D 提出了如下三个关键设计。

  • 深度密闭网格(DW-Mesh)实现遮挡面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了点云的局限,首次提出使用一个全密闭网格结构,同时记录可见 / 隐面片,无需多视角监督就能统一处理场景拓扑。EX-4D 利用最新的预训练深度预测出每帧深度图,从而将像素点投影到 3D 空间形成网格顶点,并从相邻顶点中构建出网格面片。

EX-4D 根据几何关系标记遮挡面片。通过设置当面片最小角度小于指定阈值,或者跨度大于指定阈值时,可以提取出前景与背景之间的遮挡面。

生成的 DW-Mesh 表达能为每一帧提供连续的遮挡 mask,以此确保极端视角下的生成视频的物理一致性。

  • 模拟 mask 生成策略构建数据集:为解决多视角训练数据缺乏的问题,EX-4D 提出了 2 种模拟 mask 生成策略。

  • 渲染 mask 关注模拟视角移动下的物体间的遮挡关系。EX-4D 利用 DW-Mesh 表示来模拟新视角下的遮挡关系。通过构建输入视角的 DW-Mesh,并在给定相机轨迹下渲染来获得不可见区域的 mask。形态学膨胀可以进一步去除噪声,满足更真实的遮挡逻辑。
  • 跟踪 mask 的则关注保持可见区域的边缘像素一致,以更贴近推理阶段视频下的真实 mask。EX-4D 使用Cotracker3[3] 模型,通过跟踪锚点来确保帧间的可见部分一致性,让训练数据无限逼近真实场景。

借助这两种生成策略,无需昂贵多视角采集,仅凭单目视频就能 “脑补” 全视角数据,破解世界模型训练的数据困局!

  • 轻量级 LoRA Adapter:EX-4D 基于预训练的 WAN-2.1 模型,引入 LoRA-based Adapter,来完成 mask video inpainting 任务。基于 LoRA 的 adapter 架构将 DW-Mesh 的几何先验信息融入视频生成过程,在保持计算需求可控的同时,保证了补全视频的几何一致性和帧间一致性。

实验结果:EX-4D 如何定义「极致」

为了展示 EX-4D 在新视角生成的巨大潜力,EX-4D 使用包含 150 个网络视频的数据集,并使用 FID、FVD 和VBench[6] 等指标评估模型性能。

在各种视角跨度范围之内,EX-4D 均全面超越了现有的开源可控视角生成方法。值得关注的是,新输入视角角度越极端(越偏向 90°),EX-4D 性能优势越明显,充分展示了 DW-Mesh 表示在物理一致性保持上的潜力。在 VBench 指标上,EX-4D 在绝大多数指标上取得最高分,进一步展现了强大的综合生成能力。

此外,EX-4D 还邀请了 50 位志愿者对 EX-4D 和其他开源方法的生成效果进行评分。70.70% 的参与者认为 EX-4D 方法在极端视角下的物理一致性断层领先。

当已有的开源方法在剧烈视角变化中 “露破绽”(物体穿帮、遮挡错乱),EX-4D 却能精确保留高一致性的物体细节。

针对 EX-4D 的充分消融实验充分论证 EX-4D 中每种策略的有效性。其中 DW-Mesh 表示对性能的提升最大。两种针对训练数据的 mask 生成策略对于模型的训练都至关重要。而 EX-4D 采用的 16 rank 轻量级 LoRA-based Adapter 效率已经足够高,增加 rank 仅带来轻微性能提升。

总结与未来展望

定性和定量实验说明,EX-4D 方法能够生成高物理一致性、高质量的视频结果,并且可以广泛用于小角度偏移到极端视角的各种场景,提升了新视角预测的自由度。后续的视频可控生成之中,EX-4D 将着眼于提高深度预测的精度,并提高模型推理速度,向更快、更好的可控视频生成进发,为世界模型助力。

参考文献

[1] Mark YU, Wenbo Hu, Jinbo Xing, and Ying Shan. Trajectorycrafter: Redirecting camera trajectory for monocular videos via diffusion models, 2025.

[2] Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, and Xingang Pan. Trajectoryattention for fine-grained video motion control. In The Thirteenth International Conference on Learning Representations, 2025.

[3] Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, and Christian Rupprecht. Cotracker3: Simpler and better point tracking by pseudo-labelling real videos. In Proc. arXiv:2410.11831, 2024.

[4] Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, and Ceyuan Yang. Cameractrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101, 2024.

[5] Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, and Di Zhang. Recammaster: Camera-controlled generative rendering from a single video, 2025.

[6] Ziqi Huang, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, Xinyuan Chen, Limin Wang, Dahua Lin, Yu Qiao, and Ziwei Liu. VBench: Comprehensive benchmark suite for video generative models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼联新帅5大候选曝光 哈维主动请缨 水晶宫主帅今夏或携3爱将来投

曼联新帅5大候选曝光 哈维主动请缨 水晶宫主帅今夏或携3爱将来投

我爱英超
2026-01-05 22:27:26
离明天股市开盘时间越来越近,提前给2.5亿股民5点提醒!

离明天股市开盘时间越来越近,提前给2.5亿股民5点提醒!

股市皆大事
2026-01-05 17:11:17
CBA排名变天!上海胜广厦登顶,广东遭漏判被绝杀 青岛被以下克上

CBA排名变天!上海胜广厦登顶,广东遭漏判被绝杀 青岛被以下克上

中国篮坛快讯
2026-01-06 00:01:33
雷军首次公开承认!小米决定不做了!

雷军首次公开承认!小米决定不做了!

广告案例精选
2026-01-04 12:14:07
浙江省纪委省监委网站:谈明波,主动投案

浙江省纪委省监委网站:谈明波,主动投案

浙江之声
2026-01-05 21:32:40
奇瑞“掀桌子”了!首款固态电池车星途ES8,零下30℃续航1000Km

奇瑞“掀桌子”了!首款固态电池车星途ES8,零下30℃续航1000Km

车矩阵更懂车
2026-01-03 23:20:15
中俄要求释放马杜罗,不到24小时,特朗普动手后果来了,要被弹劾

中俄要求释放马杜罗,不到24小时,特朗普动手后果来了,要被弹劾

南宫一二
2026-01-05 10:51:50
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

LULU生活家
2025-12-29 18:30:47
李斯:为什么《寻秦记》的李斯最不像演的,带你看历史上的李斯

李斯:为什么《寻秦记》的李斯最不像演的,带你看历史上的李斯

威言晓史
2026-01-05 08:57:27
发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

发现一个奇怪现象:喜欢把家里打扫得很干净的人,往往会有这3种命运,并非迷信

LULU生活家
2025-12-23 18:33:20
贵州省政协文化文史与学习委员会原副主任王德玉接受审查调查

贵州省政协文化文史与学习委员会原副主任王德玉接受审查调查

界面新闻
2026-01-05 15:34:35
100%的冰封灾难!全球变暖进入倒计时,人类或进入史上最漫长寒冬

100%的冰封灾难!全球变暖进入倒计时,人类或进入史上最漫长寒冬

琉璃聊科学
2026-01-03 20:37:55
小米徐洁云致歉!立即终止与相关KOL可能合作!

小米徐洁云致歉!立即终止与相关KOL可能合作!

鞭牛士
2026-01-05 22:21:30
国家明令禁止!2026停车费新规,这6类费用车主可以大胆拒缴!

国家明令禁止!2026停车费新规,这6类费用车主可以大胆拒缴!

今朝牛马
2026-01-05 17:12:02
当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

杰丝聊古今
2025-12-25 19:53:45
扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

扔酱潮来袭,闫学晶坑惨代言厂家,佐香园上架新包装,法务行动了

鋭娱之乐
2026-01-05 15:13:06
齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

齐达内执教曼联的两大条件曝光!阿莫林公开逼宫,帅位悬念拉满

夜白侃球
2026-01-05 21:00:47
斯科尔斯之子喷阿莫林:你只是又一个穆里尼奥,请你赶快离开

斯科尔斯之子喷阿莫林:你只是又一个穆里尼奥,请你赶快离开

懂球帝
2026-01-05 13:25:36
东航:坚决拥护党中央决定

东航:坚决拥护党中央决定

新京报政事儿
2026-01-05 13:19:25
米哈游旗下游戏投资人撤资?谣言,已被上海警方行政处罚

米哈游旗下游戏投资人撤资?谣言,已被上海警方行政处罚

贝壳财经
2026-01-05 16:35:36
2026-01-06 04:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12060文章数 142529关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

健康
房产
手机
教育
时尚

这些新疗法,让化疗不再那么痛苦

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

手机要闻

1月Turbo混战,中端性能机你选哪个?

教育要闻

【堂堂上新!!!】2027TTS院校全程班|降低考研试错成本!!按部就班就是伟大!!!

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

无障碍浏览 进入关怀版