网易首页 > 网易号 > 正文 申请入驻

复旦与腾讯联手推出VerseCrafter:开创视频生成新纪元,掌控4D几何

0
分享至

智猩猩AI整理

编辑:六六

视频世界模型旨在模拟动态的真实世界环境,然而现有方法难以对相机及多对象运动提供统一且精确的控制,因为视频本质上是在投影的二维图像平面中运作动态。

为弥补这一差距,复旦大学和腾讯PCG等研究团队联合提出了VerseCrafter——一个具备4D感知能力的视频世界模型,能够在统一的4D几何世界状态下实现对相机与对象动态的显式、连贯控制。

该模型提供显式的4D几何控制状态,该状态基于共享世界坐标系下的静态背景点云与逐对象3D高斯轨迹构建。与现有可控视频生成器及世界模型相比,VerseCrafter展现出更优的视觉质量与更精确的3D控制能力,彰显了4D几何控制作为动态世界模拟与编辑未来研究的一个极具前景的接口。



  • 论文标题:VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

  • 论文链接:https://arxiv.org/pdf/2601.05138

  • GitHub:https://github.com/TencentARC/VerseCrafter

  • HuggingFace:https://huggingface.co/TencentARC/VerseCrafter

  • 项目主页:https://sixiaozheng.github.io/VerseCrafter_page/

01

方法

研究团队提出的几何驱动的视频世界模型VerseCrafter将显式的4D几何世界状态映射为动态、逼真的视频,并实现对相机及多对象运动的解耦控制。VerseCrafter模型架构如图 1 所示。


图 1 VerseCrafter 框架概述。给定输入图像与文本提示,首先通过深度估计并获取用户指定的对象掩码,构建一个由静态背景点云与共享世界坐标系下的逐对象 3D 高斯轨迹组成的 4D 几何控制状态。该状态被渲染为每帧的背景 RGB/depth、3D高斯轨迹 RGB/depth 以及软控制 mask,共同构成多通道4D控制图。控制图经编码后输入至所提出的 GeoAdapter,该模块与来自 umT5 的文本嵌入共同对冻结的 Wan2.1-14B 视频扩散主干网络进行条件控制,从而实现具有精确相机及多对象运动控制的几何一致视频生成。
1. 4D几何控制

视频世界模型的状态被表示为一个4D几何世界状态,称之为4D几何控制。这是一个显式、可编辑的状态,由静态背景点云 与逐对象3D高斯轨迹 构成,所有元素均定义在一个共享的世界坐标系中。

(1)背景点云

首先,利用单目深度估计模型(MoGe2)获取场景深度,并结合开放词汇实例分割模型(Grounded SAM2)得到用户指定的对象掩码。基于输入的相机内参与初始帧外参,系统将每个像素根据其深度值反投影至三维空间,形成初始点云。

随后,依据对象掩码将此点云分割为两部分:归属于各动态对象的点集,以及剩余的静态背景点云。

在生成过程中,第 帧的背景通过使用相机位姿渲染 获得,从而实现将视角变化转化为固定3D世界中的刚性相机运动,而非在每一帧生成新的背景。

(2)3D高斯轨迹

世界坐标系中的一个3D高斯分布 紧凑地编码了一个对象的位置(通过均值 )、近似形状与大小(通过 的特征值)以及朝向(通过其特征向量)。对象 的3D高斯轨迹则定义为一系列高斯分布的序列:


这种概率化的描述以柔和、连续的方式刻画了对象的3D占据情况,并产生了一个比刚性3D边界框更灵活、比参数化人体模型更与类别无关的紧凑控制空间。

为了初始化每个可控对象 的轨迹,将全协方差高斯分布拟合到上一步得到的点云 ,由此得到初始高斯分布 。


实践中,将每个 转换为椭球体网格,以便在如Blender等3D编辑器中可视化,并允许用户通过在三维空间中拖拽和设置关键帧来指定或优化该椭球体的轨迹。编辑后的位姿和形状被映射回 作为控制信号。椭球体仅为用户界面;模型使用的所有条件图均直接从底层的3D高斯分布渲染生成。

(3)渲染4D控制图

给定4D几何控制,在目标相机视图中逐帧渲染条件图。对于每一帧 ,生成三种类型的图像:

  • 背景 、 和 ,通过使用相机位姿 投影静态点云 获得。

  • 3D高斯轨迹 、 和 ,通过将逐对象的高斯分布 投影为软性椭圆足迹,并从对应的椭球表面获取深度值获得。

  • 软控制掩码 ,用于指示扩散模型应合成或覆盖内容的区域,通过反转有效的背景可见性并将其与投影的3D高斯足迹合并,再进行高斯平滑得到。

对于第一帧 ,将 替换为输入图像,并设置 ,从而保持第一帧不变,仅修改后续帧。背景通道与3D高斯轨迹通道共享同一世界状态但通过解耦的通道渲染,因此相机编辑仅影响背景分支,对象编辑仅影响3D高斯轨迹分支,从而实现几何一致的控制。

2. VerseCrafter 架构

(1)主干网络

采用Wan2.1-14B作为冻结的潜空间视频扩散/流匹配主干网络,该网络包含一个3D VAE和一个基于DiT的去噪器。VerseCrafter 将 Wan2.1 视为一个通用的视频先验:不改变其架构或权重,而是附加一个轻量级的几何适配器(GeoAdapter),利用 4D 控制图对该主干网络进行条件控制。

(2)GeoAdapter

对于每一帧 ,获取渲染后的背景与 3D 高斯轨迹图,即 、 、 、 ,以及软控制掩码 。其中,四张 使用与视频潜变量相同的 3D VAE 进行编码,而 则被重塑并插值至潜变量分辨率。沿时间维度堆叠这些编码后,产生一个时空几何张量。该张量在通道维度上与视频潜变量令牌进行拼接并对齐。

GeoAdapter 是一个轻量级的、DiT 风格的附加分支,对该几何张量进行操作。它共享 Wan-DiT 块相同的令牌维度,但使用的层数远少于主干。GeoAdapter 块与冻结的 Wan-DiT 块交错集成:Wan2.1 中每第 个 DiT 块与一个 GeoAdapter 块配对,后者的输出被线性投影回主干网络的宽度,并作为残差调制添加到对应的 DiT 块中。文本提示由 umT5 编码为文本嵌入,这些嵌入通过相同的文本条件接口注入到 Wan 的 DiT 块和 GeoAdapter 中。这种基于适配器的条件控制方式,仅以少量额外参数便将4D几何信息注入 Wan2.1,同时保持所有主干网络权重固定。

(3)推理

在推理阶段,VerseCrafter 既支持对相机或对象运动进行独立控制,也支持在统一的框架内对二者进行联合控制。对于仅控制相机的情况,提供相机轨迹和背景控制图,同时将所有与对象轨迹相关的通道(RGB/depth/mask)设为零。对于仅控制对象的情况,保持相机位姿固定,并从静态背景点云 渲染静态背景分支(RGB/depth及其mask)。对于联合控制,两个分支均处于激活状态,并从同一4D世界状态渲染,从而使 VerseCrafter 能够以协调、几何一致的方式调整相机轨迹与多对象运动。

02

数据集

为在具有显式 4D 控制的真实复杂场景上训练和评估 VerseCrafter,研究团队构建了 VerseControl4D——一个包含自动生成的 4D 几何控制标注的真实世界视频数据集。如图 2 所示,VerseControl4D 通过数据收集、片段提取、质量过滤与数据标注四个阶段构建。


图 2 以 Sekai-Real-HQ 和 SpatialVID-HQ 数据集为基础,首先进行 81 帧视频片段的提取,随后执行质量过滤。对于每个保留的片段,通过 Qwen2.5-VL-72B、GroundedSAM2 及 MegaSAM 自动生成描述文本、对象掩码、深度信息与相机位姿。这些数据被转换为背景点云与对象点云,并拟合为 3D 高斯轨迹 ,最终渲染为背景图、轨迹图以及一个合并掩码,共同构成 4D 几何控制。

该数据集共包含 35,000 个训练样本与 1,000 个验证样本,其中训练集涵盖约 20% 的静态场景与 80% 的动态场景,以支持相机控制、对象运动及二者联合控制的建模需求。

03

评估

1. 相机与物体运动的联合控制

首先在 VerseControl4D 数据集上评估相机与物体运动的联合控制性能。VerseCrafter在准确遵循指定相机路径的同时,将多个物体保持在其3D高斯轨迹上,从而生成了清晰且时间一致的视频。

表 1 在 VerseControl4D 数据集上进行的相机与物体运动联合控制实验。报告了 VBench-I2V 分数及 3D 控制指标(旋转误差 RotErr、平移误差 TransErr、物体运动控制误差 ObjMC)。


如表 1 所示,VerseCrafter 在综合得分(Overall Score)、成像质量(Imaging Quality)、美学质量(Aesthetic Quality)以及主体/背景一致性方面均有明显提升。在 3D 控制指标上,与最强的基线方法相比,VerseCrafter 显著降低了旋转误差、平移误差和物体运动误差,反映出与目标 4D 轨迹更紧密的对齐。

2. 仅相机运动控制

在 VerseControl4D 数据集的静态场景子集上评估仅相机控制性能,其中物体保持静止,仅相机运动。如表2所示,在综合评分(Overall Score)、成像质量(Imaging Quality)以及背景与主体一致性方面均获得稳定提升,同时保持了与现有方法相当的运动平滑性。在3D相机指标上,VerseCrafter相对于最强基线显著降低了旋转误差与平移误差,表明其在静态场景中能够更准确地遵循目标相机轨迹。

表 2 在静态场景下对仅相机运动控制的评估。基于 VerseControl4D 数据集的静态场景子集,报告了 VBench-I2V 分数及相机控制指标旋转误差(RotErr)与平移误差(TransErr)。



图 3 静态场景下仅相机运动控制的定性对比

图 3 中的定性比较进一步印证了这一趋势:基线方法常出现墙体弯曲、窗户错位或沿路径视差不稳定等现象,而VerseCrafter 则保持了笔直的结构、稳定的深度关系以及与真实视频更为接近的视觉外观,证明了其在静态 3D 世界中精确的相机控制能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
直接起飞,广东队再收两大喜讯,杜峰成广东篮球第一人

直接起飞,广东队再收两大喜讯,杜峰成广东篮球第一人

宗介说体育
2026-02-06 09:30:44
订婚宴上婆婆骂我下三滥,我笑着问公公:你儿子做过亲子鉴定吗?

订婚宴上婆婆骂我下三滥,我笑着问公公:你儿子做过亲子鉴定吗?

千秋文化
2026-01-29 21:30:14
山西省副省长汤志平,当选新职务,曾长期任职上海

山西省副省长汤志平,当选新职务,曾长期任职上海

上观新闻
2026-02-06 10:49:08
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
反击已经开始,中国3份通告直达巴拿马,想要“吞”港口后果严重

反击已经开始,中国3份通告直达巴拿马,想要“吞”港口后果严重

青烟小先生
2026-02-05 16:47:44
散户们把白银玩成了“万人坑”

散户们把白银玩成了“万人坑”

华尔街见闻官方
2026-02-05 15:24:14
追觅造车最靠谱的一集,结果是当改装厂?

追觅造车最靠谱的一集,结果是当改装厂?

差评XPIN
2026-02-06 00:12:45
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

啥队有这配置?记者:某球队放弃字母哥因担心其不想当老二

懂球帝
2026-02-06 02:04:07
攻击来源于俄罗斯!开幕式前2天,意大利阻止多起冬奥会网络攻击

攻击来源于俄罗斯!开幕式前2天,意大利阻止多起冬奥会网络攻击

全景体育V
2026-02-05 10:45:22
刺激夜:本泽马首秀戴帽,尤文0-3出局,马竞5-0晋级,摩纳哥1-3出局

刺激夜:本泽马首秀戴帽,尤文0-3出局,马竞5-0晋级,摩纳哥1-3出局

侧身凌空斩
2026-02-06 06:39:27
还原“货车司机从着火车上救下三人”:轿车与货车碰撞起火 货车司机负主责

还原“货车司机从着火车上救下三人”:轿车与货车碰撞起火 货车司机负主责

红星新闻
2026-02-05 19:10:55
勇士无缘字母,迎娶2米18波神!2换5,快船送走祖巴茨大赚!

勇士无缘字母,迎娶2米18波神!2换5,快船送走祖巴茨大赚!

野球帝
2026-02-06 10:59:18
把房免费给外甥一家住9年,我生病手术他们没露面,出院我收回房

把房免费给外甥一家住9年,我生病手术他们没露面,出院我收回房

小秋情感说
2026-02-02 15:07:06
28亿拿地,张一鸣震惊行业

28亿拿地,张一鸣震惊行业

李东阳朋友圈
2026-02-04 20:18:41
Lisa雪地比基尼秀身材,14万羽绒服敞开,回屋烤火萌翻

Lisa雪地比基尼秀身材,14万羽绒服敞开,回屋烤火萌翻

探索新高度
2026-02-05 22:12:43
委内瑞拉教训深刻,俄防长对中国喊话,中俄军方必须对表了

委内瑞拉教训深刻,俄防长对中国喊话,中俄军方必须对表了

手里有读
2026-02-06 09:03:24
小米公司正式回应SU7车辆起火事件

小米公司正式回应SU7车辆起火事件

圆维度
2026-02-05 12:26:06
一觉醒来,中国金花1胜3负!王欣瑜剑指破荒,张帅错失女双3连冠

一觉醒来,中国金花1胜3负!王欣瑜剑指破荒,张帅错失女双3连冠

刘姚尧的文字城堡
2026-02-06 09:22:30
汤志平,当选新职

汤志平,当选新职

新京报政事儿
2026-02-05 21:38:57
2026-02-06 11:36:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
353文章数 7544关注度
往期回顾 全部

科技要闻

微信封禁元宝红包后,又把阿里千问封了

头条要闻

中纪委连打四虎:一人纵容配偶不实际工作而获取薪酬

头条要闻

中纪委连打四虎:一人纵容配偶不实际工作而获取薪酬

体育要闻

西甲射手榜第2,身价不到姆巴佩1/40

娱乐要闻

微博之夜红毯好精彩,堪比婚礼现场

财经要闻

很意外,美债危机要化解了

汽车要闻

标配华为乾崑解决方案 华境S完成六座满载冬测

态度原创

教育
艺术
房产
数码
手机

教育要闻

密歇根州立大学迎历史最大捐赠,将建跨学科创新中心!

艺术要闻

Kristin Vestgard:挪威当代画家

房产要闻

新春三亚置业,看过这个热盘再说!

数码要闻

消息称新iPad升级A18芯片运行8GB内存,iPhone 17e刘海屏设计确认

手机要闻

国补价1275元起!OPPO A6i+开售:7000mAh六年长寿大电池

无障碍浏览 进入关怀版