网易首页 > 网易号 > 正文 申请入驻

西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026

0
分享至


WorldForge:一种实现相机轨迹可控的视频生成方法。

作者丨郑佳美

编辑丨岑 峰

过去两年,视频生成的发展几乎是指数级的。从最早只能生成模糊片段,到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频,行业表面上已经接近一个阶段性成熟。

但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”,问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中,它们擅长在时间上延续视觉模式,却缺乏对空间结构的稳定建模能力。

一旦涉及视角变化,模型往往无法保证同一个物体在不同帧之间的几何一致性,人物会发生细微但累积的漂移,建筑结构在移动中逐渐扭曲,遮挡关系也难以维持连续,这意味着模型生成的并不是一个被持续观察的世界,而是一系列在视觉上相似但空间上不一致的结果。

在这样的行业背景下,西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是,这篇论文也入选了CVPR Highlight。与以往通过重新训练模型来引入控制能力的路径不同,这项工作将问题重新落回到推理阶段本身,尝试在不改变模型参数的情况下,让相机轨迹成为生成过程中的约束条件,使模型在每一步生成中持续对齐同一个空间结构。

换句话说,这项研究关注的不是如何让模型生成更多内容,而是如何让模型在视角变化中保持世界的一致性,从而把视频生成从二维视觉合成,推进到具有三维结构约束的动态世界建模。

如果从应用角度理解这一点,可以把它看成一种能力的转变。过去模型更像一个能够不断画出新画面的系统,而现在的目标,是让模型像一个可以移动的摄影机,在同一个场景中进行观察和记录。无论是商品展示、空间漫游,还是内容创作中的镜头设计,本质上都依赖这种能力的成立。

WorldForge 的提出,正是在这一关键转折点上,给出了一个不依赖额外训练、却能够实现精确相机控制的路径,也因此成为当前视频生成从“生成能力竞争”走向“空间一致性与可控性竞争”的一个代表性工作。


论文地址:https://arxiv.org/pdf/2509.15130

01


跨任务、多指标的统一性能提升

在实验结果方面,研究团队首先验证了 3D 静态场景生成,也就是单图到多视角任务,相关数据来自 Table 1。从生成质量看,WorldForge 的 FID 为 96.08,是所有方法里最低的,CLIPsim 为 0.948,是所有方法里最高的。作为对比,TrajectoryCrafter 的 FID 为 111.49,CLIPsim 为 0.910,NVS-Solver 的 FID 为 118.64,CLIPsim 为 0.937。

这说明 WorldForge 在真实感和语义一致性上都更强,FID 从 118 下降到 96,降幅约 20%,CLIPsim 从 0.91 提升到 0.948,说明生成结果既更真实,又更符合原图语义。

从轨迹精度也就是相机控制能力看,WorldForge 的 ATE 为 0.077,是最低值,RPE-T 为 0.086,RPE-R 为 0.221。对比来看,ViewCrafter 的 ATE 为 0.236,约为 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 为 1.056,明显高于 0.221,所以可以看出,相机路径误差被显著压低,整体大约达到 2 到 5 倍的改进。

在 4D 动态视频生成任务中,也就是输入视频并重新指定轨迹的场景,相关数据来自 Table 2。从视频质量看,WorldForge 的 FVD 为 93.17,是最低值,CLIP-Vsim 为 0.938,是最高值。


对比方法中,TrajectoryCrafter 的 FVD 为 97.31,ViewExtrapolator 的 FVD 为 108.48。也就是说,WorldForge 相比 108 降到 93,提升幅度约为 15%,说明在动态视频生成中,画面质量和语义一致性仍然保持领先。从轨迹精度看,WorldForge 的 ATE 为 0.527,RPE-T 为 0.826,RPE-R 为 2.690,而 ViewExtrapolator 的 ATE 为 1.040,几乎是前者的两倍,这说明在动态视频条件下,WorldForge 依然能保持比较稳定的轨迹控制效果。

除了性能指标,研究人员还给出了实验规模,这部分信息很重要。在 3D 任务中,实验覆盖 40 多个场景、70 多张单图输入,使用的数据集包括 LLFF、Tanks & Temples、MipNeRF 360,同时还加入了真实图片和 AI 生成图片。


在 4D 任务中,实验覆盖 30 多个视频和 50 多个测试样例,数据来源包括 DAVIS 数据集、电影片段以及 VDM 生成视频。这样的设置说明,测试范围同时覆盖真实世界数据和合成数据,泛化能力验证相对充分。

研究团队还说明了实验条件。主模型使用 Wan2.1,规模为 14B,硬件方面需要至少 69GB 显存的 GPU。生成阶段采用 50 步采样,其中 IRR 作用在前 20 步。这组条件说明,方法在效果上很强,但计算成本也比较高,对硬件资源有较高要求。

在消融实验部分,相关数据来自 Table 3。完整模型表现最好,其中 FID 为 96.08,FVD 为 93.17。去掉 DSG 以后,FID 上升到 109.43,FVD 上升到 95.69,说明画面质量和视频质量都明显变差。

去掉 FLF 以后,FID 进一步上升到 112.69,FVD 上升到 99.79,结果更差。把 DSG 和 FLF 一起去掉以后,FID 达到 113.12,FVD 达到 103.17,退化更加明显。如果把 DSG 换成传统 CFG,结果最差,FID 达到 120.91,FVD 达到 109.1。

综合这些数字可以看到,每个模块都会带来大约 10% 到 20% 的性能提升,而且几个模块之间存在明显的互补关系,少了任何一个,整体效果都会下降。


02


一套可迁移、可控制的生成流程

在实验经过方面,研究团队首先从模型设置入手验证方法的通用性,一共选用了三个不同类型的视频生成模型进行测试,分别是作为主实验基础模型的 Wan2.1,其规模为 14B,作为轻量级对照模型的 SVD,以及较新的 LongCat-Video 模型。

通过在这三类能力和结构差异明显的模型上分别进行实验,研究人员观察方法在不同基础能力条件下的表现变化,结果显示方法可以直接迁移到不同视频模型中使用,不依赖特定模型结构或训练方式,因此具有明显的模型无关性,也就是 model-agnostic 特征。


在推理流程参数方面,研究团队对扩散生成过程进行了精细控制。整个视频生成过程统一设置为 50 步采样。在这一过程中,IRR 并不是在全部步骤中持续作用,而是集中作用在前 35% 到 45% 的阶段,也就是大约前 15 到 25 步之间,在主实验配置中通常为前 20 步。

这一阶段主要负责建立整体结构和运动趋势,因此通过 IRR 在这一阶段持续注入轨迹信息,可以不断修正生成方向,使结果逐步贴近目标相机路径。


与此同时,FLF 在时间维度上也采用分阶段策略,在最初的若干步中关闭 FLF,让模型优先利用全部通道建立整体结构,避免过早限制信息流动而影响全局布局,随后在中后期逐渐启用 FLF,对通道进行筛选,仅对运动相关通道施加约束,从而在不破坏外观细节的前提下加强轨迹控制。

这种安排体现出一种明显的时间调度机制,也就是在不同生成阶段分配不同控制强度,从而在结构稳定性与细节保真之间取得平衡。


在轨迹类型设计方面,研究团队为了验证方法的适用范围,构建了多种不同形式的相机运动路径进行测试,包括圆弧轨迹,也就是 arc,用于模拟围绕目标的侧向移动;推进轨迹,也就是 dolly,用于模拟镜头前进或后退;旋转轨迹,也就是 orbit,用于实现环绕式观察;以及自由探索路径,用于测试复杂、不规则的相机运动。

这些轨迹不仅在几何形式上存在差异,同时在运动幅度、视角变化范围以及遮挡情况上也存在显著不同。通过在这些多样化轨迹条件下进行实验,研究人员验证方法不仅可以处理规则路径,也可以应对复杂动态路径,从而说明方法具备较强的泛化能力,而不是只对某一类预设运动模板有效。


在评价指标选择方面,研究团队结合任务特点进行了专门设计。对于单图生成多视角的 3D 任务,由于输入只有一张图像,目标视角并不存在真实参考,也就是没有 ground truth,因此无法使用依赖真实图像对比的指标,例如 PSNR 这一类像素级误差指标。

在这种情况下,研究人员选择使用 FID 来衡量生成结果在分布层面与真实图像的接近程度,同时使用 CLIP 相似度来评估生成内容在语义层面与输入图像的一致性。

对于 4D 动态视频任务,则进一步引入 FVD 来衡量视频整体质量,以及 CLIP-Vsim 来评估视频语义一致性。这种指标体系体现出研究团队对问题性质的理解,也就是把任务视为生成问题而不是重建问题,因此评价重点放在真实感、语义一致性以及时间连续性,而不是像素级还原精度。

03


从结果优化,到过程控制的一次转向

在实验意义方面,这项研究的价值不仅体现在指标提升上,更体现在它改变了视频生成技术的发展方向。首先,从性能上看,研究结果不是只优化了某一个局部环节,而是在多个核心维度上同时取得提升。

FID 下降了 20%,FVD 下降了 15%,轨迹误差降低了 2 到 5 倍,这说明研究团队提出的方法既能让画面更真实,也能让视频更稳定,还能让相机运动更准确。

换句话说,研究人员解决的不是单一的清晰度问题,也不是单一的控制问题,而是把生成质量、运动一致性和空间控制能力一起往前推进了一步,这种全面提升说明方法已经具备较强的实用潜力。

从方法意义上看,这项研究进一步说明,视频生成未来的重要方向,很可能不是不断重新训练更大的模型,而是在推理过程中进行更精细的控制。研究人员通过实验发现,传统 CFG 在这一任务中会失败,FID 会高到 120 以上,而使用 DSG 以后,FID 可以降到 96。

这说明过去那种主要面向图像生成的控制思路,放到视频任务里并不够用,因为视频不仅要生成单帧内容,还要保证前后帧衔接自然,人物和场景不能乱变,镜头运动也不能失控。也正因为如此,研究团队提出的结构感知式控制方式才显得更有意义,它证明视频生成不能只靠简单加条件,而是需要真正理解空间结构和运动关系。

从理论意义上看,这项研究还有一个很重要的贡献,就是进一步证明了 latent 空间内部并不是混在一起、无法区分的。FLF 的实验结果表明,不同通道确实承担着不同功能,有些更偏向运动信息,有些更偏向外观与细节信息。

从工程意义上看,这项研究也很诚实地揭示了当前技术所处的阶段。方法虽然强,但成本也高,需要大约 70GB 显存,还要进行多路径推理,所以它更像是一种高质量离线渲染方案,而不是已经成熟到可以实时运行的轻量系统。

这一点其实也很有意义,因为它告诉人们,当前视频生成技术已经能够做出高质量结果,但距离真正低成本、实时化、大规模普及,还有一段工程化的路要走。也就是说,这项研究更像是在证明一件事可行,而不是已经把一件事做成人人随手可用的产品。

如果进一步看这项研究对普通人的影响,意义会更直观。对于普通用户来说,这类技术未来最直接的变化,就是拍视频和做视频的门槛可能会继续降低。以前想拍出镜头绕人移动、缓慢推进、自由换视角的效果,往往需要专业摄影设备、轨道、稳定器,甚至还要后期团队处理。

沿着这项研究继续发展,未来普通人只用一张图或者一段普通视频,就有可能生成更像电影镜头的画面,旅游视频、毕业纪念、短视频创作、家庭影像记录都会因此变得更容易、更丰富。

对于内容创作者来说,这种技术会进一步改变创作方式。很多人没有专业拍摄条件,也不会复杂建模,但依然希望让视频看起来更有空间感、更有镜头语言。

这项研究说明,未来创作者可能只需要先拍一个基础画面,后续再通过生成式方法重新设计镜头轨迹,让镜头前进、环绕、拉远、探索场景,等于把部分摄影和后期能力交给了模型。这样一来,个人创作者、小型工作室,甚至普通学生,都可能获得过去只有专业团队才能完成的视觉表达能力。

也就是说,这项研究虽然现在还主要停留在高成本实验阶段,但它指向的是一种更低门槛、更强表达力的视觉生产方式,而这种变化最后会落到普通人的观看体验、记录方式和创作能力上。

04


WorldForge 背后的科研力量

论文一作宋晨曦,目前是西湖大学 AGI Lab 的博士后研究员,师从张驰教授,2024 年于吉林大学获得工学博士学位,博士阶段主要从事 3D 计算机视觉与计算机图形学研究。

他当前的研究重点集中在 3D 与 4D 场景建模、可控视频生成等方向,同时也活跃于学术共同体,担任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等会议与期刊的审稿人。

就学术成果来看,他已发表或参与多项代表性工作,包括以第一作者发表在 CVPR 2026 的 WorldForge,以及发表于 IEEE T-CSVT 的 FewarNet,此外还参与了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等项目,整体研究路径体现出从多视角重建、3D 几何建模到训练自由的视频生成与世界模型构建的持续推进


参考链接:https://chenxi-song.github.io/

通讯作者张驰,西湖大学助理教授、独立PI,同时担任 AGI Lab负责人,在生成式人工智能和多模态智能方向开展研究工作。在

此之前,他曾在腾讯担任研究科学家,并于新加坡南洋理工大学获得博士学位,师从林国盛教授,同时与沈春华等学者保持长期合作关系。在学术影响力方面,他连续入选斯坦福大学发布的全球前 2% 科学家榜单,并担任多个顶级会议和期刊的重要学术服务角色,包括 ICML、ICLR、CVPR 等会议的 Area Chair,以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面,他长期深耕生成式人工智能领域,研究方向涵盖扩散模型、多模态生成建模以及智能体系统,近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体,形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看,张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展,既关注模型基础理论,也注重实际系统构建与应用落地。例如在视频生成与3D建模方向,他推动从单纯生成内容向可控相机运动和空间理解发展,在智能体方向,他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势,也使其工作处于当前人工智能领域较为前沿的位置。


参考链接:https://icoz69.github.io/


未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为啥不为了老人和孩子活下去?网友:有些农村确实超级恐怖

为啥不为了老人和孩子活下去?网友:有些农村确实超级恐怖

解读热点事件
2026-03-30 00:44:26
被泽连斯基“骗”了?停火刚生效乌军连炸俄4州,违反协议1971次

被泽连斯基“骗”了?停火刚生效乌军连炸俄4州,违反协议1971次

爱吃醋的猫咪
2026-04-13 21:56:03
俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

俄罗斯让中国心凉?真正可怕的不是西方围堵,而是我们低估了自己

闻识
2026-03-29 16:08:56
41岁足坛传奇定居广东成大老板,央视编导妻子气质佳

41岁足坛传奇定居广东成大老板,央视编导妻子气质佳

草莓信箱
2026-04-12 03:34:32
创业老炮vs00后,谁是下一代“一人公司”的标准样板

创业老炮vs00后,谁是下一代“一人公司”的标准样板

36氪
2026-04-13 12:10:09
胡德海,凌晨病逝

胡德海,凌晨病逝

南方都市报
2026-04-13 19:25:08
吹阿森纳水瓶的球迷:瓶子是以前口渴时找枪手替补席要的

吹阿森纳水瓶的球迷:瓶子是以前口渴时找枪手替补席要的

懂球帝
2026-04-14 00:03:13
风靡全国的“的确良”消失了?其实是换了名字,如今很多人还在穿

风靡全国的“的确良”消失了?其实是换了名字,如今很多人还在穿

冰语历史
2026-04-12 02:28:50
60胜!比肩雷霆马刺!已经喂出下一个霍华德

60胜!比肩雷霆马刺!已经喂出下一个霍华德

篮球实战宝典
2026-04-13 23:04:39
比亚迪发布新品牌,首款新车4月15日上市!

比亚迪发布新品牌,首款新车4月15日上市!

新浪财经
2026-04-12 18:09:20
冷知识:电和天然气烧水,谁更省钱?差距能差一个月菜钱!

冷知识:电和天然气烧水,谁更省钱?差距能差一个月菜钱!

小谈食刻美食
2026-04-06 09:26:41
斯诺克半程战报!3冠王8-1,中国4将领先2人落后,常冰玉赚大奖!

斯诺克半程战报!3冠王8-1,中国4将领先2人落后,常冰玉赚大奖!

刘姚尧的文字城堡
2026-04-13 08:01:48
婆婆又送侄子来过寒假,我转头带孩子出去旅游!婆婆急的问位置!

婆婆又送侄子来过寒假,我转头带孩子出去旅游!婆婆急的问位置!

云端小院
2026-04-13 10:15:46
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

野生运营
2026-04-12 08:33:50
兔子不吃窝边草?小s正面回应许雅钧争议,已彻底放飞自我

兔子不吃窝边草?小s正面回应许雅钧争议,已彻底放飞自我

孤城落日
2026-04-11 11:42:35
新娘临时要10万下车费,新郎去取钱却未归,新娘赶到婆家瞬间泪目

新娘临时要10万下车费,新郎去取钱却未归,新娘赶到婆家瞬间泪目

千秋历史
2026-02-02 20:23:42
伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

伊朗革命卫队:霍尔木兹海峡允许非军事船只通过

每日经济新闻
2026-04-13 07:38:50
美国杨毅:湖人将被火箭横扫最多撑5场 詹姆斯肯定能刷出漂亮数据

美国杨毅:湖人将被火箭横扫最多撑5场 詹姆斯肯定能刷出漂亮数据

罗说NBA
2026-04-13 23:37:46
涨粉78万!刘雨鑫带火莫氏鸡煲后全身而退,赢麻了

涨粉78万!刘雨鑫带火莫氏鸡煲后全身而退,赢麻了

雷科技
2026-04-13 16:15:35
2026-04-14 00:16:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7186文章数 20744关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

头条要闻

上海女子2个月内结2次婚 生下的孩子却是第3个男人的

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

初代“跑男团”合体,邓超、鹿晗缺席

财经要闻

谈判未完全关闭?3国力促美伊重启谈判

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

旅游
亲子
教育
公开课
军事航空

旅游要闻

兰圃开放夜间游览!来广州越秀逛兰缘盛荟,承包你的春日快乐

亲子要闻

老了才明白:不管多 心疼儿女,帮忙带 娃时,都要留意这3点

教育要闻

老师们活的通透的几大标准,看看你做到了吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版