西湖大学张驰团队：从视觉合成到空间理解，视频 AI 正在「转向」丨CVPR 2026|智能体|新论文|cvpr|张弛(足球运动员)

分享至

WorldForge：一种实现相机轨迹可控的视频生成方法。

作者丨郑佳美

编辑丨岑峰

过去两年，视频生成的发展几乎是指数级的。从最早只能生成模糊片段，到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频，行业表面上已经接近一个阶段性成熟。

但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”，问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中，它们擅长在时间上延续视觉模式，却缺乏对空间结构的稳定建模能力。

一旦涉及视角变化，模型往往无法保证同一个物体在不同帧之间的几何一致性，人物会发生细微但累积的漂移，建筑结构在移动中逐渐扭曲，遮挡关系也难以维持连续，这意味着模型生成的并不是一个被持续观察的世界，而是一系列在视觉上相似但空间上不一致的结果。

在这样的行业背景下，西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是，这篇论文也入选了CVPR Highlight。与以往通过重新训练模型来引入控制能力的路径不同，这项工作将问题重新落回到推理阶段本身，尝试在不改变模型参数的情况下，让相机轨迹成为生成过程中的约束条件，使模型在每一步生成中持续对齐同一个空间结构。

换句话说，这项研究关注的不是如何让模型生成更多内容，而是如何让模型在视角变化中保持世界的一致性，从而把视频生成从二维视觉合成，推进到具有三维结构约束的动态世界建模。

如果从应用角度理解这一点，可以把它看成一种能力的转变。过去模型更像一个能够不断画出新画面的系统，而现在的目标，是让模型像一个可以移动的摄影机，在同一个场景中进行观察和记录。无论是商品展示、空间漫游，还是内容创作中的镜头设计，本质上都依赖这种能力的成立。

WorldForge 的提出，正是在这一关键转折点上，给出了一个不依赖额外训练、却能够实现精确相机控制的路径，也因此成为当前视频生成从“生成能力竞争”走向“空间一致性与可控性竞争”的一个代表性工作。

论文地址：https://arxiv.org/pdf/2509.15130

跨任务、多指标的统一性能提升

在实验结果方面，研究团队首先验证了 3D 静态场景生成，也就是单图到多视角任务，相关数据来自 Table 1。从生成质量看，WorldForge 的 FID 为 96.08，是所有方法里最低的，CLIPsim 为 0.948，是所有方法里最高的。作为对比，TrajectoryCrafter 的 FID 为 111.49，CLIPsim 为 0.910，NVS-Solver 的 FID 为 118.64，CLIPsim 为 0.937。

这说明 WorldForge 在真实感和语义一致性上都更强，FID 从 118 下降到 96，降幅约 20%，CLIPsim 从 0.91 提升到 0.948，说明生成结果既更真实，又更符合原图语义。

从轨迹精度也就是相机控制能力看，WorldForge 的 ATE 为 0.077，是最低值，RPE-T 为 0.086，RPE-R 为 0.221。对比来看，ViewCrafter 的 ATE 为 0.236，约为 WorldForge 的 3 倍，NVS-Solver 的 RPE-R 为 1.056，明显高于 0.221，所以可以看出，相机路径误差被显著压低，整体大约达到 2 到 5 倍的改进。

在 4D 动态视频生成任务中，也就是输入视频并重新指定轨迹的场景，相关数据来自 Table 2。从视频质量看，WorldForge 的 FVD 为 93.17，是最低值，CLIP-Vsim 为 0.938，是最高值。

对比方法中，TrajectoryCrafter 的 FVD 为 97.31，ViewExtrapolator 的 FVD 为 108.48。也就是说，WorldForge 相比 108 降到 93，提升幅度约为 15%，说明在动态视频生成中，画面质量和语义一致性仍然保持领先。从轨迹精度看，WorldForge 的 ATE 为 0.527，RPE-T 为 0.826，RPE-R 为 2.690，而 ViewExtrapolator 的 ATE 为 1.040，几乎是前者的两倍，这说明在动态视频条件下，WorldForge 依然能保持比较稳定的轨迹控制效果。

除了性能指标，研究人员还给出了实验规模，这部分信息很重要。在 3D 任务中，实验覆盖 40 多个场景、70 多张单图输入，使用的数据集包括 LLFF、Tanks & Temples、MipNeRF 360，同时还加入了真实图片和 AI 生成图片。

在 4D 任务中，实验覆盖 30 多个视频和 50 多个测试样例，数据来源包括 DAVIS 数据集、电影片段以及 VDM 生成视频。这样的设置说明，测试范围同时覆盖真实世界数据和合成数据，泛化能力验证相对充分。

研究团队还说明了实验条件。主模型使用 Wan2.1，规模为 14B，硬件方面需要至少 69GB 显存的 GPU。生成阶段采用 50 步采样，其中 IRR 作用在前 20 步。这组条件说明，方法在效果上很强，但计算成本也比较高，对硬件资源有较高要求。

在消融实验部分，相关数据来自 Table 3。完整模型表现最好，其中 FID 为 96.08，FVD 为 93.17。去掉 DSG 以后，FID 上升到 109.43，FVD 上升到 95.69，说明画面质量和视频质量都明显变差。

去掉 FLF 以后，FID 进一步上升到 112.69，FVD 上升到 99.79，结果更差。把 DSG 和 FLF 一起去掉以后，FID 达到 113.12，FVD 达到 103.17，退化更加明显。如果把 DSG 换成传统 CFG，结果最差，FID 达到 120.91，FVD 达到 109.1。

综合这些数字可以看到，每个模块都会带来大约 10% 到 20% 的性能提升，而且几个模块之间存在明显的互补关系，少了任何一个，整体效果都会下降。

一套可迁移、可控制的生成流程

在实验经过方面，研究团队首先从模型设置入手验证方法的通用性，一共选用了三个不同类型的视频生成模型进行测试，分别是作为主实验基础模型的 Wan2.1，其规模为 14B，作为轻量级对照模型的 SVD，以及较新的 LongCat-Video 模型。

通过在这三类能力和结构差异明显的模型上分别进行实验，研究人员观察方法在不同基础能力条件下的表现变化，结果显示方法可以直接迁移到不同视频模型中使用，不依赖特定模型结构或训练方式，因此具有明显的模型无关性，也就是 model-agnostic 特征。

在推理流程参数方面，研究团队对扩散生成过程进行了精细控制。整个视频生成过程统一设置为 50 步采样。在这一过程中，IRR 并不是在全部步骤中持续作用，而是集中作用在前 35% 到 45% 的阶段，也就是大约前 15 到 25 步之间，在主实验配置中通常为前 20 步。

这一阶段主要负责建立整体结构和运动趋势，因此通过 IRR 在这一阶段持续注入轨迹信息，可以不断修正生成方向，使结果逐步贴近目标相机路径。

与此同时，FLF 在时间维度上也采用分阶段策略，在最初的若干步中关闭 FLF，让模型优先利用全部通道建立整体结构，避免过早限制信息流动而影响全局布局，随后在中后期逐渐启用 FLF，对通道进行筛选，仅对运动相关通道施加约束，从而在不破坏外观细节的前提下加强轨迹控制。

这种安排体现出一种明显的时间调度机制，也就是在不同生成阶段分配不同控制强度，从而在结构稳定性与细节保真之间取得平衡。

在轨迹类型设计方面，研究团队为了验证方法的适用范围，构建了多种不同形式的相机运动路径进行测试，包括圆弧轨迹，也就是 arc，用于模拟围绕目标的侧向移动；推进轨迹，也就是 dolly，用于模拟镜头前进或后退；旋转轨迹，也就是 orbit，用于实现环绕式观察；以及自由探索路径，用于测试复杂、不规则的相机运动。

这些轨迹不仅在几何形式上存在差异，同时在运动幅度、视角变化范围以及遮挡情况上也存在显著不同。通过在这些多样化轨迹条件下进行实验，研究人员验证方法不仅可以处理规则路径，也可以应对复杂动态路径，从而说明方法具备较强的泛化能力，而不是只对某一类预设运动模板有效。

在评价指标选择方面，研究团队结合任务特点进行了专门设计。对于单图生成多视角的 3D 任务，由于输入只有一张图像，目标视角并不存在真实参考，也就是没有 ground truth，因此无法使用依赖真实图像对比的指标，例如 PSNR 这一类像素级误差指标。

在这种情况下，研究人员选择使用 FID 来衡量生成结果在分布层面与真实图像的接近程度，同时使用 CLIP 相似度来评估生成内容在语义层面与输入图像的一致性。

对于 4D 动态视频任务，则进一步引入 FVD 来衡量视频整体质量，以及 CLIP-Vsim 来评估视频语义一致性。这种指标体系体现出研究团队对问题性质的理解，也就是把任务视为生成问题而不是重建问题，因此评价重点放在真实感、语义一致性以及时间连续性，而不是像素级还原精度。

从结果优化，到过程控制的一次转向

在实验意义方面，这项研究的价值不仅体现在指标提升上，更体现在它改变了视频生成技术的发展方向。首先，从性能上看，研究结果不是只优化了某一个局部环节，而是在多个核心维度上同时取得提升。

FID 下降了 20%，FVD 下降了 15%，轨迹误差降低了 2 到 5 倍，这说明研究团队提出的方法既能让画面更真实，也能让视频更稳定，还能让相机运动更准确。

换句话说，研究人员解决的不是单一的清晰度问题，也不是单一的控制问题，而是把生成质量、运动一致性和空间控制能力一起往前推进了一步，这种全面提升说明方法已经具备较强的实用潜力。

从方法意义上看，这项研究进一步说明，视频生成未来的重要方向，很可能不是不断重新训练更大的模型，而是在推理过程中进行更精细的控制。研究人员通过实验发现，传统 CFG 在这一任务中会失败，FID 会高到 120 以上，而使用 DSG 以后，FID 可以降到 96。

这说明过去那种主要面向图像生成的控制思路，放到视频任务里并不够用，因为视频不仅要生成单帧内容，还要保证前后帧衔接自然，人物和场景不能乱变，镜头运动也不能失控。也正因为如此，研究团队提出的结构感知式控制方式才显得更有意义，它证明视频生成不能只靠简单加条件，而是需要真正理解空间结构和运动关系。

从理论意义上看，这项研究还有一个很重要的贡献，就是进一步证明了 latent 空间内部并不是混在一起、无法区分的。FLF 的实验结果表明，不同通道确实承担着不同功能，有些更偏向运动信息，有些更偏向外观与细节信息。

从工程意义上看，这项研究也很诚实地揭示了当前技术所处的阶段。方法虽然强，但成本也高，需要大约 70GB 显存，还要进行多路径推理，所以它更像是一种高质量离线渲染方案，而不是已经成熟到可以实时运行的轻量系统。

这一点其实也很有意义，因为它告诉人们，当前视频生成技术已经能够做出高质量结果，但距离真正低成本、实时化、大规模普及，还有一段工程化的路要走。也就是说，这项研究更像是在证明一件事可行，而不是已经把一件事做成人人随手可用的产品。

如果进一步看这项研究对普通人的影响，意义会更直观。对于普通用户来说，这类技术未来最直接的变化，就是拍视频和做视频的门槛可能会继续降低。以前想拍出镜头绕人移动、缓慢推进、自由换视角的效果，往往需要专业摄影设备、轨道、稳定器，甚至还要后期团队处理。

沿着这项研究继续发展，未来普通人只用一张图或者一段普通视频，就有可能生成更像电影镜头的画面，旅游视频、毕业纪念、短视频创作、家庭影像记录都会因此变得更容易、更丰富。

对于内容创作者来说，这种技术会进一步改变创作方式。很多人没有专业拍摄条件，也不会复杂建模，但依然希望让视频看起来更有空间感、更有镜头语言。

这项研究说明，未来创作者可能只需要先拍一个基础画面，后续再通过生成式方法重新设计镜头轨迹，让镜头前进、环绕、拉远、探索场景，等于把部分摄影和后期能力交给了模型。这样一来，个人创作者、小型工作室，甚至普通学生，都可能获得过去只有专业团队才能完成的视觉表达能力。

也就是说，这项研究虽然现在还主要停留在高成本实验阶段，但它指向的是一种更低门槛、更强表达力的视觉生产方式，而这种变化最后会落到普通人的观看体验、记录方式和创作能力上。

WorldForge 背后的科研力量

论文一作宋晨曦，目前是西湖大学 AGI Lab 的博士后研究员，师从张驰教授，2024 年于吉林大学获得工学博士学位，博士阶段主要从事 3D 计算机视觉与计算机图形学研究。

他当前的研究重点集中在 3D 与 4D 场景建模、可控视频生成等方向，同时也活跃于学术共同体，担任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等会议与期刊的审稿人。

就学术成果来看，他已发表或参与多项代表性工作，包括以第一作者发表在 CVPR 2026 的 WorldForge，以及发表于 IEEE T-CSVT 的 FewarNet，此外还参与了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等项目，整体研究路径体现出从多视角重建、3D 几何建模到训练自由的视频生成与世界模型构建的持续推进

参考链接：https://chenxi-song.github.io/

通讯作者张驰，西湖大学助理教授、独立PI，同时担任 AGI Lab负责人，在生成式人工智能和多模态智能方向开展研究工作。在

此之前，他曾在腾讯担任研究科学家，并于新加坡南洋理工大学获得博士学位，师从林国盛教授，同时与沈春华等学者保持长期合作关系。在学术影响力方面，他连续入选斯坦福大学发布的全球前 2% 科学家榜单，并担任多个顶级会议和期刊的重要学术服务角色，包括 ICML、ICLR、CVPR 等会议的 Area Chair，以及 IEEE T-CSVT 的副编辑。

在学术成果与研究产出方面，他长期深耕生成式人工智能领域，研究方向涵盖扩散模型、多模态生成建模以及智能体系统，近年来带领团队在 CVPR、ICCV、ICLR、NeurIPS 等顶级会议上持续发表成果，例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

这些研究从图像生成、视频生成延伸到 3D/4D 场景建模以及多模态智能体，形成了一条从视觉理解到世界建模的系统性研究路线。

从整体研究特点来看，张驰的工作强调生成模型的可控性、多模态融合能力以及向真实世界建模能力的拓展，既关注模型基础理论，也注重实际系统构建与应用落地。例如在视频生成与3D建模方向，他推动从单纯生成内容向可控相机运动和空间理解发展，在智能体方向，他探索多模态大模型在真实交互环境中的应用。

这种研究路径体现出从传统计算机视觉向通用人工智能过渡的趋势，也使其工作处于当前人工智能领域较为前沿的位置。

参考链接：https://icoz69.github.io/

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.