当AI试图"重新看一眼"时，它的眼睛为何总是模糊的？|信号|草图|点云|摄像机

分享至

这项由多所高校及研究机构联合开展的研究成果以预印本形式发布于2026年5月，论文编号为arXiv:2605.12119，感兴趣的读者可以通过该编号查询完整论文。

每一张照片或每一段视频，都只是从某一个固定的角度"看"到的世界。如果我们想换个角度再看看——比如绕到物体背后，或者从高空俯视——那就需要额外拍摄。然而，如果只有一张照片或一段普通手机拍的视频，能不能让AI帮我们"重建"那些从未被镜头捕捉过的角度？这个问题，听起来像是魔术，但在计算机视觉领域，它有个学名，叫做"新视角合成"。而这恰恰是这篇论文想要解决的核心难题。

这项研究提出了一种名为MoCam的新方法，其核心创新在于解决了一个业界长期存在却悬而未决的矛盾：用来指导AI生成画面的"几何信息"（大致可以理解为空间位置和形状轮廓）和"外观信息"（颜色、纹理、细节质感）这两种信号，本质上相互冲突，不能简单地同时使用，必须有顺序、有策略地引入。这个发现听起来简单，但由此设计出来的系统，在生成质量和相机控制精度上都显著超越了当前的主流方法。

一、当AI想"换个角度看"，它面临什么困难

要理解这项研究的价值，不妨先设想这样一个场景：你用手机录了一段朋友跳舞的视频，镜头只从正面拍摄。现在你想看看他从侧面跳舞是什么样子，但你没有从侧面拍过。这时候，你希望AI能凭借这一段正面视频，"脑补"出侧面的画面。

这件事之所以困难，是因为AI必须先理解这个三维空间的结构——哪里是手臂，哪里是腿，哪里是背景的桌子——然后才能将这个结构从新的角度"投影"出来。但问题在于，从一段普通视频中"重建"三维结构本身就不精确。用单个摄像头估计深度（即物体距离摄像机有多远），就像用一只眼睛判断距离一样，误差难以避免。结果是，AI重建出来的三维点云（可以理解为一堆散落在空间中的点，每个点代表场景中的一个位置）总是存在漏洞、扭曲和错误。

现有的主流方法大致分为两类。一类是"给AI一张三维草图，让它照着画"：先根据视频重建出一个粗糙的三维点云，然后把它渲染成新视角下的画面，再用AI模型把这张"草图"补全成完整图像。Gen3C和TrajectoryCrafter就属于这一类。问题在于，这张草图本身就是错的，AI只是在错误的基础上继续"加工"，最终的画面里人物的手臂可能扭曲变形，背景出现奇怪的破洞。另一类是"直接告诉AI相机怎么移动，让它自己生成画面"：这类方法（如ReCamMaster）不依赖三维重建，而是把摄像机运动信息直接注入AI模型，期望AI自行推断出新视角的样子。这种方法的问题是，当摄像机转动幅度很大时，AI很容易"迷失方向"，生成出来的画面在几何结构上一塌糊涂。

简而言之，前者知道"空间在哪里"，但空间信息是错的；后者知道"摄像机怎么动"，但对空间毫无把握。两种方法都在同一个根本矛盾前败下阵来：几何信息和外观信息，各有所长，却无法和平共处。

二、两种信号为何不能同时使用

MoCam的研究团队认为，这个矛盾的根源在于这两种信号存在本质冲突。

几何信息（三维点云渲染出的草图）的优势是：它知道新视角下各个物体的大致位置关系，知道摄像机移动到哪个角度，背景应该出现在画面左边还是右边，人物应该变大还是变小。这是"空间定位"能力，是外观信息天生不具备的。但它的劣势是：因为深度估计不准，这张草图充满破洞和扭曲，如果AI全程跟着它走，最终输出的画面会把这些错误原封不动地"烤进"最终结果，再也无法修正。

外观信息（原始的参考视频）的优势是：它提供了真实、清晰、丰富的纹理细节，人物的皮肤质感、衣物纹路、场景中的光影变化，都保存得相当完整。但它的劣势是：它是从原来的摄像机角度拍的，和我们想要的新视角不一致。如果在生成过程的早期就引入这个信号，AI会被原始视角的"视觉惯性"拉着跑，忘记了新视角应该是什么样的空间布局。

研究团队把这个冲突形容为：早期如果让外观信息主导，几何结构会漂移；晚期如果仍让几何信息主导，它的缺陷会被永久固化。两者同时使用，则相互干扰，产生信号混乱。这就像请两位厨师同时烹饪同一道菜，一位负责调味，一位负责火候，但两人理念完全不同——结果很可能既不好吃也不好看。

三、MoCam的核心思路：先画骨架，再填血肉

MoCam的解决方案，本质上是一个"分阶段接棒"的策略，借鉴了一个关于创作过程的直觉：先打草稿定结构，再细化润色。

在理解这个策略之前，需要先了解一点AI图像/视频生成的工作原理。现在最流行的生成式AI模型（例如能生成图片的Stable Diffusion、能生成视频的Wan系列模型）都是基于"扩散模型"这个框架工作的。扩散模型的工作方式，可以用下面这个比喻来理解：

设想一张照片被慢慢撒上越来越多的雪花，直到完全变成一片雪白。这个"加雪花"的过程叫做"加噪"。扩散模型做的事情，是学会如何"去雪花"——从一片雪白开始，一步一步把雪花去掉，最终还原出一张清晰的照片。在这个去雪花的过程中，最开始的几步（雪花还很多时）主要在确定画面的大结构：这里有个人，那里有座山，整体构图是怎样的。后面的几步（雪花快去完时）才在处理细节：衣服的纹路、树叶的形状、皮肤的质感。

MoCam正是利用了这个特性。它的策略是：在"去雪花"的早期阶段，让AI只看几何信息（粗糙的三维草图），用它来确定新视角下画面的大致结构和空间布局；当画面的骨架已经建立起来之后，在后期阶段切换到外观信息（原始参考视频），用真实丰富的纹理细节来修正早期骨架中遗留的几何错误，并填充那些因视角变化而出现的"空洞"区域。

换句话说：几何信息在早期负责"定方向"，外观信息在晚期负责"修错误+填细节"。这两种信号各司其职，互不干扰，而不是同时争夺AI的注意力。这个切换发生的时间节点由一个叫做"Tswitch"的参数控制，研究团队通过实验将其设定为0.85（意思是在整个去噪过程进行到85%之前使用几何信息，之后切换为外观信息）。

四、MoCam的具体工作流程

MoCam的完整流程可以分为三个步骤，环环相扣。

第一步是生成"空间草图"。给定一段输入视频（或单张图片），系统首先用深度估计模型分析每一帧，计算出画面中每个像素点距离摄像机的距离。有了深度信息，再结合摄像机的内部参数（焦距、视野角等），就可以把每一帧的二维像素"反投影"到三维空间中，形成一团三维点云——像一堆散落在空间中的彩色沙粒。这团点云记录了场景的空间结构。然后，按照用户指定的新摄像机轨迹，把这团点云重新从新视角"投影"回二维画面，得到一段粗糙的"草图视频"。这段草图视频在空间和运动上是正确对齐的，但充满了破洞和变形。

第二步是对两种信号分别编码。系统用一个叫VAE（可变自编码器）的工具，分别把草图视频和原始参考视频压缩成紧凑的数学表示（可以理解为"压缩版的视频"，去掉冗余信息，保留本质特征）。草图视频的压缩版称为"几何条件"，参考视频的压缩版称为"外观条件"。这两种条件信号会在不同阶段被送入核心的生成模型。

第三步是阶段性生成目标视频。生成模型从一团纯噪声（全是"雪花"的状态）开始，按照事先设定好的规则进行去噪：在前85%的步骤中，只接受几何条件的引导，逐渐形成有正确空间布局的粗糙画面；在后15%的步骤中，切换为只接受外观条件的引导，对画面进行精细修正和纹理填充，最终输出完整清晰的目标视角视频。

值得一提的是，这套流程对静态场景（单张图片重建为多视角视频）和动态场景（一段运动视频重新渲染为不同摄像机角度的视频）同样适用。对于单张图片的情况，系统只需把这张图片复制成N帧，当作一段"静止视频"来处理，其余步骤完全相同。这种统一性正是研究团队着力强调的——同一套方法，同时解决3D和4D两类问题，背后的逻辑是一致的。

五、实验验证：数字背后的真实含义

研究团队在多个数据集上进行了大量实验，将MoCam与当时最先进的几种方法进行了全面比较，包括Gen3C、TrajectoryCrafter（即论文中的TrajCrafter）和ReCamMaster（即论文中的ReCam）以及ViewCrafter。

在评估指标上，研究团队使用了多个维度：背景一致性（生成的视频背景是否稳定、不抖动）、主体一致性（画面主体在不同视角下外观是否连贯）、成像质量（画面是否清晰、自然）、FVD-V分数（衡量生成视频与真实视频之间感知差距的指标，分数越低越好）、CLIP-V分数（衡量不同视角之间视觉相似性的指标，越高越好），以及旋转误差和平移误差（衡量摄像机运动是否准确的指标）。

在静态场景的单视角3D重建任务中，MoCam在几乎所有指标上都取得了最优成绩。尤其是FVD-V分数，MoCam为255.16，而排名第二的Gen3C为289.37，差距相当明显。CLIP-V分数方面，MoCam达到0.87，也高于其他方法。旋转误差方面，MoCam以1.35度的误差与Gen3C的1.36度基本持平，均优于ReCamMaster的2.13度。

在动态场景的4D重新渲染任务中，结果同样令人印象深刻。背景一致性0.9332、主体一致性0.9247、成像质量0.6932，均优于所有对比方法。在另一个专门用于视频重建的iPhone数据集上（该数据集有真实的多视角参考画面，可以用PSNR、SSIM等像素级指标来评估），MoCam的PSNR达到14.60，明显优于TrajCrafter的13.74和Gen3C的12.36；FVD分数为180.35，远低于其他方法（Gen3C为260.15，TrajCrafter为273.36，ReCamMaster为301.41）。

特别有说服力的是"抗几何退化"实验。研究团队故意让摄像机做越来越大幅度的旋转——从30度一路增加到90度——来模拟几何信息越来越稀疏、越来越不准确的场景。90度旋转意味着摄像机几乎绕到了物体的背面，点云中有大量区域完全没有数据覆盖，草图视频几乎全是破洞。在这种极端压力测试下，Gen3C和TrajCrafter的各项指标随着旋转角度增大而急剧下降；ReCamMaster虽然不依赖点云，但没有几何骨架约束，在大旋转下几何结构完全崩塌；而MoCam的各项指标曲线则明显更加平稳，在90度旋转下仍然保持相对较高的质量。这正是MoCam设计的关键：早期几何锚定防止漂移，晚期外观修正弥补点云的稀疏缺陷。

六、消融实验：缺掉任何一环都不行

为了验证"阶段性切换"这个核心设计的必要性，研究团队专门做了一组消融实验，逐一测试去掉某个组件后的效果。

"仅使用几何条件"的变体，从头到尾只让AI看草图视频。结果成像质量分数仅为0.4807，是所有变体中最差的，几何错误被彻底固化进画面，人物和场景严重变形。

"几何条件仅用于早期"的变体，前半段用几何条件，后半段什么都不用。这避免了几何错误的固化，但后期没有外观信息的引导，AI只能靠自己"脑补"细节，结果画面纹理模糊，遮挡区域（即原始视角看不到、新视角才能看到的区域）生成出来的内容平庸且不自然。

"同时使用两种条件"的变体，从头到尾把两种信号拼在一起给AI看。结果成像质量尚可，但旋转误差高达2.71度、平移误差高达11.01，相当于AI在摄像机运动方向上完全搞错了。原因正是两种信号的摄像机运动方向相互矛盾，造成信号干扰，让AI既想跟着草图走，又被原始视频拉着跑，最终迷失了方向。

只有MoCam的"阶段切换"设计，综合了所有指标的最优表现：成像质量0.6932，旋转误差1.36度，平移误差5.12。这组实验清晰地证明了，既不能全程依赖几何，也不能全程依赖外观，更不能同时依赖两者——阶段性切换是唯一有效的解法。

此外，研究团队还在Wan2.1（而非主要使用的Wan2.2）骨干模型上测试了相同方法，结果同样优秀，证明这套策略与具体的视频生成模型架构无关，具备较好的通用性。研究团队还额外测试了在深度估计本身出现误差时（即故意给系统喂入不准确的深度数据）MoCam的表现，结果显示，即便草图中的光线形状因深度错误而发生扭曲，MoCam仍能在最终输出中将其修正到正常状态，而对比的"同时使用两种条件"方法则无法完成这种修正。

七、这项研究意味着什么

说到底，MoCam做的事情，是在一个大家都觉得"两种信息必须融合"的问题上，发现了一种更聪明的做法：不是融合，而是排队。就像一个优秀的导演，不会让摄影师和美术师同时对着同一个场景争论，而是先让美术师搭好布景（定结构），再让摄影师调光补细节（精修饰）。这个顺序，改变了结果的质量。

从应用角度看，这种技术的成熟意味着，未来影视制作中的虚拟摄影机重定位（即用一段普通视频生成不同摄像机角度的专业级画面）、虚拟现实内容的批量生成，乃至普通人用手机拍一段视频后自由调整"拍摄角度"的个人应用，都将变得更加可行。当前版本仍然存在一些局限——研究团队在结论中也提到，未来工作可能会探索草图和视频的联合迭代优化，也就是让这两种信号在生成过程中相互反馈、共同演化，而不仅仅是简单的阶段切换。

对普通读者来说，这项研究最直观的启示或许是：当两种信息相互冲突时，与其强行融合，不如想清楚"谁在哪个时刻最有用"。有时候，时序比合并更重要。

Q&A

Q1：MoCam方法和Gen3C、TrajectoryCrafter这些旧方法相比，最根本的区别是什么？

A：旧方法要么全程依赖三维点云草图（导致几何错误被固化进最终画面），要么把草图和原始视频同时喂给AI（导致两种信号的摄像机方向相互矛盾、产生干扰）。MoCam的区别在于把生成过程分成两个阶段：前期只用草图来锁定空间结构，后期切换为只用原始视频来修正几何错误和补充纹理细节。这种"排队"而非"融合"的思路，让两种信号各自在最合适的时机发挥作用，避免了相互干扰。

Q2：MoCam处理单张图片和处理视频的方式有什么不同？

A：本质上没有不同。对于单张图片，系统只需将这张图片复制成N帧，当作一段"完全静止的视频"来处理，后续的深度估计、点云重建、阶段性扩散生成流程完全一致。这也是研究团队强调MoCam能"统一"处理3D和4D两类问题的核心原因——同一套逻辑框架，不需要针对不同输入类型做特殊设计。

Q3：MoCam的"阶段切换时间点"是怎么确定的，如果切换太早或太晚会怎样？

A：研究团队通过实验将切换时间点设定为整个去噪过程的85%处（即参数Tswitch=0.85），这意味着前85%的步骤用几何信息，后15%用外观信息。如果切换太早（几何阶段不够充分），空间结构还未稳定就引入外观信号，画面容易出现几何漂移；如果切换太晚（几何阶段过长），点云草图中的错误会被深度"烤入"画面，后期的外观修正已无能为力。0.85这个值是在验证集上通过实验经验选定的，并非通过完整的超参数搜索严格优化，未来研究可能会进一步探索动态自适应的切换策略。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.