NVIDIA与伊利诺伊大学：AI视频生成实现因果逻辑分离式运动控制|轨迹|摄像机|编码器|nvidia

分享至

这项由NVIDIA研究院与美国伊利诺伊大学厄巴纳-香槟分校联合完成的研究，以预印本形式于2026年4月8日发布在arXiv平台，论文编号为arXiv:2604.07348。对于想深入了解的读者，可通过该编号直接检索原文。

当你拿起手机拍视频，想要既追踪桌上那只移动的杯子，又慢慢把镜头推近看清楚细节，这两件事同时做起来其实相当自然。然而对于现有的AI视频生成系统来说，这种"两件事同时做"却是一个棘手的难题——镜头动了，画面里所有东西的运动轨迹都跟着变，AI根本分不清哪些是"镜头在动"、哪些是"物体本身在动"。更麻烦的是，当一只手推动一个杯子，杯子会滑动，这个"推"和"滑"之间存在因果关系，而现有的AI系统对此几乎视而不见——它只知道机械地跟随预设轨迹，根本不理解"手推了，所以杯子滑了"这件事。

正是为了解决这两个深层问题，NVIDIA的研究团队提出了一个名为MoRight的新框架。这个名字可以理解为"用正确的方式做运动控制"，而它的核心思路，就像是给AI配了一套"双眼睛+因果推理大脑"的组合。

一、为什么现有系统总是"手忙脚乱"

要理解MoRight解决了什么问题，不妨先想象这样一个场景：你是一位舞台导演，既要指挥演员按照剧本走位，又要控制摄像机从不同角度拍摄。现有的AI视频系统面对这个任务时，会把"演员走位"和"摄像机移动"混在一起，交给系统一张标注了每个像素运动轨迹的地图。问题是，当摄像机向右移动时，画面里所有东西的像素轨迹都会向左偏移——演员的轨迹和摄像机移动的效果完全混在一起，AI根本无法区分哪个位移是演员自己走的，哪个是因为镜头动了才产生的视觉偏移。

研究团队把这种现象称为"运动纠缠"。就像一团毛线被绕在一起，想要单独抽出某一根几乎不可能。现有方法试图给AI额外提供深度信息、3D轨迹或者前景背景分割等"特权信息"来缓解这个问题，但这些信息在现实应用中往往很难获取，而且只能在已知完整视频序列的情况下使用——如果你只有一张参考图，这些方法就束手无策了。

第二个问题同样根深蒂固。当AI被告知"让这只手沿着这条轨迹移动"，它会尽力让画面中的手跟随轨迹，但对于"手推动了什么东西、那个东西会怎么反应"，它完全不在乎。这就好比一个演员只按照脚本走位，却完全无视台词中的逻辑——他走到了桌子旁边，但桌上的道具是否因此移动，与他无关。在物理世界中，因果关系是无处不在的：推一下积木会倒，提起茶壶水会流，踢一脚球球会飞出去。但对现有AI而言，这些都只是"像素位移"，而非"原因和结果"。

MoRight的出现，正是为了同时拆解这两个困局。

二、"双流"设计：给运动和镜头各自一条独立的跑道

MoRight的第一个核心创新，是引入了一种叫做"双流生成"的架构。用一个直观的比喻来理解：把整个视频生成过程想象成一个专业摄影棚的工作流程。棚里有两套独立系统同时运行——一套负责"演员在固定舞台上的走位"，另一套负责"摄像机的移动轨迹"。这两套系统彼此独立运作，但又通过内部的信息传递机制保持协调，最终呈现出既有演员按设定走位、又有镜头灵活移动的连贯画面。

具体来说，MoRight把运动控制拆成了两个并行的处理通道。第一个通道叫做"规范视角流"（Canonical Stream），它在一个假设摄像机静止不动的虚拟环境中处理物体的运动轨迹。用户在这里画出物体的运动路径，比如"让茶壶从左移到右"，这条路径是在固定视角下定义的，清晰且无歧义。第二个通道叫做"目标视角流"（Target Stream），它负责处理摄像机的移动——比如"镜头向右旋转30度"或者"镜头推近"。这个通道不直接处理物体的运动，而是接收摄像机参数作为输入。

两个通道的神经网络权重是完全共享的，这意味着它们本质上是同一个AI大脑在同时处理两类不同的任务。两个通道通过每个Transformer模块内部的"自注意力层"进行信息交流——在这一层，两个通道的特征被拼接在一起，让目标视角通道的像素可以"看到"规范视角通道里的运动信息，从而学会如何把固定视角下的物体运动转化为摄像机移动后的视角下应该呈现的样子。研究团队把这种机制称为"跨视角运动迁移"，它实现了在不知道未来帧的情况下，仅凭第一帧图像就能完成运动与镜头的解耦。

在技术实现层面，物体运动的编码方式是构建一张"逐像素轨迹图"，让沿同一条轨迹运动的像素共享相同的时间对应关系嵌入，然后通过一个轻量级编码器压缩成紧凑的特征。摄像机运动的编码则借鉴了Gen3C的方法，利用摄像机位姿和深度估计对第一帧图像进行"扭曲"——相当于模拟摄像机移动后场景应该看起来的样子，再通过VAE编码器编码成摄像机条件特征。这两种条件特征都在每个Transformer模块中被注入到视频特征里，形成"注入后同步"的循环，逐步把运动信息从规范视角传递到目标视角。

三、教会AI懂"因果"：主动运动和被动运动的拆分

解决了镜头与运动的纠缠问题之后，MoRight还要面对更深层的挑战：如何让AI理解"原因导致结果"。

研究团队的解决方案出奇地优雅。他们把场景中所有物体的运动轨迹拆分成两类。第一类叫做"主动运动"，指的是由用户驱动的意图性动作，比如手的移动、机器人手臂的伸展——这些动作是"原因"。第二类叫做"被动运动"，指的是因主动动作而产生的反应性运动，比如被推动的杯子滑行、被提起茶壶倒出的水流——这些是"结果"。

在训练过程中，研究团队引入了一种叫做"运动丢弃"的训练策略。在每次训练时，系统会随机地只给AI展示主动运动轨迹或者只给被动运动轨迹，然后要求它生成包含两类运动全部效果的完整视频。这就好比告诉AI一道题的一半条件，让它自己推断出另一半。当AI只看到手的运动轨迹时，它必须自己预测杯子会怎么滑动；当AI只看到杯子的滑动轨迹时，它必须反推出是什么样的手部动作导致了这个结果。

经过大量这样的训练，AI就像一个在厨房里观察了无数次"厨师切菜→食材被切开"过程的学徒，开始内化这些因果规律，而不再只是机械地复制像素轨迹。

这种设计带来了两种推理能力，在测试阶段可以灵活切换使用。"正向推理"就是用户给出主动运动（比如画出手往前推的轨迹），AI自动生成被推物体合理的反应动作。"逆向推理"则反过来，用户指定想要的被动效果（比如"我希望球朝左飞去"），AI反推出是什么样的主动动作导致了这个效果，进而生成完整视频。这两种能力让用户可以以完全不同的交互方式驱动视频生成，极大地扩展了系统的应用范围。

四、数据从哪里来：一套巧妙的数据工厂

MoRight的双流架构需要"同一场景在不同摄像机角度下的成对视频"作为训练数据，但现实世界中几乎不存在这样的天然配对数据。研究团队因此设计了一套三阶段数据生产流水线，堪称一座自动化数据工厂。

第一阶段是"运动提取与规范化"。研究团队从大量互联网视频中提取深度信息、摄像机位姿和密集像素轨迹，然后通过几何投影把所有轨迹"还原"到第一帧的静态视角坐标系下，得到规范化的运动轨迹。具体公式是把2D轨迹点根据深度"反投影"到3D空间，再投影到第一帧的相机平面，从而消除摄像机运动对轨迹的影响。

第二阶段是"运动分解"。研究团队使用Qwen3视觉语言模型对视频内容进行理解，让它识别哪些是主动物体（比如人、手、机器人），哪些是被动物体（比如被操作的工具或被推动的物品），然后用SAM2视频分割模型对这些物体进行帧级别的精确分割，生成主动/被动物体的掩码，从而把轨迹也分配到对应类别。与此同时，系统还会生成针对每个视频的文字描述，并在训练时只提供其中一类运动的文字描述，防止AI靠文字"作弊"来绕过因果推理。

第三阶段是"成对多视角数据合成"。研究团队先筛选出摄像机静止的视频（要求旋转误差不超过0.5度、平移不超过5毫米），然后用一个摄像机控制的视频到视频转换模型生成对应的移动摄像机版本，从而人工制造出"同一物体运动在不同摄像机下的成对视频"。为了增加摄像机多样性，系统还补充了轨道旋转、平移、推拉等基本摄像机操作，以及从真实视频中提取的动态摄像机轨迹。

除了合成数据，研究团队还设计了一套混合训练策略来引入大量真实视频。对于摄像机静止的真实视频，系统直接把它复制一份当作"目标流"输出，让AI学习如何把运动条件从第一个流传递到第二个流。对于同时包含摄像机和物体运动的真实视频，系统只对第二个流施加监督损失，第一个流的损失设为零，这样AI能接触到各种真实的摄像机和运动配置，提升泛化能力。研究团队还额外引入了SyncCamMaster生成的合成图形数据，进一步丰富摄像机多样性。

五、训练细节和推理流程：从粗到细，从简到难

在具体训练中，MoRight采用了几种互补的数据增强策略来提升模型鲁棒性。首先是"多粒度运动丢弃"——不仅按主动/被动类型随机丢弃运动，还随机在像素级精细轨迹和物体级粗粒度轨迹之间切换，让AI既能处理精细的像素控制，也能处理粗略的物体级别操作指令。其次是"遮挡和轨迹丢弃"——随机遮掩部分轨迹点，模拟现实推理时可能遇到的遮挡和追踪失败情况，提高系统对不完整输入的容忍度。此外，训练时还会随机截断轨迹（只提供中间某帧之前的运动信息），模拟部分观测的场景。

整个系统建立在预训练的Wan2.1-14B视频生成模型之上，只对摄像机编码器、轨迹编码器和自注意力层进行微调，冻结其余网络参数。训练使用了64块GPU，共进行15000次迭代，批大小为16，学习率设置为每秒3×10^-5。轨迹条件的丢弃概率为0.1，文字条件的丢弃概率为0.2。在推理阶段，用户只需在第一帧图像上画几条稀疏的运动轨迹（简单的曲线或笔画），指定运动方向和幅度，再选择目标摄像机位姿序列，系统就会同时对两个流进行联合去噪，最终把第二流（目标视角）的输出呈现给用户。在推理时，系统还会利用第一帧深度信息进行遮挡感知处理，确保被遮挡物体的轨迹不会影响前景物体。

研究团队还开发了一个交互式图形界面，让用户可以在第一帧上直接绘制轨迹，同时独立设置摄像机运动模式（如轨道环绕、推近推远等），实时预览轨迹效果和遮挡关系，进行直观的场景编辑。

六、实验结果：和同行相比，表现如何

研究团队在三个评测数据集上测试了MoRight的性能：DynPose-100K（一个包含高动态摄像机运动的野外视频数据集，团队从中选取了50段有明显视角变化和物体交互的视频）、WISA（一个大规模物理动力学数据集，覆盖碰撞、形变、弹性、液体和刚体运动等类别，选取了50段视频）以及研究团队自行收集的50段真实烹饪视频（包含复杂的手-物体交互）。

评测指标涵盖四个维度：视频质量用PSNR和SSIM（与参考视频的相似度）以及FID和FVD（分布级别的相似度）来衡量；摄像机控制精度用旋转误差和平移误差来衡量；物体运动精度用终点误差（EPE，即预测轨迹终点与真实轨迹终点之间的像素距离）来衡量；运动真实性用VideoPhy提供的"物理常识得分"（PC）和"语义一致性得分"（SA）来衡量，两者都是0到1之间的归一化分数。

与之对比的基线方法包括Wan2.1（基础视频生成模型，无运动控制能力）、Gen3C（仅支持摄像机控制）、Motion Prompting（MP，接收密集像素轨迹作为运动控制信号）、ATI（任意轨迹指令控制视频生成）以及WanMove（通过潜在轨迹引导进行运动控制）。重要的是，后三种方法都需要提供包含前景和背景所有像素的完整运动轨迹，相当于拥有"特权信息"，而MoRight只需要在第一帧上定义稀疏的规范视角轨迹，不需要未来帧的轨迹信息。

在摄像机和物体运动联合控制的评测中，WanMove在DynPose-100K数据集上总体成绩最好，MoRight略微落后——主要原因是高动态摄像机运动下，摄像机位姿估计和轨迹重投影的误差会影响输入控制信号的质量。尽管如此，MoRight在物体运动精度（EPE）上达到了与需要特权信息的方法相当甚至更好的水平，而在烹饪数据集上，MoRight则在视频质量和运动控制精度两个维度上都取得了最佳整体表现。值得一提的是，ATI和WanMove由于把摄像机和物体运动捆绑在同一个追踪信号里，在高动态场景中往往会偏向主导的运动模式，有时牺牲摄像机精度，有时牺牲物体追踪精度。

在物理交互生成的评测中，MoRight的表现更为突出。在WISA数据集上，MoRight获得了最高的物理常识得分（0.76），而MP、ATI和WanMove的得分均为0.75或更低。在烹饪数据集上，MoRight同样取得了最高的物理常识得分（0.88）和最低的FID（39.94）、FVD（730.46）。语义一致性得分方面，由于MoRight只接收主动运动描述而不提供被动效果的文字描述（为了避免作弊），它的得分略低于那些使用完整描述的方法，但差距极小，仍在可比范围内。

七、人类主观评测：真实用户如何选择

为了更直观地验证效果，研究团队还进行了一项人类感知评测研究。他们从三个测试数据集中随机抽取了30个案例，邀请11位参与者对不同方法的生成结果进行盲评，三类视频以随机顺序展示，避免位置偏差。参与者从"可控性"（物体和摄像机运动与输入的一致程度）、"运动真实性"（交互的物理合理性）和"照片真实感"（视觉质量）三个维度选出最好的结果，允许多选或选择"无一满意"。过滤掉不可靠提交后，共收到330份有效评测。

结果显示，MoRight在三个维度上均获得了超过一半的偏好票：可控性53.5%，运动真实性54.6%，照片真实感55.9%。ATI的三项得分分别为18.8%、18.2%和17.4%，WanMove分别为25.0%、25.7%和23.1%。要知道，ATI和WanMove都使用了包含完整前景背景轨迹的特权信息，而MoRight只用了第一帧的主动轨迹。这一对比说明，拥有更多输入信息并不必然带来更好的生成效果，系统对运动的理解方式和架构设计才是关键。

八、消融研究：每个设计选择是否真的有用

研究团队还对MoRight的各个设计决策进行了系统性验证，通过在烹饪数据集上对比不同变体来确认每个模块的实际贡献。

第一个对比是"级联流水线"——把双流并行设计换成先生成静态摄像机视频、再用Gen3C风格的摄像机控制器移动摄像机的两阶段串联方案。结果显示，这种方案引入了两个阶段之间的误差累积，导致控制精度明显下降。

第二个对比是"去掉固定视角分支"——只用动态摄像机视频训练，并把重投影轨迹和摄像机嵌入联合编码，去掉规范视角这个锚点。结果显示，模型在摄像机精度和物体追踪精度上都出现了大幅下滑，证明规范视角分支是双流解耦成功的关键。

第三个对比是"去掉因果推理"——在训练时不进行主动/被动运动分解。结果显示，FID/FVD上升，物理常识得分下降，交互质量明显劣化，说明因果推理模块是改善物理合理性的核心。

第四个对比是"只用成对数据训练"——不加入单视角真实数据的混合训练。结果显示，摄像机控制精度略有下降，原因是成对合成数据集的摄像机多样性有限。这验证了混合训练策略对提升泛化能力的必要性。

在运动输入配置的鲁棒性测试中，研究团队分别测试了粗粒度物体级轨迹、细粒度像素级轨迹、仅主动运动输入和仅被动运动输入四种条件。结果显示，性能在各种配置下保持稳定，证明MoRight能灵活应对不同粒度和类型的运动输入，而不是只能在特定输入格式下工作。

九、局限性：哪些地方还做不好

研究团队对系统的局限性进行了坦诚的分析。第一，系统可能出现错误的因果推理，导致不合理的结果，比如两根烤串在运动过程中神奇地合并成一根。第二，当输入轨迹因遮挡而在时间上变得稀疏时，生成的运动可能会不自然，比如手在遮挡后出现异常的运动模式。第三，生成的运动有时会违反物理一致性，比如足球在运动过程中突然消失。第四，在视频后期帧中可能会出现幻觉内容，比如凭空多出一只手。此外，系统对极端快速或大幅度的摄像机运动（如剧烈的自我运动）的处理能力有限，当摄像机运动过于剧烈时，生成的交互动态质量会明显下降。

说到底，MoRight做的是一件之前大家都觉得很难的事情：既让AI的"眼睛"（摄像机视角）和"手"（物体运动）各自独立受控，又让AI真正理解"因为手推了，所以杯子才滑动了"这种最基本的物理逻辑。

这件事的意义远不止于好看的演示视频。对于做具身智能的研究者来说，能够预测"我执行这个动作，环境会怎么变化"是机器人理解世界的核心能力之一；对于想要创作沉浸式内容的创作者来说，能够在一张参考图上自由指定物体运动方向并切换观察角度，而不需要专业3D建模知识，是真正降低了创作门槛；对于未来的世界模型研究，这种能够同时建模"视角"和"交互后果"的系统，提供了一种更接近人类感知方式的视频生成路径。

当然，MoRight还有明显的局限，幻觉内容、物理不一致、极端摄像机运动处理等问题都需要进一步解决。单次视频生成在A100 GPU上大约需要15分钟，也还不够实用。但作为一个研究性框架，它清晰地证明了"把运动拆开来理解"和"教AI懂因果"这两个方向是有效的。有兴趣深入研究的读者，可以通过arXiv编号2604.07348查阅完整论文和补充材料。

Q&A

Q1：MoRight和普通AI视频生成系统的最大区别是什么？

A：MoRight最大的区别在于两点：一是它能把摄像机的移动和画面里物体的运动分开独立控制，不会互相干扰；二是它能理解因果关系，比如用户指定"手往前推"，系统会自动生成被推物体的合理反应，而不需要用户提前把所有物体的运动都画出来。普通系统通常只能跟随预设轨迹，不理解"为什么会这样动"。

Q2：MoRight的逆向推理功能具体怎么用？

A：逆向推理是指用户指定想要的"结果"，系统反推出"原因"。比如用户画出一个球应该朝左飞的轨迹，MoRight会自动推断是什么样的踢球动作导致了这个结果，并生成包含这个踢球动作的完整视频。用户不需要知道具体是哪只脚怎么踢，只需要描述想要的最终效果。

Q3：MoRight需要用户提供哪些输入才能生成视频？

A：用户只需要提供一张参考图，然后在图上画几条稀疏的运动轨迹（比如画一条箭头表示"让这个物体往这个方向移动多远"），再选择摄像机运动模式（如推近、轨道旋转等），可以选择性地加一段文字描述。系统不需要未来帧的信息、不需要深度数据、不需要3D坐标，也不需要把所有像素的轨迹都画出来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.