复旦大学与腾讯联手，让AI学会"看图说路"|轨迹|镜头|摄像机|知名企业

分享至

这项研究由复旦大学、腾讯、厦门大学和上海交通大学联合完成，论文于2026年4月挂载于预印本平台arXiv，编号为arXiv:2604.09201v1，分类为计算机视觉领域（cs.CV）。有兴趣深入了解的读者可以通过该编号查询完整论文。

你有没有试过给视频编辑软件描述"摄像机缓缓向前推进，同时向右转"，然后发现软件完全不理你？或者相反，你想让视频自动生成一个"电影感镜头"，却必须自己手动输入一堆枯燥的数字参数？这正是当今视频生成技术面临的一个尴尬困境——要么给软件"说话"，它听不懂；要么软件能控制摄像机，但你得像工程师一样手动填写坐标。

这支由复旦大学和腾讯牵头的研究团队，决心从根本上解决这个问题。他们提出了一个叫做CT-1（Camera Transformer 1，摄像机变换器第一代）的全新模型，让机器能够真正"读懂"用户的意图，并自动规划出符合场景的摄像机运动路径，最终生成高质量的可控视频。

一、为什么摄像机控制这么难？

拍电影时，摄影师的工作不只是按下录制键。他们要根据场景内容、故事氛围和导演意图，精心设计摄像机的每一个动作——是缓慢推进营造紧张感，还是快速平移跟踪奔跑的主角，抑或是绕着一个建筑物弧形运动来展示宏大视角。这套技能需要多年经验积累，而且和"看图"的能力密切相关：同样是"靠近拍摄"，对着一只猫的特写和对着一座摩天大楼的俯拍，摄像机该怎么动，完全不同。

现有的AI视频生成方法大体分两类。第一类是用"文字指令"来控制，比如直接告诉系统"摄像机向左移"，但这类方法就像对着一个听觉不太好的人大声说话——它能模糊地感知你的意思，但很难精确执行。研究团队测试了当时最先进的Wan2.2模型，发现它经常对"向右横移同时向后拉远"这类复杂指令完全无动于衷，生成的视频里镜头纹丝不动。第二类方法则要求用户直接输入精确的摄像机坐标参数，这就好比你想让朋友帮你搬一把椅子，却要先给他一份标注了厘米精度的工程图纸——门槛极高，普通人根本无从下手。

这两种方法之间有一条巨大的鸿沟：一边是"说了也没用"，另一边是"太专业用不了"。CT-1的目标，就是在这两者之间架起一座桥梁。

二、CT-1的核心思路：让AI像摄影师一样"看图规划路线"

研究团队提出了一个新颖的概念框架，叫做"视觉-语言-摄像机模型"（Vision-Language-Camera Model，简称VLC模型）。这个名字听起来有些绕，但道理其实很直白：给AI同时看一张参考图片，再配合一段文字描述（比如"摄像机沿着街道向前移动，慢慢靠近高楼"），让AI综合这两种信息，自动推算出一条合理的摄像机运动路径，然后再把这条路径交给视频生成系统，驱动它输出对应的视频。

可以用一个生活场景来理解这个过程。假设你要从家里导航去一个陌生的地方，你会先看看地图（对应"看图"），再根据"去市中心那个有大钟楼的广场"这个描述（对应"理解文字"），然后规划出一条具体的行驶路线（对应"预测摄像机轨迹"），最后按照这条路线开车过去（对应"生成视频"）。CT-1做的，正是这套"导航员"的工作，只不过它导航的是摄像机在三维空间里的运动。

这个思路之所以重要，在于它解决了一个过去被忽视的问题：摄像机该怎么动，不只取决于你"说了什么"，还取决于"场景长什么样"。在一条狭窄的胡同里和在一片开阔的草原上，即使你给出同样的"向前推进"指令，合理的摄像机路径也应该截然不同。CT-1通过同时处理图像和文字，让这种场景感知成为可能。

三、CT-1的内部构造：三个紧密协作的"部门"

CT-1的内部架构可以比作一家运作高效的制片公司，里面有三个部门各司其职，最终共同完成一部视频的制作。

第一个部门是"视觉+语言理解组"。这个组的任务是把输入的图片和文字转化为机器能处理的信息。图片部分，他们同时使用了两套视觉识别工具：一套叫DINOv2，擅长捕捉图片里的细节纹理，比如砖墙的缝隙、叶子的脉络；另一套叫SigLIP，更善于理解高层次的语义，比如"这是一个繁忙的十字路口"。两套工具的结果拼合在一起，就像同时用放大镜和望远镜观察场景——既看到了细节，又看到了全局。

文字部分，团队采用了LLaMA-2这个强大的语言模型来理解用户的描述。最关键的设计是，他们在文字序列里加入了一个特殊的"摄像机感知标记"（用符号表示）。这个标记就像一个专门负责摄像机事务的"代理人"，它在处理过程中会从图片信息和文字信息中汇集与摄像机运动相关的核心内容，形成一个浓缩的"摄像机意图摘要"，传递给下一个部门。

第二个部门是"轨迹规划组"，也就是摄像机变换器本身。它的任务是根据前一个部门传来的"摄像机意图摘要"，生成具体的摄像机运动轨迹——也就是摄像机在每个时间点的位置和朝向。

这里有一个非常有意思的设计选择。过去很多类似的AI任务，都是让模型直接输出一个固定的答案，好比让人猜一个唯一正确的数字。但摄像机轨迹这件事，本来就没有唯一正确答案：同样是"缓缓推进靠近主角"，摄像机可以从正面推，也可以从左前方斜推，甚至可以先稍微上升再推，这些都是合理的选择。

正因如此，研究团队选择了一种叫"扩散变换器"的方法来生成轨迹。这种方法的工作原理，类似于雕塑家从一块原石中逐步打磨出作品：一开始先生成一个模糊、带噪声的轨迹，然后一步步去噪、修正，最终得到一条平滑、合理的摄像机路径。这种方法天然支持"同一个输入，每次可以生成不同但都合理的轨迹"，非常适合摄像机运动这种本质上多解的任务。

第三个部门是"视频生成组"。它接收到规划好的摄像机轨迹之后，以此为控制信号，结合参考图片和文字描述，生成最终的视频。研究团队在主要实验中使用了一个叫CameraNoise的视频扩散模型作为这个部门的主力工具，同时也验证了把CT-1的轨迹输出接入CameraCtrl和MotionCtrl等其他模型同样有效。

这三个部门之间采用了"模块解耦"的设计，意思是CT-1负责规划路线，视频生成模型负责"开车"，两者可以灵活替换组合，不需要改动彼此的核心结构。

四、一个关键创新：用"音乐频率分析"的思路来优化摄像机路径

在训练CT-1的过程中，研究团队发现了一个有趣的现象，并由此发展出一项重要的技术创新。

摄像机的运动轨迹，其实和音乐信号有着相似的结构。音乐里有低频的"基调"（比如大提琴的沉稳旋律）和高频的"装饰"（比如小提琴的快速颤音）。摄像机轨迹同样如此：低频部分代表摄像机的整体运动方向和大致路径，高频部分则捕捉细微的抖动和快速的局部调整。

研究团队对1000段摄像机轨迹做了系统分析，发现了几个规律。低频成分主导了摄像机运动的能量分布，也就是说，轨迹的"大方向"基本由低频决定；仅靠低频成分就能以很小的误差重建出原始轨迹的整体形状；高频成分则对应那些快速、局部的运动变化，如果高频成分过多过强，往往意味着轨迹不够稳定，出现了不必要的"手抖感"。

基于这些发现，他们设计了一种叫"小波正则化损失"（WavReg）的训练策略。"小波"是一种数学工具，可以把一段信号分解成不同频率的成分，类似于把一首乐曲拆解为不同乐器的声部。在训练过程中，WavReg会额外检查模型生成的轨迹在各个频率层面是否合理：低频成分应该准确捕捉整体运动趋势，高频成分不应该出现无意义的剧烈波动。为了反映"低频更重要"这一事实，低频成分在损失计算中被赋予更高的权重。

这个策略的效果相当显著。实验数据显示，在不同的权重参数（β）设置下，β=0.1时模型表现最佳。完全去掉WavReg（β=0），或者把它的权重调得过大（β=1.0），都会导致性能下降。这说明WavReg提供的频率感知监督，确实在引导模型学习更平滑、更物理合理的摄像机运动方面发挥了独特作用，而不仅仅是一个普通的平滑约束。

五、训练数据从哪来？——CT-200K数据集的建造工程

巧妇难为无米之炊。要训练一个能理解场景、理解语言、还能规划摄像机路径的模型，必须有大量高质量的配对数据：视频、对应的摄像机描述文字、以及精确的摄像机轨迹参数。而现有的公开数据集，恰恰缺乏这种三位一体的标注。

研究团队因此自己动手，构建了一个叫CT-200K的大规模数据集，包含超过20万个样本、累计超过4700万个视频帧。整个数据集分为两大类型，各自有一套精心设计的构建流程。

第一类是"日常场景"数据。团队从Pexels-400K和DynPose-100K等高质量视频数据集出发，首先用光流分析过滤掉那些镜头基本不动的视频（过于静态）和镜头抖动过于剧烈的视频（过于混乱），保留摄像机运动适中、清晰的片段。随后，他们用视频理解AI提取每段视频的"摄像机运动描述"，用图像理解AI提取对应帧的"画面内容描述"，然后用语言模型做一次"交叉核验"：把画面里实际没有出现的内容从摄像机描述中删除。这一步看似简单，却非常关键——视频AI经常会"想象"出一些实际没发生的内容，这种过滤能确保描述的真实性和准确性。

第二类是"空间推理场景"数据。这类数据专门用于训练模型在需要理解空间关系时做出正确的摄像机运动判断。数据来源是一些以第一人称视角拍摄的日常操作视频，比如工人在工作台上移动工具的场景。一个典型例子是：画面里有一个工具箱、一个圆罐、一把手工具和一把电钻，当操作者把工具箱从桌子右下角移到左上角时，头戴摄像机的视角也随之发生对应的位移。研究团队构建了这样的配对数据，文字描述不直接说"摄像机向左移"，而是用"把工具箱移到电钻右边"这样更贴近自然语言的表达。这样的数据让模型学会从场景中的物体关系去推断摄像机该怎么动，大幅提升了模型在复杂场景下的空间推理能力。

摄像机轨迹参数的标注，则借助了一个叫VGGT的视觉几何模型来自动完成。VGGT在室内外场景中的摄像机姿态估计精度高达93.5%，非常适合用来给没有标注的视频自动打上摄像机参数标签。整个CT-200K最终包含约12万个日常场景样本和约8万个空间推理场景样本。

六、实验结果：CT-1的实际表现如何？

研究团队在一个叫CameraBench100的标准评测集上进行了全面测试。这个评测集包含100个样本，涵盖六种典型摄像机运动类型：向前推进、向左平移、向右横移、向下倾斜、常规速度运动和复杂混合运动，场景覆盖日常生活、电影拍摄和虚拟环境等多种类型。

评测的核心指标是"成功率"——也就是由两位专业评估员各自独立打分，当且仅当两人都认为生成的视频正确执行了指令中描述的摄像机运动时，才算成功。这种双人一致性判断的方式，既严格又贴近实际使用体验。

结果相当亮眼。CT-1在六种摄像机运动类型上的平均成功率达到81.6%，而当时表现最好的提示词输入类模型Wan2.2（使用了专门扩展的提示词）仅为64.9%，CT-1相对提升了25.7个百分点。对于那些需要先用AI估计轨迹再生成视频的方法，CT-1的提升幅度更是分别达到171.1%（相对于最好的视觉语言模型方案）和245.8%（相对于最好的自回归方案）。

在视频质量方面，研究团队同时用VBench工具评估了画面的美学质量、图像质量、运动平滑度和动态程度。CT-1在美学质量（0.585）、图像质量（0.709）和运动平滑度（0.990）上均超越了所有对比基线，动态程度（0.830）也处于领先位置。这意味着CT-1生成的视频不仅摄像机运动更准确，画面本身的质量也有保障，不存在"为了控制摄像机而牺牲画质"的情况。

在一些特别具有挑战性的场景中，对比效果尤为明显。比如面对"摄像机平稳向后退的同时向右横移"这种复合运动指令，CogVideoX和LTX-Video都生成了几乎静止的画面，Wan2.2则产生了错误方向的摄像机运动，而CT-1能够正确地同时执行"后退"和"右移"两个维度的运动。在面向非光写实风格的卡通场景时，CT-1同样保持了良好的表现，证明它不是只能处理特定类型的图像。

七、让CT-1学会"读心"的深度推理实验

除了标准的摄像机指令测试，研究团队还专门设计了一组"深度推理"实验，目的是验证CT-1是否真的理解了场景内容，而不只是在机械地执行文字指令。

在这组实验中，文字描述刻意不直接说摄像机该往哪走，而是给出需要结合画面才能理解的隐含线索。比如："摄像机朝着画面中那面贴了海报的墙移动"——要理解这句话并规划正确的轨迹，模型必须先在图片里找到有海报的墙在哪里，然后才能确定摄像机该往哪个方向运动。又比如："摄像机沿着画面中那人的手指方向延伸"——同样需要先识别人物、找到手的朝向，再推断出摄像机运动的方向。

这类推理任务对人类来说并不困难，但对AI而言相当有挑战性，因为它要求模型真正"看懂"画面，而不是只会对文字做模式匹配。实验结果显示，CT-1在这些场景中能够合理地推断出摄像机路径，说明联合视觉和语言训练确实让模型具备了一定程度的空间推理能力。

八、一系列消融实验：每个设计选择都有依据

研究团队并不满足于展示最终结果，他们还做了大量"如果去掉某个设计，性能会怎么变"的对比实验，用来验证每个设计选择的必要性。

关于模型规模，团队训练了三个不同大小的CT-1版本：Base（3300万参数）、Large（1.3亿参数）和Huge（4.58亿参数）。随着规模增大，各项指标持续提升：Huge版本的图像质量（0.708）和复杂运动成功率（81.5%）均明显优于Base版本（0.623和64.8%）。这种规律和大型语言模型、视觉模型的"规模定律"高度一致，说明CT-1有继续扩大规模获得更好性能的潜力。

关于轨迹生成方式，团队对比了三种不同的轨迹生成范式。直接用高斯回归输出固定轨迹的方案，在复杂运动上的成功率只有76.8%；用自回归方式逐步预测轨迹的方案达到79.4%；而CT-1采用的扩散变换器方案达到了81.5%，同时美学质量也最高。扩散方式的优势在于它从不试图给出唯一答案，而是从分布中采样出合理的解，避免了回归方法容易产生的"平均化"和自回归方法容易出现的"误差累积"问题。

关于摄像机感知标记的设计，对比实验显示：只用文字输入不用图片，成功率仅41.7%；只用图片不用文字，成功率更低至40.4%；同时使用图片和文字但不用特殊的标记，成功率提升到82.8%；而完整的标记设计达到了87.6%。这说明图像和文字的联合处理缺一不可，而专门设计的摄像机感知聚合机制在此基础上还能进一步带来性能提升。

关于数据组成，CT-200K中"日常场景"和"空间推理场景"的组合使用，比单独使用任何一类都要好。单用日常场景数据时，复杂运动成功率为70.7%；单用推理场景数据时为73.9%；两类数据组合使用（CT-200K完整版）则达到77.8%。两类数据在训练信号上形成了互补，日常场景提供了大量摄像机运动的多样性，推理场景则强化了对空间关系的深度理解。

关于频率正则化方法的比较，研究团队把WavReg和其他几种常见的轨迹平滑方法做了对比：速度正则化（81.6→84.1）、加速度正则化（→85.7）、抖动惩罚（→86.5）、低通滤波正则化（→87.0），以及WavReg（→87.6）。WavReg在所有对比中表现最优，说明它比简单的平滑约束更能准确地区分"有意义的运动变化"和"不必要的抖动噪声"。

九、计算成本：CT-1到底需要多少资源？

对于实际应用而言，一个方法再好，如果计算成本高得离谱，也难以落地。研究团队对此做了专门的分析。

在单张英伟达GPU上进行推理时，CT-1预测一段13步摄像机轨迹（对应49帧视频）需要约22.81秒、占用约28.91GB显存；而后续的视频生成步骤则需要约429.02秒、占用39.48GB显存。CT-1的推理开销约占整个流程总时间的5.3%，属于非常轻量的额外成本。换句话说，绝大部分的计算资源仍然花在视频生成本身，CT-1作为"导航员"的工作量相当精简高效。

统计稳定性方面，研究团队在CameraBench100上进行了自举重采样（bootstrap）和多次随机子集评估，结果显示CT-1的81.6%成功率不是偶然——在20次不同随机子集测试中，CT-1每次都超过了对比基线Wan2.2，胜率为100%。在200个和300个样本的更大评测集上，优势同样稳定保持。

用户偏好研究也支持了这些定量结论。研究团队邀请人类评估员对CT-1与CogVideoX、LTX-Video和Wan2.2生成的视频进行配对比较，从帧级画质、摄像机控制准确性、运动真实感和整体视频质量四个维度打分。CT-1在所有维度上均获得了最高的人类偏好得分。

归根结底，CT-1这项研究说明了一件很重要的事：要让AI真正理解"该怎么拍这个场景"，光靠文字理解或光靠图像理解都不够，必须让两者深度结合，并在此基础上建立一套能学习摄像机运动分布规律的生成机制。就像一个优秀的摄影师，既要读懂导演的意图（语言），又要感知眼前的场景（视觉），才能规划出真正合适的镜头运动。

这套方法目前已经可以处理日常场景、电影场景、虚拟场景甚至驾驶场景，并且能接入多种不同的视频生成后端。随着模型规模进一步扩大、训练数据进一步丰富，这条路线有望让"用自然语言控制视频摄像机"这件事变得像发一条语音消息一样简单。对于内容创作者、电影工作者和世界模型的开发者来说，这无疑是一个值得持续关注的方向。有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.09201查阅完整论文。

Q&A

Q1：CT-1模型在实际使用中需要用户做什么？

A：使用CT-1时，用户只需提供两样东西：一张参考场景图片，以及一段描述摄像机运动意图的文字，比如"摄像机沿街道向前推进，逐渐靠近远处的建筑"。CT-1会自动分析图片内容和文字意图，规划出摄像机轨迹，再交由视频生成模型输出最终视频，全程不需要用户手动填写任何坐标参数。

Q2：CT-200K数据集和普通视频数据集有什么区别？

A：普通视频数据集通常只有画面内容，缺少摄像机运动的文字描述和精确的轨迹参数标注。CT-200K特别针对这一缺口构建，每个样本都包含视频帧、摄像机运动的自然语言描述，以及由VGGT模型自动标注的摄像机位姿参数，还专门加入了需要空间推理才能理解的场景数据，总计超过20万样本、4700万帧。

Q3：小波正则化损失WavReg和普通的平滑约束有什么本质区别？

A：普通的平滑约束（比如对速度或加速度加惩罚）会均匀地压制所有快速变化，包括那些本来就应该有的快速转向。WavReg通过小波变换把轨迹分解成不同频率层次，对低频（整体运动趋势）和高频（细节抖动）分别施加不同强度的约束，低频部分权重更高，从而在保留合理运动细节的同时，有效抑制不必要的抖动，比粗暴的全频平滑更精准。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.