网易首页 > 网易号 > 正文 申请入驻

DualCamCtrl:给视频生成装上「深度相机」,让运镜更「听话」

0
分享至



本研究的共同第一作者是来自于香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。

你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹?

当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍需隐式推断三维结构,本质上仍缺乏对场景的显式几何理解。这一局限性导致了相机运动的不一致——模型受限于外观与结构两种表征信息的耦合,无法充分捕捉场景的底层几何特征。

鉴于上述挑战,来自香港科技大学、复旦大学等机构的研究团队提出了一种全新的端到端几何感知扩散模型框架 DualCamCtrl。该研究针对现有方法在场景理解与几何感知方面的不足,创新性地设计了一个「双分支扩散架构」,能够同步生成与镜头运动一致的 RGB 与深度序列。进一步地,为实现 RGB 与深度两种模态的高效协同,DualCamCtrl 提出了语义引导互对齐机制(Semantic Guided Mutual Alignment),该机制以语义信息为指导,在双向的交互中实现了更好的模态融合。

这些设计使 DualCamCtrl 能够更好地解耦外观与几何建模,从而生成更严格遵循指定相机轨迹的视频。大量实验表明,DualCamCtrl 在相机运动一致性方面显著优于现有方法,相机运动误差降低超过40%



  • 论文标题:DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
  • 项目主页:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
  • 论文链接:https://www.arxiv.org/abs/2511.23127
  • Github 仓库:https://github.com/EnVision-Research/DualCamCtrl
  • Huggingface 模型:https://huggingface.co/FayeHongfeiZhang/DualCamCtrl



双分支几何感知扩散模型



总体而言,DualCamCtrl 巧妙地采用了双分支视频扩散框架(Dual Branch Video Diffusion Framework),其中一条分支负责生成 RGB 表示,另一条分支负责生成深度表示,两种模态通过提出的SIGMA机制进行融合。

该设计使得模型能够从单张输入图像及其对应深度图中,同步推断出视频级别的 RGB 与深度隐空间表征(Latent Representation),不仅最大限度降低了模态间的相互干扰,更使深度信息得以贯穿整个视频生成过程,实现连贯的几何引导。

SIGMA 机制以及双阶段训练

在多模态可控视频生成任务中,训练与融合策略是关键。DualCamCtrl 的核心设计正是基于这一认识,包含两部分:一是提出语义引导互对齐(SIGMA)融合机制,促进 RGB 与深度模态在生成过程中的有效协同;二是采用分阶段训练策略——首阶段学习解耦的多模态表征,次阶段专注跨模态融合建模。

该设计使模型在复杂相机运动下,能同时保持外观连贯与三维几何准确,实现几何感知的可控生成。

语义引导互对齐机制



图3. SIGMA融合策略的动机与优势对比示意图。

基于双分支框架,RGB 分支与深度分支分别生成对应的视频序列和对应深度序列。尽管两者输入相同,但它们独立演化易导致输出不一致,因此需要有效的融合与对齐策略(图 3.a)。

然而该团队发现:单向对齐(One-Way Alignment)易损失语义一致性,几何引导对齐(Geometry-Guided Alignment)则过度强调几何表征而破坏了运动的一致性。为此,该团队提出了语义引导互对齐机制(SIGMA)

SIGMA 采用语义引导的双向设计:浅层以 RGB 特征锚定语义结构,深层则引入深度反馈优化几何表达。该方法基于两个 key insights(图 3.b、3.c):

  • 语义优先的重要性:外观特征应在早期占主导地位以保持语义的稳定,而深度信号作为后期补充来优化几何结构。
  • 双向交互的重要性:两分支相互反馈可避免单向对齐的失衡,实现更稳定的隐空间表征对齐。

分阶段训练策略

为实现 RGB 与深度模态稳健生成与有效协同的目标,DualCamCtrl 采用分阶段训练策略(Two-stage training),为每个阶段的学习设置不同侧重点:

  • 解耦训练阶段(Decoupled Stage):核心目标是使 RGB 与深度分支分别专注学习外观与几何表征。为此,模型使用共享预训练权重初始化,并利用 state-of-the-art (SOTA) 视频深度估计模型Video Depth Anything生成的深度特征进行监督。此阶段禁止模态间交互,确保表征演化的独立性。
  • 融合训练阶段(Fusion Stage):在两个分支具备基础能力后,核心目标转向实现外观与几何信息的互补增强。为此,模型引入零初始化的融合模块,逐步建立跨模态交互,并通过联合优化 RGB 与深度目标函数,实现多模态表征的对齐与协同。



图2:两阶段训练的效果:单阶段模型因无法充分收敛(上图),导致其相机轨迹对齐效果欠佳(下图)。这凸显了先解耦学习外观与几何表征的两阶段策略的有效性。

实验结果

在定量和定性比较中,DualCamCtrl 在各项指标上均显著优于当前的 SOTA 方法。

定性分析:



在相同输入条件下,DualCamCtrl 在相机运动的对齐效果和视频生成的视觉效果上均显著优于现有先进方法。图中“+”标记为视觉对比的定位参考点。

定量分析:



Image to Video 定量分析结果



Text to Video 定量分析结果

总结

DualCamCtrl 提出了一种集成深度信息的双分支视频扩散模型,实现了更精准的相机控制视频生成。通过引入语义引导互对齐机制(SIGMA)与两阶段训练策略,该模型有效同步了 RGB 序列与深度序列的生成和融合,显著增强了模型的几何感知能力。实验表明,该方法在相机一致性误差上比先前方法降低超过 40%,为相机控制视频生成提供了新的技术思路,并有望推动其他可控视频生成任务的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA最新排名!东部第二38分惨败,快船结束连败,湖人火箭收大礼

NBA最新排名!东部第二38分惨败,快船结束连败,湖人火箭收大礼

鱼崖大话篮球
2026-02-07 14:12:04
川普发文:恭喜美国!

川普发文:恭喜美国!

华人生活网
2026-02-07 04:48:13
报复已经开始,高市通知中国,日本不服,话音刚落中方反将一军

报复已经开始,高市通知中国,日本不服,话音刚落中方反将一军

情系雨樱花叶
2026-02-06 08:38:27
25名女子赴港卖淫被抓:最小的仅年16岁,一次时长不限,价格曝光

25名女子赴港卖淫被抓:最小的仅年16岁,一次时长不限,价格曝光

博士观察
2026-02-07 14:20:40
原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

原来有这么多不体面但挣钱的小生意!原来都是闷声发大财啊!

另子维爱读史
2025-12-06 22:09:07
中方警告后不到24小时,双管齐下反击,巴拿马数十亿投资或打水漂

中方警告后不到24小时,双管齐下反击,巴拿马数十亿投资或打水漂

回京历史梦
2026-02-07 15:09:39
突发!浓眉宣布赛季报销!奇才全力冲击状元签

突发!浓眉宣布赛季报销!奇才全力冲击状元签

鬼魅突破上篮
2026-02-07 13:53:20
搬迁已定!李亚鹏点名感谢董宇辉那英,低调反被骂,网友太双标了

搬迁已定!李亚鹏点名感谢董宇辉那英,低调反被骂,网友太双标了

观察鉴娱
2026-02-06 09:29:21
大连银行1.8亿理财只剩44万,最高法划红线,“先刑后民”不能成挡箭牌

大连银行1.8亿理财只剩44万,最高法划红线,“先刑后民”不能成挡箭牌

新民周刊
2026-02-06 14:11:34
外媒:议会选举中,高市早苗取得压倒性胜利。她压倒哪些男人?

外媒:议会选举中,高市早苗取得压倒性胜利。她压倒哪些男人?

我心纵横天地间
2026-02-07 13:59:45
就这还是日乒最强?申裕斌1-2落后逆转桥本 削球手进攻软肋太明显

就这还是日乒最强?申裕斌1-2落后逆转桥本 削球手进攻软肋太明显

颜小白的篮球梦
2026-02-07 12:49:53
不会提建议就别提了

不会提建议就别提了

屠龙乔治
2026-02-06 16:46:55
“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

“被亏待的人就这面相”,大二女生视频火了,不被爱的痕迹太明显

妍妍教育日记
2026-02-06 20:18:00
全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

全球唯一一只不属于中国的熊猫,叫欣欣,吃不到竹子吃的是仙人掌

西楼知趣杂谈
2026-01-31 13:18:43
大胆预言台北选战结局,出身绿营的吴子嘉自爆100%会投蒋万安

大胆预言台北选战结局,出身绿营的吴子嘉自爆100%会投蒋万安

海峡导报社
2026-02-06 07:22:05
巴拿马想认错也没机会,中国3份檄文通告全球!一颗螺丝钉都不留

巴拿马想认错也没机会,中国3份檄文通告全球!一颗螺丝钉都不留

余們搞笑段子
2026-02-06 01:33:56
J罗谈加盟美职联:五个月后就是世界杯了,我容不得半点失误

J罗谈加盟美职联:五个月后就是世界杯了,我容不得半点失误

懂球帝
2026-02-07 09:41:04
太湖渔民的烦恼:毛叶鱼太多,其他鱼太少

太湖渔民的烦恼:毛叶鱼太多,其他鱼太少

冒泡泡的鱼儿
2026-02-07 10:10:20
李连杰再展雄心,揭示新身份背后的故事!

李连杰再展雄心,揭示新身份背后的故事!

小椰的奶奶
2026-02-07 15:33:33
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
2026-02-07 16:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12265文章数 142564关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

头条要闻

媒体:中美元首定调 特朗普不踩"红线"美欧对台态度变了

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

游戏
健康
数码
艺术
军事航空

NS2版《生化9》表现一般?IGN:低配电脑也能爽玩

转头就晕的耳石症,能开车上班吗?

数码要闻

OpenAI首款AI硬件被曝名为Dime:耳机形态,有望今年发售

艺术要闻

江西省美协 | 2026年度作品展油画选刊

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版