网易首页 > 网易号 > 正文 申请入驻

妙笔生维:线稿驱动的三维场景视频自由编辑

0
分享至



刘锋林,中科院计算所泛在计算系统研究中心博士研究生(导师:高林研究员),研究方向为计算机图形学与生成式人工智能,在ACM SIGGRAPH\TOG,IEEE TPAMI,IEEE TVCG,IEEE CVPR等期刊会议上发表论文10余篇,其中5篇为第一作者发表于SIGGRAPH和CVPR,4篇论文收录于中科院一区期刊ACM Transaction on Graphics,第一作者研究工作连续两年入选SIGGRAPH亮点工作宣传片(Video Trailer)。曾获得国家奖学金、中国计算机学会CAD&CG凌迪图形学奖学金等荣誉。

随着移动摄影设备的普及,基于手机或相机等可以快速获取带有丰富视角变换的三维场景视频。如何高效、自由地编辑这些三维内容成为一个关键挑战。例如,在视频中无缝添加新物体、精准去除不需要的元素,或者自然替换已有部分,这些能力在虚拟现实 (VR)、增强现实 (AR) 以及短视频创作中具有广泛的应用前景。

然而,现有的经典方法,通常只能添加预定义的三维模型库中的物体,极大地限制了用户的个性化创意表达。更关键的是,让新加入的物体融入原有场景的光影环境,生成逼真的阴影,以达到照片级的真实感,是具有挑战性的难题。同样,移除物体后,如何合理地填补空缺区域并生成视觉连贯合理的内容,也需要更优的解决方案。

近期,研究人员提出了一种基于线稿的三维场景视频编辑方法Sketch3DVE[1],相关技术论文发表于 SIGGRAPH 2025,并入选 Video Trailer。它赋予用户基于简单线稿即可重塑三维场景视频的能力。无论是为视频场景个性化地添加全新物体,还是精细地移除或替换已有对象,用户都能通过绘制关键线稿轻松实现。



  • 论文标题:Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
  • 论文地址:https://dl.acm.org/doi/10.1145/3721238.3730623
  • 项目主页:
  • http://geometrylearning.com/Sketch3DVE/
  • Github:https://github.com/IGLICT/Sketch3DVE

此外,即使是单张静态图片,用户也能自由规划虚拟相机路径(指定相机轨迹),首先生成具有视角变化的动态视频,随后再进行任意编辑。

现在,就让我们一同探索 Sketch3DVE 如何将简单的线稿笔画,转化为重塑三维世界的钥匙!


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 1 基于线稿的三维场景视频编辑结果


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 2 视角可控的视频生成及编辑结果

Part 1 背景

近年来,视频生成基础模型(如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等)在文本到视频和图像到视频生成方面取得了显著进展。精确控制生成视频中的相机轨迹因其重要的应用前景而受到广泛关注。

现有方法主要分为两类:一类工作 [2, 3] 直接将相机参数作为模型输入,利用注意力机制或 ControlNet 结构来实现对生成视频视角的控制;另一类工作 [4, 5] 则从单张输入图像构建显式的三维表示(如 NeRF),通过指定相机轨迹渲染出新视角图像,并以此作为控制信号引导视频生成。

尽管这些方法能够生成视角可控的视频,如何对已存在的、包含大幅度相机运动的真实视频进行精确编辑,仍然是一个有待解决的研究问题。

视频编辑任务与视频生成有本质区别,它需要保持原始视频的运动模式与局部特征,同时根据用户指令合成新的内容。早期的视频编辑方法 [6, 7] 通常基于 Stable Diffusion 等图像扩散模型,对视频帧进行逐帧处理,并通过引入时序一致性约束来生成编辑结果。

进一步地,研究者开始利用视频生成模型进行编辑,例如一些方法 [8] 从输入视频中提取注意力特征图以编码运动信息,另一些方法 [9] 则采用LoRA对预训练视频模型进行微调以捕捉特定视频的运动模式。然而,这些方法主要擅长外观层面的编辑(如风格化、纹理修改),在几何结构层面的编辑效果较差,并且难以有效处理包含大幅度相机运动的场景。

线稿(Sketch)作为一种直观的用户交互方式,已被广泛应用于图像、视频和三维内容的生成与编辑中。基于线稿的视频编辑方法也已出现,例如VIRES[10] 通过优化 ControlNet [11] 结构实现了基于线稿引导的视频重绘,而SketchVideo[12] 则设计了一种关键帧线稿传播机制,允许用户仅提供少量帧(1-2 帧)的线稿即可编辑整个视频。

尽管如此,现有的基于线稿的视频编辑方法主要面向通用场景。如何处理包含显著相机视角变化的视频,并在编辑过程中保持新内容的三维几何一致性,仍是当前研究面临的关键挑战。

Part 2 算法原理



图 3 Sketch3DVE 的编辑流程和网络架构图

给定输入的三维场景视频后,用户首先选定第一帧图像。在该帧上,用户绘制一个掩码(Mask)标记需要编辑的区域,并绘制线稿(Sketch)来指定新物体的几何形状。

同时,用户输入文本描述来定义新物体的外观特征。系统采用MagicQuill[13] 图像编辑算法(或其他兼容的基于图像补全的编辑方法)处理第一帧,生成该帧的编辑结果。

随后,系统利用 DUSt3R [14] 三维重建算法处理整个输入视频,对场景进行三维分析。该方法输出第一帧对应的场景点云(Point Cloud)以及每一帧对应的相机参数(Camera Parameters),为后续的视频编辑传播提供几何基础。

接下来,需要将第一帧图像上的编辑操作传播到其对应的三维点云上。系统采用基于深度图的点云编辑方法:首先,使用 DUSt3R 或 DepthAnything [15] 等方法预测编辑后第一帧图像的深度图(Depth Map)。由于预测得到的是相对深度值,需要将其与原始场景的尺度对齐。

为此,系统利用掩码外部(非编辑区域)的像素,通过逐像素的对应关系计算深度值的平移和缩放参数。应用这些参数对预测深度图进行变换,并将编辑区域的深度值融合到原始场景的深度图中。最后,通过反投影(Back-projection)处理融合后的深度图,得到编辑后的三维点云。

为了减少用户交互,掩码只需在第一帧绘制。为了将第一帧的掩码精确传播到后续不同视角的帧上,系统设计了一个基于三维感知的掩码传播算法。

该算法在三维空间中构建一个网格模型来表示三维掩码(3D Mask):利用编辑前后帧提供的深度信息和相机参数,将每个像素位置反投影到三维空间,形成网格顶点;根据像素邻域关系连接这些顶点,构建出表示编辑区域前表面的网格面片;后表面则使用平面结构并通过侧面连接,最终形成一个封闭的三维网格模型。该三维掩码模型可根据不同帧的相机参数渲染出对应的二维掩码。

最后,系统构建了一个基于三维点云引导的视频生成模型,其思路类似于 [11, 12]。该模型在预训练的 CogVideoX 模型基础上,额外引入了一个条件控制网络。

该网络以三种信息作为输入引导视频生成:1) 编辑后的第一帧图像;2) 由编辑后点云渲染得到的多视角视频(提供三维几何一致性约束);3) 原始输入视频(但移除了掩码区域的内容,用于保持非编辑区域的时空一致性)。通过融合这些条件信息,模型最终输出具有精确三维一致性的场景编辑视频。

Part 3 效果展示

如图 4 所示,用户可以在首帧绘制线稿并标记编辑区域,该方法可以生成高质量的三维场景视频编辑结果,实现物体的添加、删除和替换等操作,所生成新的物体具有良好的三维一致性。


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 4 基于线稿的三维场景视频编辑结果

如图 5 所示,当视频中存在阴影和反射等较为复杂的情景时,由于该工作使用了真实视频作为数据集进行训练,也能在一定程度处理上述情况,并生成相对合理的视频编辑结果。


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 5 阴影和反射等情况的场景编辑效果

如图 6 所示,给定真实拍摄的三维场景视频后,用户可以标记指定编辑区域,并绘制颜色笔画指定新生成内容的外观。该工作可以生成较为真实自然的三维场景视频编辑结果。


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 6 基于颜色笔画的三维场景视频编辑结果

如图 7 所示,该工作也支持不以线稿作为输入,而直接使用图像补全方法对首帧进行编辑,相关编辑效果也可以合理应用至三维场景。


https://mp.weixin.qq.com/s/F305ZntQv15yu6XAf0uiLQ

图 7 基于图像补全方法的三维场景视频编辑结果

Part 4 结语

随着大模型和生成式人工智能的迅速发展,三维场景视频编辑问题也有了新的解决范式。传统的模型插入方法存在难以个性化定制、渲染结果不够真实、无法去除已有物体等问题。

Sketch3DVE 则提出了一种有效的解决方案,通过线稿定制化生成三维物体,合成高真实感的三维场景视频编辑效果,并支持基于单目图像的三维视频合成和二次编辑。

借助该方法,用户无需掌握复杂的专业三维处理和视频处理软件,也无需投入大量时间和精力,仅凭几笔简单的线稿勾勒,便可以将想象中的物体带到现实,构建出灵感和现实的桥梁。该项工作已经发表在SIGGRAPH 2025。

有关论文的更多细节,及论文、视频、代码的下载,请浏览项目主页。

参考文献:

[1] Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao*. “Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing.” In ACM SIGGRAPH. 2025.

[2] Zhouxia Wang, Ziyang Yuan, Xintao Wang, Yaowei Li, Tianshui Chen, Menghan Xia, Ping Luo, and Ying Shan. MotionCtrl: A Unified and Flexible Motion Controller for Video Generation. In ACM SIGGRAPH. 2024.

[3] Yuelei Wang, Jian Zhang, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, and Bo Li. 2024c. CPA: Camera-pose-awareness Diffusion Transformer for Video Generation. CoRR abs/2412.01429 (2024).

[4] Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, and Yonghong Tian. 2024. ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis. CoRR abs/2409.02048 (2024).

[5] Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, and Yuan Liu. 2025. Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control. CoRR abs/2501.03847 (2025).

[6] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-P2P: Video Editing with Cross-Attention Control. In IEEE CVPR 2024. 8599–8608.

[7] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation. In ACM SIGGRAPH, 2023. 95:1–95:11.

[8] Max Ku, Cong Wei, Weiming Ren,Harry Yang, and Wenhu Chen.2024. AnyV2V: A Plug and-Play Framework For Any Video-to-Video Editing Tasks. CoRR abs/2403.14468 (2024). [9] Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, and Xingang Pan. 2024a. I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models. In ACM SIGGRAPH Asia, Takeo Igarashi, Ariel Shamir, and Hao (Richard) Zhang (Eds.). 95:1–95:11.

[10] Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, and Boxin Shi. VIRES: Video Instance Repainting with Sketch and Text Guidance. IEEE CVPR 2024.

[11] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023.

[12] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” IEEE CVPR 2025

[13] Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, and Yujun Shen. 2024d. MagicQuill: An Intelligent Interactive Image Editing System. CoRR abs/2411.09703 (2024).

[14] Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, and Jérôme Revaud. DUSt3R: Geometric 3D Vision Made Easy. In IEEE CVPR 2024. 20697–20709.

[15] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. 2024b. Depth Anything V2. CoRR abs/2406.09414 (2024).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

奥拜尔
2026-01-16 21:04:36
尹锡悦涉内乱首案一审被判5年现场:其脸色涨红,不时叹气

尹锡悦涉内乱首案一审被判5年现场:其脸色涨红,不时叹气

南方都市报
2026-01-16 17:06:11
风暴眼丨实探西贝:贾国龙赌上一切,员工称“我们只能服从”

风暴眼丨实探西贝:贾国龙赌上一切,员工称“我们只能服从”

凤凰网财经
2026-01-16 21:11:28
西贝1.8万员工,求贾国龙闭嘴

西贝1.8万员工,求贾国龙闭嘴

五味财经
2026-01-16 16:04:46
男书记出轨女同事5年,要求原配连续道歉15天,原配天天曝新料!

男书记出轨女同事5年,要求原配连续道歉15天,原配天天曝新料!

天天热点见闻
2026-01-16 06:56:05
善恶终有报!移居英国仅2年,57岁吴秀波再迎噩耗,步李易峰后尘

善恶终有报!移居英国仅2年,57岁吴秀波再迎噩耗,步李易峰后尘

黎兜兜
2026-01-15 21:58:05
U23亚洲杯日本首次丢球!被轰远射世界波,5场0失球纪录告破

U23亚洲杯日本首次丢球!被轰远射世界波,5场0失球纪录告破

奥拜尔
2026-01-16 20:07:28
开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

开年大瓜!国产女优上岸成功嫁为人妻,拍短视频后遭恶语相向

社会酱
2026-01-16 16:54:49
多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

多地接连发生醉驾肇事致多死恶性事故,公安部提示:抵制酒驾

澎湃新闻
2026-01-16 11:05:12
47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

47岁贺娇龙去世后续!好友曝其婚姻现状,三任老公都离了,没孩子

180视角
2026-01-15 13:33:23
52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

52犯58罚!周琦伤退鬼才许利民瞎换人,张宁致胜中投山西复仇北京

后仰大风车
2026-01-16 22:00:20
泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

泽连斯基回应特朗普说其“阻挠达成俄乌和平协议”:俄罗斯发动袭击旨在破坏乌克兰能源系统,必须向俄施压

鲁中晨报
2026-01-16 18:55:02
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
曝浙江富豪俞兆洪去世,年仅48岁,心梗导致,每天坚持晨跑五公里

曝浙江富豪俞兆洪去世,年仅48岁,心梗导致,每天坚持晨跑五公里

裕丰娱间说
2026-01-16 17:23:47
“重大失误”!双一流高校发通报

“重大失误”!双一流高校发通报

南方都市报
2026-01-16 12:44:41
伊朗的乱局,可能才刚刚开始

伊朗的乱局,可能才刚刚开始

独角鲸工作坊
2026-01-16 14:02:22
罗永浩称自己对贾国龙“尽量忍”,贾国龙回怼:千万别忍,忍不是你性格,也不是我性格

罗永浩称自己对贾国龙“尽量忍”,贾国龙回怼:千万别忍,忍不是你性格,也不是我性格

极目新闻
2026-01-16 20:25:15
特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

特朗普为何最后一刻叫停打击伊朗?海湾多国向美施压,连以色列都劝“刹一脚”

红星新闻
2026-01-16 13:32:27
男单大爆冷!梁靖崑2:3被淘汰,遭遇一轮游,张本智和3:0获胜晋级

男单大爆冷!梁靖崑2:3被淘汰,遭遇一轮游,张本智和3:0获胜晋级

国乒二三事
2026-01-16 18:40:08
日本半场0-1!首次丢球!U23亚洲杯最大冷门要诞生?约旦反击犀利

日本半场0-1!首次丢球!U23亚洲杯最大冷门要诞生?约旦反击犀利

大秦壁虎白话体育
2026-01-16 20:37:36
2026-01-16 22:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12133文章数 142542关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

普京谈及当前国际局势:世界太危险了

头条要闻

普京谈及当前国际局势:世界太危险了

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

游戏
亲子
时尚
旅游
教育

拒绝QTE!《古墓丽影》重制和霸王龙战斗完全手动

亲子要闻

宝妈必学,不要把孩子的安危寄托于别人!

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

旅游要闻

菲律宾宣布对华免签,出境游市场再迎利好

教育要闻

定了!2026山东艺考成绩查询马上公布

无障碍浏览 进入关怀版