网易首页 > 网易号 > 正文 申请入驻

妙笔生维:线稿驱动的三维场景视频自由编辑

0
分享至

刘锋林,中科院计算所泛在计算系统研究中心博士研究生(导师:高林研究员),研究方向为计算机图形学与生成式人工智能,在ACM SIGGRAPH\TOG,IEEE TPAMI,IEEE TVCG,IEEE CVPR等期刊会议上发表论文10余篇,其中5篇为第一作者发表于SIGGRAPH和CVPR,4篇论文收录于中科院一区期刊ACM Transaction on Graphics,第一作者研究工作连续两年入选SIGGRAPH亮点工作宣传片(Video Trailer)。曾获得国家奖学金、中国计算机学会CAD&CG凌迪图形学奖学金等荣誉。

随着移动摄影设备的普及,基于手机或相机等可以快速获取带有丰富视角变换的三维场景视频。如何高效、自由地编辑这些三维内容成为一个关键挑战。例如,在视频中无缝添加新物体、精准去除不需要的元素,或者自然替换已有部分,这些能力在虚拟现实 (VR)、增强现实 (AR) 以及短视频创作中具有广泛的应用前景。

然而,现有的经典方法,通常只能添加预定义的三维模型库中的物体,极大地限制了用户的个性化创意表达。更关键的是,让新加入的物体融入原有场景的光影环境,生成逼真的阴影,以达到照片级的真实感,是具有挑战性的难题。同样,移除物体后,如何合理地填补空缺区域并生成视觉连贯合理的内容,也需要更优的解决方案。

近期,研究人员提出了一种基于线稿的三维场景视频编辑方法Sketch3DVE[1],相关技术论文发表于 SIGGRAPH 2025,并入选 Video Trailer。它赋予用户基于简单线稿即可重塑三维场景视频的能力。无论是为视频场景个性化地添加全新物体,还是精细地移除或替换已有对象,用户都能通过绘制关键线稿轻松实现。

  • 论文标题:Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
  • 论文地址:https://dl.acm.org/doi/10.1145/3721238.3730623
  • 项目主页:
  • http://geometrylearning.com/Sketch3DVE/
  • Github:https://github.com/IGLICT/Sketch3DVE

此外,即使是单张静态图片,用户也能自由规划虚拟相机路径(指定相机轨迹),首先生成具有视角变化的动态视频,随后再进行任意编辑。

现在,就让我们一同探索 Sketch3DVE 如何将简单的线稿笔画,转化为重塑三维世界的钥匙!

图 1 基于线稿的三维场景视频编辑结果

图 2 视角可控的视频生成及编辑结果

Part 1 背景

近年来,视频生成基础模型(如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等)在文本到视频和图像到视频生成方面取得了显著进展。精确控制生成视频中的相机轨迹因其重要的应用前景而受到广泛关注。

现有方法主要分为两类:一类工作 [2, 3] 直接将相机参数作为模型输入,利用注意力机制或 ControlNet 结构来实现对生成视频视角的控制;另一类工作 [4, 5] 则从单张输入图像构建显式的三维表示(如 NeRF),通过指定相机轨迹渲染出新视角图像,并以此作为控制信号引导视频生成。

尽管这些方法能够生成视角可控的视频,如何对已存在的、包含大幅度相机运动的真实视频进行精确编辑,仍然是一个有待解决的研究问题。

视频编辑任务与视频生成有本质区别,它需要保持原始视频的运动模式与局部特征,同时根据用户指令合成新的内容。早期的视频编辑方法 [6, 7] 通常基于 Stable Diffusion 等图像扩散模型,对视频帧进行逐帧处理,并通过引入时序一致性约束来生成编辑结果。

进一步地,研究者开始利用视频生成模型进行编辑,例如一些方法 [8] 从输入视频中提取注意力特征图以编码运动信息,另一些方法 [9] 则采用LoRA对预训练视频模型进行微调以捕捉特定视频的运动模式。然而,这些方法主要擅长外观层面的编辑(如风格化、纹理修改),在几何结构层面的编辑效果较差,并且难以有效处理包含大幅度相机运动的场景。

线稿(Sketch)作为一种直观的用户交互方式,已被广泛应用于图像、视频和三维内容的生成与编辑中。基于线稿的视频编辑方法也已出现,例如VIRES[10] 通过优化 ControlNet [11] 结构实现了基于线稿引导的视频重绘,而SketchVideo[12] 则设计了一种关键帧线稿传播机制,允许用户仅提供少量帧(1-2 帧)的线稿即可编辑整个视频。

尽管如此,现有的基于线稿的视频编辑方法主要面向通用场景。如何处理包含显著相机视角变化的视频,并在编辑过程中保持新内容的三维几何一致性,仍是当前研究面临的关键挑战。

Part 2 算法原理

图 3 Sketch3DVE 的编辑流程和网络架构图

给定输入的三维场景视频后,用户首先选定第一帧图像。在该帧上,用户绘制一个掩码(Mask)标记需要编辑的区域,并绘制线稿(Sketch)来指定新物体的几何形状。

同时,用户输入文本描述来定义新物体的外观特征。系统采用MagicQuill[13] 图像编辑算法(或其他兼容的基于图像补全的编辑方法)处理第一帧,生成该帧的编辑结果。

随后,系统利用 DUSt3R [14] 三维重建算法处理整个输入视频,对场景进行三维分析。该方法输出第一帧对应的场景点云(Point Cloud)以及每一帧对应的相机参数(Camera Parameters),为后续的视频编辑传播提供几何基础。

接下来,需要将第一帧图像上的编辑操作传播到其对应的三维点云上。系统采用基于深度图的点云编辑方法:首先,使用 DUSt3R 或 DepthAnything [15] 等方法预测编辑后第一帧图像的深度图(Depth Map)。由于预测得到的是相对深度值,需要将其与原始场景的尺度对齐。

为此,系统利用掩码外部(非编辑区域)的像素,通过逐像素的对应关系计算深度值的平移和缩放参数。应用这些参数对预测深度图进行变换,并将编辑区域的深度值融合到原始场景的深度图中。最后,通过反投影(Back-projection)处理融合后的深度图,得到编辑后的三维点云。

为了减少用户交互,掩码只需在第一帧绘制。为了将第一帧的掩码精确传播到后续不同视角的帧上,系统设计了一个基于三维感知的掩码传播算法。

该算法在三维空间中构建一个网格模型来表示三维掩码(3D Mask):利用编辑前后帧提供的深度信息和相机参数,将每个像素位置反投影到三维空间,形成网格顶点;根据像素邻域关系连接这些顶点,构建出表示编辑区域前表面的网格面片;后表面则使用平面结构并通过侧面连接,最终形成一个封闭的三维网格模型。该三维掩码模型可根据不同帧的相机参数渲染出对应的二维掩码。

最后,系统构建了一个基于三维点云引导的视频生成模型,其思路类似于 [11, 12]。该模型在预训练的 CogVideoX 模型基础上,额外引入了一个条件控制网络。

该网络以三种信息作为输入引导视频生成:1) 编辑后的第一帧图像;2) 由编辑后点云渲染得到的多视角视频(提供三维几何一致性约束);3) 原始输入视频(但移除了掩码区域的内容,用于保持非编辑区域的时空一致性)。通过融合这些条件信息,模型最终输出具有精确三维一致性的场景编辑视频。

Part 3 效果展示

如图 4 所示,用户可以在首帧绘制线稿并标记编辑区域,该方法可以生成高质量的三维场景视频编辑结果,实现物体的添加、删除和替换等操作,所生成新的物体具有良好的三维一致性。

图 4 基于线稿的三维场景视频编辑结果

如图 5 所示,当视频中存在阴影和反射等较为复杂的情景时,由于该工作使用了真实视频作为数据集进行训练,也能在一定程度处理上述情况,并生成相对合理的视频编辑结果。

图 5 阴影和反射等情况的场景编辑效果

如图 6 所示,给定真实拍摄的三维场景视频后,用户可以标记指定编辑区域,并绘制颜色笔画指定新生成内容的外观。该工作可以生成较为真实自然的三维场景视频编辑结果。

图 6 基于颜色笔画的三维场景视频编辑结果

如图 7 所示,该工作也支持不以线稿作为输入,而直接使用图像补全方法对首帧进行编辑,相关编辑效果也可以合理应用至三维场景。

图 7 基于图像补全方法的三维场景视频编辑结果

Part 4 结语

随着大模型和生成式人工智能的迅速发展,三维场景视频编辑问题也有了新的解决范式。传统的模型插入方法存在难以个性化定制、渲染结果不够真实、无法去除已有物体等问题。

Sketch3DVE 则提出了一种有效的解决方案,通过线稿定制化生成三维物体,合成高真实感的三维场景视频编辑效果,并支持基于单目图像的三维视频合成和二次编辑。

借助该方法,用户无需掌握复杂的专业三维处理和视频处理软件,也无需投入大量时间和精力,仅凭几笔简单的线稿勾勒,便可以将想象中的物体带到现实,构建出灵感和现实的桥梁。该项工作已经发表在SIGGRAPH 2025。

有关论文的更多细节,及论文、视频、代码的下载,请浏览项目主页。

参考文献:

[1] Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao*. “Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing.” In ACM SIGGRAPH. 2025.

[2] Zhouxia Wang, Ziyang Yuan, Xintao Wang, Yaowei Li, Tianshui Chen, Menghan Xia, Ping Luo, and Ying Shan. MotionCtrl: A Unified and Flexible Motion Controller for Video Generation. In ACM SIGGRAPH. 2024.

[3] Yuelei Wang, Jian Zhang, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, and Bo Li. 2024c. CPA: Camera-pose-awareness Diffusion Transformer for Video Generation. CoRR abs/2412.01429 (2024).

[4] Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, and Yonghong Tian. 2024. ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis. CoRR abs/2409.02048 (2024).

[5] Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, and Yuan Liu. 2025. Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control. CoRR abs/2501.03847 (2025).

[6] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-P2P: Video Editing with Cross-Attention Control. In IEEE CVPR 2024. 8599–8608.

[7] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation. In ACM SIGGRAPH, 2023. 95:1–95:11.

[8] Max Ku, Cong Wei, Weiming Ren,Harry Yang, and Wenhu Chen.2024. AnyV2V: A Plug and-Play Framework For Any Video-to-Video Editing Tasks. CoRR abs/2403.14468 (2024). [9] Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, and Xingang Pan. 2024a. I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models. In ACM SIGGRAPH Asia, Takeo Igarashi, Ariel Shamir, and Hao (Richard) Zhang (Eds.). 95:1–95:11.

[10] Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, and Boxin Shi. VIRES: Video Instance Repainting with Sketch and Text Guidance. IEEE CVPR 2024.

[11] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023.

[12] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” IEEE CVPR 2025

[13] Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, and Yujun Shen. 2024d. MagicQuill: An Intelligent Interactive Image Editing System. CoRR abs/2411.09703 (2024).

[14] Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, and Jérôme Revaud. DUSt3R: Geometric 3D Vision Made Easy. In IEEE CVPR 2024. 20697–20709.

[15] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. 2024b. Depth Anything V2. CoRR abs/2406.09414 (2024).

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1.74亿欧vs1200万欧!这场亚冠决赛,狠狠打了中国足球的脸

1.74亿欧vs1200万欧!这场亚冠决赛,狠狠打了中国足球的脸

圣西罗的太阳
2026-04-25 13:07:44
骗了全世界17年!保镖临终日记揭开迈克杰克逊死前最凄凉的真相

骗了全世界17年!保镖临终日记揭开迈克杰克逊死前最凄凉的真相

自说自话的总裁
2026-04-24 17:23:51
离谱!41岁老詹再创季后赛纪录,打破的竟是3天前自己创作的纪录

离谱!41岁老詹再创季后赛纪录,打破的竟是3天前自己创作的纪录

仰卧撑FTUer
2026-04-25 12:33:25
真惨!燃油车再次迎大降价,最大跌幅50%,老车主“背刺”成常态

真惨!燃油车再次迎大降价,最大跌幅50%,老车主“背刺”成常态

小谈食刻美食
2026-04-25 09:34:33
斯诺克赛程:决出2席8强,3虎登场,75双雄PK,赵心童再战丁俊晖

斯诺克赛程:决出2席8强,3虎登场,75双雄PK,赵心童再战丁俊晖

刘姚尧的文字城堡
2026-04-25 09:35:11
两届奥运冠军、中国羽毛球协会主席张军“失联”,知情人士:被纪监部门调查,与外界失去联系已有十余日

两届奥运冠军、中国羽毛球协会主席张军“失联”,知情人士:被纪监部门调查,与外界失去联系已有十余日

台州交通广播
2026-04-24 23:52:42
G3火箭40秒领先6分都能输?泰特谢泼德成卧底,进攻还不压时间!

G3火箭40秒领先6分都能输?泰特谢泼德成卧底,进攻还不压时间!

篮球资讯达人
2026-04-25 11:19:42
马正勇,已赴任四川

马正勇,已赴任四川

新京报政事儿
2026-04-25 14:56:05
59岁王祖贤在加拿大超市外面被偶遇,嘴巴有点奇怪,但还是很漂亮

59岁王祖贤在加拿大超市外面被偶遇,嘴巴有点奇怪,但还是很漂亮

TVB的四小花
2026-04-25 17:40:53
骂早了?大姐偷万元幼犬后续,更恶心的内幕曝光:不止一次干这事

骂早了?大姐偷万元幼犬后续,更恶心的内幕曝光:不止一次干这事

观察鉴娱
2026-04-25 09:50:34
分身乏术的俄罗斯终于点了头,与其拖着不如给中国一个顺水人情

分身乏术的俄罗斯终于点了头,与其拖着不如给中国一个顺水人情

阿天爱旅行
2026-04-25 18:20:58
秦昊让整个娱乐圈都笑疯了!一句:外面有人了还要送啊?

秦昊让整个娱乐圈都笑疯了!一句:外面有人了还要送啊?

一盅情怀
2026-04-25 16:25:46
难怪民进党气得跳脚也不敢抓郑丽文,她背后的保护伞,让绿营绝望

难怪民进党气得跳脚也不敢抓郑丽文,她背后的保护伞,让绿营绝望

观星赏月
2026-04-25 17:56:35
蒋万安发出强硬警告,"中国台湾省"走向国际,10国选择明智应对

蒋万安发出强硬警告,"中国台湾省"走向国际,10国选择明智应对

流史岁月
2026-04-25 10:19:34
小米SU7自动泊车时撞上悬空墙体;车主:以后不再用了;厂家:悬空障碍物会影响到泊车辅助功能

小米SU7自动泊车时撞上悬空墙体;车主:以后不再用了;厂家:悬空障碍物会影响到泊车辅助功能

大风新闻
2026-04-23 15:47:14
国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

国家电网第二批录了10500人,清华才7个,一所你没听过的学校进了444人

老满说高考
2026-04-24 20:13:49
演员毛晓彤凌晨从医美诊所离开引网友热议,其晒医院检测报告回应:作为一个从小爱吃面食的天津人,查出面粉不耐受可怎么办

演员毛晓彤凌晨从医美诊所离开引网友热议,其晒医院检测报告回应:作为一个从小爱吃面食的天津人,查出面粉不耐受可怎么办

鲁中晨报
2026-04-25 08:56:26
发现一个现象:根据历史规律,中国可能成地球上最后一个超级大国

发现一个现象:根据历史规律,中国可能成地球上最后一个超级大国

鹤羽说个事
2026-04-23 22:45:59
实测GPT-Image-2,我们正在集体失去“看见真相”的能力

实测GPT-Image-2,我们正在集体失去“看见真相”的能力

金融界
2026-04-24 20:43:37
3股将被*ST,下周一停牌!一周7家A股公司被证监会立案

3股将被*ST,下周一停牌!一周7家A股公司被证监会立案

21世纪经济报道
2026-04-25 11:56:15
2026-04-25 20:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12852文章数 142636关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

头条要闻

现场视频:歼-15挂弹起飞硬刚外军航母编队滋扰

体育要闻

火箭0-3触发百分百出局定律:本季加时赛9战8败

娱乐要闻

邓超最大的幸运,就是遇见孙俪

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

健康
旅游
教育
手机
公开课

干细胞如何让烧烫伤皮肤"再生"?

旅游要闻

去马登乡寻找杜鹃花海,结果误打误撞,领略了数千亩苹果花的风韵

教育要闻

我国“就业率逼近100%”的5所双非大学,500多分就能上!

手机要闻

W16周排名出炉:vivo第四、小米第五,冠军还是它

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版