网易首页 > 网易号 > 正文 申请入驻

北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基

0
分享至

视频是信息密度最高、情感表达最丰富的媒介之一,高度还原现实的复杂性与细节。正因如此,视频也是编辑难度最高的一类数字内容。在传统的视频编辑流程中,若要调整或替换主体、场景、色彩或是移除一个物体,往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队,也很难在复杂场景中保持编辑内容的时间一致性。

近年来,生成式 AI 尤其是扩散模型与多模态大模型的快速迭代,为视频编辑带来了全新的解题思路。从早期基于规则的特效工具,到目标识别与自动分割,再到基于文本指令的视频生成与重绘,尽管 AI 已经为视频编辑带来了效率与可控性的双重提升,但在精度要求较高的场景中仍存在一系列挑战,例如当前很多零样本方法在处理连续视频帧时容易造成画面闪烁;对于背景复杂或多目标场景,可能会出现错位、模糊或语义偏差。

针对于此,北京大学相机智能实验室(施柏鑫团队)联合 OpenBayes贝式计算,以及北京邮电大学人工智能学院模式识别实验室李思副教授团队,共同提出了一种结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的重绘、替换、生成与移除等多种编辑操作。该方法利用文本生成视频模型的先验知识,确保时间上的一致性,同时还提出了带有标准化自适应缩放机制的 Sequential ControlNet,能够有效提取结构布局并自适应捕捉高对比度的草图细节。更进一步地,研究团队在 DiT(diffusion transformer) backbone 中引入草图注意力机制,以解读并注入细颗粒度的草图语义。实验结果表明,VIRES 在视频质量、时间一致性、条件对齐和用户评分等多方面均优于现有 SOTA 模型。

VIRES 与 5 种现有方法在不同数据集上的多类指标得分

相关研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」为题,已入选 CVPR 2025。

  • 论文主页:https://hjzheng.net/projects/VIRES/
  • 项目开源地址:https://github.com/suimuc/VIRES
  • Hugging Face地址:https://huggingface.co/suimu/VIRES
  • 研究所用数据集下载地址:https://go.hyper.ai/n5pgy

大规模视频实例数据集 VireSet

为了实现精准的可控视频实例重绘,研究团队标注了大量视频实例的 Sketch 序列、Mask 以及文本描述,提出了一个配备详细注释的大规模视频实例数据集 VireSet。其中包含了 86k 视频片段、连续的视频 Mask、详细的草图序列,以及高质量的文本描述。

此前,Meta 曾开源了一个大规模视频分割数据集 Segment Anything Video dataset(SA-V 数据集),提供了 51k 个视频以及 643k 个实例 Mask。然而,其中实例 Mask 的标注是间隔 4 帧标注一次,因此 FPS 为 6,导致 Mask 非常不连贯。为了得到连贯的视频实例 Mask,研究团队利用预训练的 SAM-2 模型,对中间帧进行标注,从而将 Mask 的 FPS 提高到 24。效果对比如下所示:

原视频

SA-V 提供的 Mask

研究团队标注的 Mask

随后,研究团队采用预训练的 PLLaVA 模型为每个视频片段生成文本描述,并利用边缘检测算法 HED 提取每个视频实例的 Sketch 序列,为每个实例提供结构上的指导信息。

The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.

结合草图与文本引导的视频实例重绘方法 VIRES

VIRES 主要由 3 大模块组成:带有标准化自适应缩放的 Sequential ControlNet,带有草图注意力机制的 DiT backbone,以及用于改进解码过程的草图感知编码器,VIRES 的工作流程如下图所示。

VIRES 的工作流程

如图 a 所示,输入视频首先被 VAE 压缩 64 倍空间纬度和 4 倍时间纬度,变成潜码,噪声会根据 Mask 序列被选择性地添加到潜码中。随后,该噪声潜码被送入去噪网络(Denoising network)进行去噪,如图 b 所示。该网络由多个具有时间和空间注意力机制的 Transformer 块堆叠组成。

为了实现对实例属性的精确控制,研究团队提出了 Sequential ControlNet,从 Sketch 序列中提取结构布局,如图 c 所示。为了自适应地捕捉 Sketch 序列中的细节,团队引入了 Standardized self-scaling 来增强 Sketch 序列中黑色边缘线与白色背景之间的高对比度过渡。此外,为了确保稳定且高效的训练,其根据视频潜码特征的均值,对齐处理后的 Sketch 特征与视频潜码特征,确保 Sketch 特征和视频潜码特征具有相似的数据分布。

为了在潜在空间中解释和注入细粒度的草图语义,研究团队设计了 Sketch Attention 来增强去噪网络的空间注意力块,如图 d 所示,Sketch Attention 结合了一个预定义的二进制矩阵 A ,以指示视频潜码与 Sketch 序列之间的对应关系。

最后,为了在潜空间内将编辑结果与 Sketch 序列进一步对齐,团队引入了草图感知编码器,提取多级 Sketch 特征来指导解码过程,如图 e 所示。

VIRES 的 4 个应用场景:重绘,替换,生成与消除

文本指令可以传达一般的视频编辑目标,但在用户意图解释方面仍留有相当大的进步空间。因此,最近的研究引入了额外的引导信息(例如,草图)以实现更精确的控制。

部分现有的方法,如 RAVE,利用 Zero-Shot 的方式,将图片编辑模型扩展成视频编辑模型,但由于依赖预训练的文本到图像模型,该方法在时间一致性上表现不佳,不可避免地导致画面闪烁。

A light orange and white fish swimming in an aquarium

VIRES 通过利用文本到视频模型的生成先验,保持了时间一致性并生成了令人满意的结果。

A light orange and white fish swimming in an aquarium

另外一些方法,如 VideoComposer,在文本到图像模型中引入时间建模层并微调,但该方法对组合性的关注限制了编辑视频与提供的 Sketch 序列之间的准确对齐,导致细粒度编辑效果不佳,如下图所示效果,人物衣服的袖子消失。

A players wears a light green jersey with the white number 1 on the back

VIRES 提出 Sequential ControlNet 和定制的模块来有效处理 Sketch 序列,将编辑视频与提供的 Sketch 序列准确对齐,实现细粒度编辑。效果如下图所示:

A players wears a light green jersey with the white number 1 on the back

对于每个视频实例,提供重绘的控制条件,包括 Sketch 序列、Mask 序列和相应的文本描述,VIRES 能够生成与条件一致的编辑视频。

如下所示,VIRES 有 4 个主要应用场景,首先是视频实例重绘,例如更换人物身着衣服的材质和颜色;其次是视频实例替换,例如将视频中的红色皮卡替换成黑色 SUV。

第三是定制实例生成,如演示视频中在户外雪地增加一只柯基;最后一个场景是指定实例消除,例如删除视频中的足球。

VIRES 在多项指标上超越现有 SOTA 模型

研究团队将 VIRES 与 5 种目前最先进的方法进行了比较,包括 Rerender(SIGGRAPH Asia’23),VidToMe(CVPR’24),Text2Video-zero(ICCV’23),RAVE(ICCV’23),VideoComposer(NeurIPS’24)。

为了确保详细的比较,其不仅在 VireSet 数据集上进行测试,还在业内广泛使用的 DAVIS(CVPR’16)数据集上进行了测试。实验结果显示,VIRES 在客观评价指标:视觉感知质量(PSNR)、空间结构一致性(SSIM)、帧运动准确性(WE)、帧间一致性(FC)和文本描述一致性(TC)方面均取得了最佳结果。

此外,团队还进行了两项用户调研,其一是视觉质量评估(VQE),参与者会看到由 VIRES 和对比编辑方法生成的编辑结果,需要选择最具视觉吸引力的视频片段。其二是文本对齐评估(TAE),给定一个对应的文本描述,要求参与者从同一组编辑后的结果中选择最符合该描述的视频片段。在用户调研中,VIRES 均取得了最佳结果。

VIRES 与 5 种现有方法在外观编辑上的表现对比:

VIRES 与 5 种现有方法在结构编辑上的效果对比:

另外值得一提的是,在 Sketch 引导视频生成方面,VIRES 还支持根据文本描述直接从 Sketch 序列生成完整视频。在稀疏帧引导视频编辑方面,VIRES 支持只提供第一帧的 Sketch 来编辑视频。效果如下所示。

可控视频生成领域的持续探索

总结来看,VIRES 在草图与文本引导下实现了实例结构一致性,而从某种角度来看,其也是面向「如何让空间结构信息在视频生成中稳定传递」这一重要挑战,给出了一种可靠的解决方案。与此同时,该研究团队步履不停,在突破这一类目标级控制之后,还将目光投向了全景级别的可控视频生成。

该研究团队提出了一种能够以最小改动,有效将预训练文本生成视频模型扩展至全景领域的方法,并将其命名为 PanoWan。该方法采用了纬度感知采样(latitude-aware sampling)以避免纬度方向的图像畸变,同时引入旋转语义去噪机制(rotated semantic denoising)和像素级填充解码策略(padded pixel-wise decoding),以实现经度边界的无缝过渡。实验结果表明,PanoWan 在全景视频生成任务中的表现达 SOTA 级别,并在零样本下游任务中展现出良好的泛化能力。相关论文现已发布于 arXiv:https://arxiv.org/abs/2505.22016。

聚焦该研究团队,北京大学相机智能实验室(http://camera.pku.edu.cn),负责人施柏鑫,北京大学计算机学院视频与视觉技术研究所副所长,长聘副教授(研究员)、博士生导师;北京智源学者;北大 - 智平方具身智能联合实验室主任。日本东京大学博士,麻省理工学院媒体实验室博士后。研究方向为计算摄像学与计算机视觉,发表论文 200 余篇(包括 TPAMI 论文 30 篇,计算机视觉三大顶级会议论文 92 篇)。论文获评 IEEE/CVF 计算机视觉与模式识别会议(CVPR)2024 最佳论文亚军(Best Paper, Runners-Up)、国际计算摄像会议(ICCP)2015 最佳论文亚军、国际计算机视觉会议(ICCV)2015 最佳论文候选,获得日本大川研究助成奖(2021)、中国电子学会青年科学家奖(2024)。科技部人工智能重大专项首席科学家,国家自然科学基金重点项目负责人,国家级青年人才计划入选者。担任国际顶级期刊 TPAMI、IJCV 编委,顶级会议 CVPR、ICCV、ECCV 领域主席。APSIPA 杰出讲者、CCF 杰出会员、IEEE/CSIG 高级会员。

主要合作者 OpenBayes贝式计算作为国内领先的人工智能服务商,深耕工业研究与科研支持领域,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,进而为工业企业及高校科研机构等提供更加快速、易用的数据科学计算产品,其产品已被数十家大型工业场景或头部科研院所采用。

双方共同在可控视频生成领域的探索已经取得了阶段性成果,相信在这一校企合作模式下,也将加速推进高质量成果早日落地产业。

文中视频链接:

https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:不必等明天开盘,股市已经有变化,周一可能这样走了

A股:不必等明天开盘,股市已经有变化,周一可能这样走了

财经大拿
2026-07-05 09:33:14
Nice!重磅!恭喜哈登...

Nice!重磅!恭喜哈登...

技巧君侃球
2026-07-05 11:15:07
A股:央行、证监会最新发布!做好切换准备,下周一分化更为明显

A股:央行、证监会最新发布!做好切换准备,下周一分化更为明显

虎哥闲聊
2026-07-05 00:00:07
索尔巴肯:为了保持对阵巴西不败,我们拒绝了所有友谊赛邀请

索尔巴肯:为了保持对阵巴西不败,我们拒绝了所有友谊赛邀请

懂球帝
2026-07-05 07:53:06
我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

舒山有鹿
2026-07-05 10:43:52
暴跌94%!拯救房地产,就是拯救消费

暴跌94%!拯救房地产,就是拯救消费

爱看剧的阿峰
2026-07-03 12:20:55
蒋方舟:否认22项指控,承认1项

蒋方舟:否认22项指控,承认1项

南方都市报
2026-07-05 12:05:07
蒯曼立功了!大逆转日本削球手佐藤瞳,为王曼昱复仇!

蒯曼立功了!大逆转日本削球手佐藤瞳,为王曼昱复仇!

鲸鲱鱼体坛
2026-07-05 12:50:12
超市推“肥肉换瘦肉” 第一次觉得小肚腩值钱

超市推“肥肉换瘦肉” 第一次觉得小肚腩值钱

看看新闻Knews
2026-07-05 13:36:02
儿子满月,老公坚持做亲子鉴定,结果出来后,他结束了3年的婚姻

儿子满月,老公坚持做亲子鉴定,结果出来后,他结束了3年的婚姻

微微的风
2024-08-21 18:58:19
安雅首次回应加盟《指环王》新角色:我这辈子都像个精灵!

安雅首次回应加盟《指环王》新角色:我这辈子都像个精灵!

喜欢历史的阿繁
2026-07-02 18:09:49
世界杯带火非洲岛国佛得角,人口50多万拥有7座客运机场,当地中国人称:最近国人多了起来

世界杯带火非洲岛国佛得角,人口50多万拥有7座客运机场,当地中国人称:最近国人多了起来

时代财经
2026-07-04 20:18:23
霉霉婚礼彩排晚宴曝光!赛琳娜穿蕾丝礼服到场,明星好友齐聚纽约

霉霉婚礼彩排晚宴曝光!赛琳娜穿蕾丝礼服到场,明星好友齐聚纽约

娱圈观察员
2026-07-04 01:11:44
全国百强汽车经销商内部通知曝光:亏损板块7月经理级以上全部0工资

全国百强汽车经销商内部通知曝光:亏损板块7月经理级以上全部0工资

快科技
2026-07-05 12:09:07
安切洛蒂:巴西没有能像帕奎塔这样的球员,我已找好替代人选

安切洛蒂:巴西没有能像帕奎塔这样的球员,我已找好替代人选

玲儿爱唱歌
2026-07-05 13:22:30
成都兰桂坊一女厕马桶刷底座暗藏摄像头,发现者:正对蹲坑,打开手机闪光灯才发现,几个隔间全都有;警方回应:正在调查

成都兰桂坊一女厕马桶刷底座暗藏摄像头,发现者:正对蹲坑,打开手机闪光灯才发现,几个隔间全都有;警方回应:正在调查

扬子晚报
2026-07-04 17:29:15
张兰带玥儿逛三里屯买衣服,身高快超过奶奶,马筱梅避嫌没出镜

张兰带玥儿逛三里屯买衣服,身高快超过奶奶,马筱梅避嫌没出镜

小樾说历史
2026-07-04 11:25:13
美军司令已摊牌,铺路介入台海冲突,4国被拖下水,中方舰机出动

美军司令已摊牌,铺路介入台海冲突,4国被拖下水,中方舰机出动

林子说事
2026-07-05 10:52:01
法国1:0淘汰巴拉圭!不是法国攻不破铁桶阵,而是巴拉圭防守太脏

法国1:0淘汰巴拉圭!不是法国攻不破铁桶阵,而是巴拉圭防守太脏

金风说
2026-07-05 07:26:26
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
2026-07-05 14:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142688关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

头条要闻

巴拉圭队门将球扔向姆巴佩:想握手祝贺 但他没理我

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
本地
手机
时尚
公开课

家居要闻

传奇筑 日常诗

本地新闻

国内足球之旅?这座小城给你高分答案

手机要闻

苹果、小米、荣耀全部原地没动,vivo、OPPO一升一降

为什么女明星体重涨了,身材反而更辣了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版