北大施柏鑫团队、贝式计算CVPR研究：视频里轻松换衣服、加柯基|cvpr|sketch|威尔斯柯基犬|深度思考模型

分享至

视频是信息密度最高、情感表达最丰富的媒介之一，高度还原现实的复杂性与细节。正因如此，视频也是编辑难度最高的一类数字内容。在传统的视频编辑流程中，若要调整或替换主体、场景、色彩或是移除一个物体，往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队，也很难在复杂场景中保持编辑内容的时间一致性。

近年来，生成式 AI 尤其是扩散模型与多模态大模型的快速迭代，为视频编辑带来了全新的解题思路。从早期基于规则的特效工具，到目标识别与自动分割，再到基于文本指令的视频生成与重绘，尽管 AI 已经为视频编辑带来了效率与可控性的双重提升，但在精度要求较高的场景中仍存在一系列挑战，例如当前很多零样本方法在处理连续视频帧时容易造成画面闪烁；对于背景复杂或多目标场景，可能会出现错位、模糊或语义偏差。

针对于此，北京大学相机智能实验室（施柏鑫团队）联合 OpenBayes贝式计算，以及北京邮电大学人工智能学院模式识别实验室李思副教授团队，共同提出了一种结合草图与文本引导的视频实例重绘方法 VIRES，支持对视频主体的重绘、替换、生成与移除等多种编辑操作。该方法利用文本生成视频模型的先验知识，确保时间上的一致性，同时还提出了带有标准化自适应缩放机制的 Sequential ControlNet，能够有效提取结构布局并自适应捕捉高对比度的草图细节。更进一步地，研究团队在 DiT（diffusion transformer） backbone 中引入草图注意力机制，以解读并注入细颗粒度的草图语义。实验结果表明，VIRES 在视频质量、时间一致性、条件对齐和用户评分等多方面均优于现有 SOTA 模型。

VIRES 与 5 种现有方法在不同数据集上的多类指标得分

相关研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」为题，已入选 CVPR 2025。

论文主页：https://hjzheng.net/projects/VIRES/
项目开源地址：https://github.com/suimuc/VIRES
Hugging Face地址：https://huggingface.co/suimu/VIRES
研究所用数据集下载地址：https://go.hyper.ai/n5pgy

大规模视频实例数据集 VireSet

为了实现精准的可控视频实例重绘，研究团队标注了大量视频实例的 Sketch 序列、Mask 以及文本描述，提出了一个配备详细注释的大规模视频实例数据集 VireSet。其中包含了 86k 视频片段、连续的视频 Mask、详细的草图序列，以及高质量的文本描述。

此前，Meta 曾开源了一个大规模视频分割数据集 Segment Anything Video dataset（SA-V 数据集），提供了 51k 个视频以及 643k 个实例 Mask。然而，其中实例 Mask 的标注是间隔 4 帧标注一次，因此 FPS 为 6，导致 Mask 非常不连贯。为了得到连贯的视频实例 Mask，研究团队利用预训练的 SAM-2 模型，对中间帧进行标注，从而将 Mask 的 FPS 提高到 24。效果对比如下所示：

原视频

SA-V 提供的 Mask

研究团队标注的 Mask

随后，研究团队采用预训练的 PLLaVA 模型为每个视频片段生成文本描述，并利用边缘检测算法 HED 提取每个视频实例的 Sketch 序列，为每个实例提供结构上的指导信息。

The video shows a small, dark-colored goat with a blue and white striped cloth draped over its back. The goat is seen walking across a grassy area with patches of dirt. The background includes green vegetation and some sunlight filtering through the trees, creating a serene outdoor setting. The goat appears to be moving at a steady pace.

结合草图与文本引导的视频实例重绘方法 VIRES

VIRES 主要由 3 大模块组成：带有标准化自适应缩放的 Sequential ControlNet，带有草图注意力机制的 DiT backbone，以及用于改进解码过程的草图感知编码器，VIRES 的工作流程如下图所示。

VIRES 的工作流程

如图 a 所示，输入视频首先被 VAE 压缩 64 倍空间纬度和 4 倍时间纬度，变成潜码，噪声会根据 Mask 序列被选择性地添加到潜码中。随后，该噪声潜码被送入去噪网络（Denoising network）进行去噪，如图 b 所示。该网络由多个具有时间和空间注意力机制的 Transformer 块堆叠组成。

为了实现对实例属性的精确控制，研究团队提出了 Sequential ControlNet，从 Sketch 序列中提取结构布局，如图 c 所示。为了自适应地捕捉 Sketch 序列中的细节，团队引入了 Standardized self-scaling 来增强 Sketch 序列中黑色边缘线与白色背景之间的高对比度过渡。此外，为了确保稳定且高效的训练，其根据视频潜码特征的均值，对齐处理后的 Sketch 特征与视频潜码特征，确保 Sketch 特征和视频潜码特征具有相似的数据分布。

为了在潜在空间中解释和注入细粒度的草图语义，研究团队设计了 Sketch Attention 来增强去噪网络的空间注意力块，如图 d 所示，Sketch Attention 结合了一个预定义的二进制矩阵 A ，以指示视频潜码与 Sketch 序列之间的对应关系。

最后，为了在潜空间内将编辑结果与 Sketch 序列进一步对齐，团队引入了草图感知编码器，提取多级 Sketch 特征来指导解码过程，如图 e 所示。

VIRES 的 4 个应用场景：重绘，替换，生成与消除

文本指令可以传达一般的视频编辑目标，但在用户意图解释方面仍留有相当大的进步空间。因此，最近的研究引入了额外的引导信息（例如，草图）以实现更精确的控制。

部分现有的方法，如 RAVE，利用 Zero-Shot 的方式，将图片编辑模型扩展成视频编辑模型，但由于依赖预训练的文本到图像模型，该方法在时间一致性上表现不佳，不可避免地导致画面闪烁。

A light orange and white fish swimming in an aquarium

VIRES 通过利用文本到视频模型的生成先验，保持了时间一致性并生成了令人满意的结果。

A light orange and white fish swimming in an aquarium

另外一些方法，如 VideoComposer，在文本到图像模型中引入时间建模层并微调，但该方法对组合性的关注限制了编辑视频与提供的 Sketch 序列之间的准确对齐，导致细粒度编辑效果不佳，如下图所示效果，人物衣服的袖子消失。

A players wears a light green jersey with the white number 1 on the back

VIRES 提出 Sequential ControlNet 和定制的模块来有效处理 Sketch 序列，将编辑视频与提供的 Sketch 序列准确对齐，实现细粒度编辑。效果如下图所示：

A players wears a light green jersey with the white number 1 on the back

对于每个视频实例，提供重绘的控制条件，包括 Sketch 序列、Mask 序列和相应的文本描述，VIRES 能够生成与条件一致的编辑视频。

如下所示，VIRES 有 4 个主要应用场景，首先是视频实例重绘，例如更换人物身着衣服的材质和颜色；其次是视频实例替换，例如将视频中的红色皮卡替换成黑色 SUV。

第三是定制实例生成，如演示视频中在户外雪地增加一只柯基；最后一个场景是指定实例消除，例如删除视频中的足球。

VIRES 在多项指标上超越现有 SOTA 模型

研究团队将 VIRES 与 5 种目前最先进的方法进行了比较，包括 Rerender(SIGGRAPH Asia’23)，VidToMe(CVPR’24)，Text2Video-zero（ICCV’23），RAVE(ICCV’23)，VideoComposer(NeurIPS’24)。

为了确保详细的比较，其不仅在 VireSet 数据集上进行测试，还在业内广泛使用的 DAVIS（CVPR’16）数据集上进行了测试。实验结果显示，VIRES 在客观评价指标：视觉感知质量（PSNR）、空间结构一致性（SSIM）、帧运动准确性（WE）、帧间一致性（FC）和文本描述一致性（TC）方面均取得了最佳结果。

此外，团队还进行了两项用户调研，其一是视觉质量评估（VQE），参与者会看到由 VIRES 和对比编辑方法生成的编辑结果，需要选择最具视觉吸引力的视频片段。其二是文本对齐评估（TAE），给定一个对应的文本描述，要求参与者从同一组编辑后的结果中选择最符合该描述的视频片段。在用户调研中，VIRES 均取得了最佳结果。

VIRES 与 5 种现有方法在外观编辑上的表现对比：

VIRES 与 5 种现有方法在结构编辑上的效果对比：

另外值得一提的是，在 Sketch 引导视频生成方面，VIRES 还支持根据文本描述直接从 Sketch 序列生成完整视频。在稀疏帧引导视频编辑方面，VIRES 支持只提供第一帧的 Sketch 来编辑视频。效果如下所示。

可控视频生成领域的持续探索

总结来看，VIRES 在草图与文本引导下实现了实例结构一致性，而从某种角度来看，其也是面向「如何让空间结构信息在视频生成中稳定传递」这一重要挑战，给出了一种可靠的解决方案。与此同时，该研究团队步履不停，在突破这一类目标级控制之后，还将目光投向了全景级别的可控视频生成。

该研究团队提出了一种能够以最小改动，有效将预训练文本生成视频模型扩展至全景领域的方法，并将其命名为 PanoWan。该方法采用了纬度感知采样（latitude-aware sampling）以避免纬度方向的图像畸变，同时引入旋转语义去噪机制（rotated semantic denoising）和像素级填充解码策略（padded pixel-wise decoding），以实现经度边界的无缝过渡。实验结果表明，PanoWan 在全景视频生成任务中的表现达 SOTA 级别，并在零样本下游任务中展现出良好的泛化能力。相关论文现已发布于 arXiv：https://arxiv.org/abs/2505.22016。

聚焦该研究团队，北京大学相机智能实验室（http://camera.pku.edu.cn），负责人施柏鑫，北京大学计算机学院视频与视觉技术研究所副所长，长聘副教授（研究员）、博士生导师；北京智源学者；北大 - 智平方具身智能联合实验室主任。日本东京大学博士，麻省理工学院媒体实验室博士后。研究方向为计算摄像学与计算机视觉，发表论文 200 余篇（包括 TPAMI 论文 30 篇，计算机视觉三大顶级会议论文 92 篇）。论文获评 IEEE/CVF 计算机视觉与模式识别会议（CVPR）2024 最佳论文亚军（Best Paper, Runners-Up）、国际计算摄像会议（ICCP）2015 最佳论文亚军、国际计算机视觉会议（ICCV）2015 最佳论文候选，获得日本大川研究助成奖（2021）、中国电子学会青年科学家奖（2024）。科技部人工智能重大专项首席科学家，国家自然科学基金重点项目负责人，国家级青年人才计划入选者。担任国际顶级期刊 TPAMI、IJCV 编委，顶级会议 CVPR、ICCV、ECCV 领域主席。APSIPA 杰出讲者、CCF 杰出会员、IEEE/CSIG 高级会员。

主要合作者 OpenBayes贝式计算作为国内领先的人工智能服务商，深耕工业研究与科研支持领域，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，进而为工业企业及高校科研机构等提供更加快速、易用的数据科学计算产品，其产品已被数十家大型工业场景或头部科研院所采用。

双方共同在可控视频生成领域的探索已经取得了阶段性成果，相信在这一校企合作模式下，也将加速推进高质量成果早日落地产业。

文中视频链接：

https://mp.weixin.qq.com/s/Z27kKgFReZ8RGnA22-CbcQ

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.