阿里开源 Vivid-VR！带来逼真连贯的视频修复|vr|编码器|连接器|vivid|阿里巴巴集团|图像生成基础模型

阿里开源 Vivid-VR！带来逼真连贯的视频修复

2025-08-21 22:55:46　来源: 带你学AI

广东举报

分享至

阿里提出了一种名为Vivid-VR的新方法，用于视频修复。它基于一种先进的文本生成视频（T2V）模型，并结合了ControlNet来控制生成过程，从而保证画面内容的一致性。传统方法在微调时常常因为文本和视频的对齐不够完美，出现所谓的“分布漂移”，导致生成的视频画面不够真实，或者时间上不够连贯。

为了解决这个问题，Vivid-VR 引入了概念蒸馏训练策略。简单来说，就是利用已经训练好的 T2V 模型来生成带有文本信息的训练数据，把模型中学到的“概念理解”提炼出来，再用于训练。这么做的好处是能保持视频的纹理细节和时间上的流畅性。在模型架构上，还设计了两个核心组件：一是控制特征投影器，可以过滤掉输入视频中的噪声和退化痕迹；二是双分支 ControlNet 连接器，结合了 MLP 特征映射和跨注意力机制，既能保留视频的主要内容，又能灵活调节控制信号。（链接在文章底部）

01 技术原理

Vivid-VR 首先利用CogVLM2-Video对低质量（LQ）输入视频进行处理，生成对应的文本描述，并通过T5 编码器将其转化为文本 token。与此同时，3D VAE 编码器将输入视频转换为潜在表示，在此过程中，控制特征投影器会去除其中的退化伪影。随后，视频潜表示被划分为 patch，并加入噪声，再与文本 token 和时间步嵌入（timestep embeddings）结合，作为DiT 与 ControlNet的输入。

为了增强可控性，设计了一个双分支连接器：其中一支是MLP 分支，用于特征映射；另一支是跨注意力分支，用于动态控制特征检索，从而实现输入对齐的自适应调节。经过T 步去噪（denoising steps）后，3D VAE 解码器最终重建得到高质量（HQ）输出视频。在训练过程中，只有控制特征投影器、ControlNet 和连接器会通过所提出的概念蒸馏策略进行训练，其余参数保持冻结。

将 Vivid-VR 与多种先进方法进行对比，包括图像修复（RealESRGAN、SUPIR）和视频修复方法（UAV、MGLD、STAR、DOVE、SeedVR7B、SeedVR2-7B）

实验可视化结果表明，Vivid-VR 在合成、真实场景和 AIGC 视频上均展现出优异表现，不仅能够生成合理清晰的结构并保持逼真细腻的纹理，还在时间一致性方面优于现有方法：如窗户和门等结构在序列中始终保持稳定，而基于图像的 SUPIR 存在逐帧不一致问题，STAR 和 SeedVR-7B 则因微调引入分布漂移而导致时序下降；同时，若不采用概念蒸馏策略，Vivid-VR 也会出现类似退化，进一步验证了该策略的重要性。

https://github.com/csbhr/Vivid-VR
https://arxiv.org/pdf/2508.14483

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.