阿里提出了一种名为Vivid-VR的新方法,用于视频修复。它基于一种先进的文本生成视频(T2V)模型,并结合了ControlNet来控制生成过程,从而保证画面内容的一致性。传统方法在微调时常常因为文本和视频的对齐不够完美,出现所谓的“分布漂移”,导致生成的视频画面不够真实,或者时间上不够连贯。
为了解决这个问题,Vivid-VR 引入了概念蒸馏训练策略。简单来说,就是利用已经训练好的 T2V 模型来生成带有文本信息的训练数据,把模型中学到的“概念理解”提炼出来,再用于训练。这么做的好处是能保持视频的纹理细节和时间上的流畅性。在模型架构上,还设计了两个核心组件:一是控制特征投影器,可以过滤掉输入视频中的噪声和退化痕迹;二是双分支 ControlNet 连接器,结合了 MLP 特征映射和跨注意力机制,既能保留视频的主要内容,又能灵活调节控制信号。(链接在文章底部)
01 技术原理
Vivid-VR 首先利用CogVLM2-Video对低质量(LQ)输入视频进行处理,生成对应的文本描述,并通过T5 编码器将其转化为文本 token。与此同时,3D VAE 编码器将输入视频转换为潜在表示,在此过程中,控制特征投影器会去除其中的退化伪影。随后,视频潜表示被划分为 patch,并加入噪声,再与文本 token 和时间步嵌入(timestep embeddings)结合,作为DiT 与 ControlNet的输入。
为了增强可控性,设计了一个双分支连接器:其中一支是MLP 分支,用于特征映射;另一支是跨注意力分支,用于动态控制特征检索,从而实现输入对齐的自适应调节。经过T 步去噪(denoising steps)后,3D VAE 解码器最终重建得到高质量(HQ)输出视频。在训练过程中,只有控制特征投影器、ControlNet 和连接器会通过所提出的概念蒸馏策略进行训练,其余参数保持冻结。
将 Vivid-VR 与多种先进方法进行对比,包括图像修复(RealESRGAN、SUPIR)和视频修复方法(UAV、MGLD、STAR、DOVE、SeedVR7B、SeedVR2-7B)
实验可视化结果表明,Vivid-VR 在合成、真实场景和 AIGC 视频上均展现出优异表现,不仅能够生成合理清晰的结构并保持逼真细腻的纹理,还在时间一致性方面优于现有方法:如窗户和门等结构在序列中始终保持稳定,而基于图像的 SUPIR 存在逐帧不一致问题,STAR 和 SeedVR-7B 则因微调引入分布漂移而导致时序下降;同时,若不采用概念蒸馏策略,Vivid-VR 也会出现类似退化,进一步验证了该策略的重要性。
https://github.com/csbhr/Vivid-VR
https://arxiv.org/pdf/2508.14483
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.