最近,图像重光照模型的进展,得益于大规模数据集和预训练扩散模型,已经能够实现一致的光照控制。然而,视频重光照仍然滞后,主要由于过高的训练成本和缺乏多样化且高质量的视频重光照数据集。在视频中简单地对每一帧应用图像重光照模型会导致一些问题:光照源不一致和重光照效果的不一致,从而在生成的视频中产生闪烁现象。为了解决该问题,上海交大提出了Light-A-Video,这是一种无需训练的方法,用于实现时间上的平滑视频重光照。(链接在文章底部)
Light-A-Video从图像重光照模型中进行改进,提出了两项关键技术以增强光照一致性。首先,设计了一个一致性光照注意力(CLA)模块,它增强了自注意力层内的跨帧交互,从而稳定背景光照源的生成。其次,利用光传输独立性的物理原理,在源视频的外观与重光照外观之间应用线性融合,采用渐进式光照融合(PLF)策略,确保光照过渡的平滑性。
01 技术原理
如下面框架所示,首先对源视频进行噪声处理,并通过VDM进行去噪,经过 步处理。在每一步中,预测的无噪声组件与细节补偿一起,作为一致性目标 ,自然地表示了VDM的去噪方向。一致性光照注意力将 注入独特的光照信息,将其转化为重光照目标 。渐进式光照融合策略随后将这两个目标融合,形成融合目标 ,为当前步骤提供了精细的方向。右下部分显示了 的迭代演化过程。
视频重光照任务揭示了视频序列的逐帧图像重光照存在光照源不一致的问题,并相应地提出了一致性光照注意力(CLA)模块,以增强逐帧图像重光照结果中的光照稳定性。Light-A-Video管道,通过渐进式光照融合(PLF)策略,实现了稳定的光照源生成和时间一致性的重光照视频。
PLF策略的可视化。在VDM的去噪过程中,PLF策略逐步将原始一致性目标 替换为融合目标 ,从而引导去噪方向从 到 。
02 演示效果与对比
逐帧的IC-Light方法确保了单帧质量,但由于缺乏一致性设计和VDM时间先验,光照源和外观出现了明显的闪烁。引入VDM先验后,IC-Light + SDEdit0.2能保持与源视频一致的内容,但仍存在重光照外观抖动;IC-Light + SDEdit-0.6虽然增强了时间平滑性,但物体身份发生变化。
AnyV2V方法能够将第一帧的外观迁移到后续帧,但未能感知光照源,导致不合理的光照变化。相比之下,Light-A-Video实现了高质量的视频重光照,展示了强大的时间一致性和高保真度。
https://github.com/bcmi/Light-A-Video/
https://arxiv.org/abs/2502.08590欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.