腾讯和香港城市大学提出了第一个基于参考的线条视频上色的扩散框架LVCD。与之前仅依赖图像生成模型逐帧上色的做法不同,该方法利用了一个大规模的预训练视频扩散模型来生成彩色动画视频。这种方法能更好地保持时间一致性,并处理大幅度运动。(链接在文章底部)
LVCD框架能够根据线条草图生成快速、流畅的动画。这意味着,创作者们不仅可以轻松上色,还能创造出更具动感的作品!LVCD的实验结果表明,这一方法在帧质量和时间一致性方面明显优于现有技术。无论是小幅度的细腻表现,还是大幅度的动态场景,这一框架都能够自如应对,开创了动画制作的新纪元。 该 框架具有通用性,它可以扩展到其他模态,例如边缘、深度图和法线图。 在未来的工作中, 生成由其他模态甚至多模态引导的逼真视频。
01 技术原理
LVCD的目标是设计一个视频扩散框架,用于基于参考的线条视频上色,能够生成长时间一致的动画序列,特别是适应大幅度运动。首先,LVCD提出了“草图引导控制网络”和“参考注意机制”,使模型能够根据线条草图生成快速、大幅度移动的动画。经过对模型架构的修改后,使用动画视频对其进行微调,以完成特定任务。
在推理过程中,扩展了原始的奇异值分解(SVD),通过顺序采样来生成长时间一致的动画,结合了重叠混合模块和先前参考注意机制。这使得生成的动画在时间上更加连贯和流畅。
LVCD引入了一种顺序采样方法,结合重叠混合模块和先前参考注意机制,使得视频生成可以保持长时间的一致性。对于长视频序列,将其分割为多个片段,每个片段使用第一个参考帧进行采样,并引入重叠帧以在片段之间建立联系。
通过扩展空间混合为时间混合,能够将前一个片段的去噪结果融入后续片段,从而确保生成的视频在视觉上连贯自然。 这种方法显著提升了动画的流畅度和一致性。
02 对比与应用
LVCD 方法与两种现有的参考线条视频上色框架进行比较: ACOF(光流方法)和TCVC(图像到图像框架),这两者都是基于生成对抗网络(GAN)的。 由于缺乏统一的线条视频上色数据集, LVCD 使用自己的数据集生成帧对,以确保公平比较,并利用官方代码训练这两种方法。
评估了两个版本:原始版本“Prev Sample”更新参考帧为之前生成的帧,而“First Sample”始终使用第一帧作为参考。由于没有扩散框架,LVCD还使用了经过微调的图像控制网络(ControlNet)。此外,选择了EISAI和SEINE进行插值比较,前者进行动画插值,后者用于视频插值。LVCD首先为每13帧生成关键帧上色,然后再用这两种方法插值剩余帧。
https://arxiv.org/pdf/2409.12960欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.