浙江大学提出了一种统一的可控视频生成方法,叫做AnimateAnything,它可以在多种条件下实现精准且一致的视频编辑,比如相机运动轨迹、文本提示和用户提供的动作标注。 简单来说, 设计了一种多尺度控制特征融合网络,将不同的控制条件转化为一个通用的动作表示。 这些动作 信息会被显式地转换成逐帧的光流数据(光流就是描述每帧画面中像素如何移动的一种方式)。 然后,这些光流数据会作为“动作指南”,用来引导视频生成。(链接在文章底部)
给定一张参考图像和相应的用户提示,AnimateAnything方法能够为任意角色生成动画,制作出清晰稳定的视频,同时保持与参考对象外观细节的一致性。AnimateAnything设计了一种基于频率的稳定化模块,用于在频域中保留关键特征,并减少因大规模运动引起的闪烁问题。
01 技术原理
整个流程分为两个阶段:第一阶段为统一光流生成,通过光流生成模型(FGM)和相机参考模型(CRM)两个同步的潜在扩散模型生成统一的光流表示。FGM 处理视觉信号生成稀疏或粗略的光流数据,而 CRM 则基于参考图像编码和相机运动轨迹生成多层次参考特征。这些特征通过“参考注意力层”逐步引导 FGM 去噪处理,最终生成完整且密集的光流。
第二阶段为视频生成。统一光流经过 3D VAE 编码器压缩后,与图像编码器生成的视频潜在特征结合,并通过视觉变换器模块(ViT)进行整合处理。最终,结合视频潜在特征与文本嵌入,利用扩散变换器模块(DiT)生成最终的视频。
视频生成中引入大量运动控制虽然能支持显著的运动变化,但也容易导致光流剧烈变化,从而引发视频闪烁和不稳定的问题。这种现象源于视频生成模型训练时,不同帧在同一时间步添加的噪声相互独立,导致帧间特征对齐不足,影响连续性和稳定性。
为解决这一问题,可以从频率域特征入手,通过揭示视频整体层面的关键信息,更有效地抑制闪烁,提升生成质量。
02 实际效果
人脸动画生成:
与 CameraCtrl 和 MotionCtrl 的比较: 与 Motioni2v、DragAnything 和 MOFA-Video 的比较: 人脸动画比较,与MotionClone、Motion-I2V、MOFA-Video比较: 动物动画对比: 各种拖拽: 缩小;放大;向左平移;向右平移;逆时针;顺时针:
https://arxiv.org/pdf/2411.10836
https://github.com/yu-shaonian/AnimateAnything欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.