X-Dyna 是一个全新的零样本、基于扩散的管线,用于通过面部表情和身体动作来为单张人像图像制作动画。这些表情和动作来自一段“驱动”视频,X-Dyna 能生成既真实又富有动态感的动画,不仅让人物动得自然,还能让周围环境也跟着动起来。相比以前主要聚焦于人体姿势控制的方法,X-Dyna 解决了动态细节缺失的问题,使得动画看起来更具生命力。(链接在文章底部)
X-Dyna 的核心是一个叫做 "Dynamics-Adapter" 的轻量级模块,它能够有效地将参考图像中的外观信息融入到扩散模型的空间注意力机制中,同时保持运动模块生成流畅复杂的动态效果。除了控制人物的身体姿势,X-Dyna 还引入了一个本地控制模块,用于捕捉和转移面部表情,实现更加真实的面部表情转换,使得动画中的人物表情更加自然。
01 技术原理
X-Dyna使用预训练的扩散 UNet 模型控制人像动画,实现场景与人物的动态细节和精准动作控制。通过引入动态适配器,将参考图像信息融入空间注意力机制,并与去噪过程同步进行,同时保留原有的空间和时间注意力机制。除了控制身体姿势外,还加入了本地面部控制模块,通过合成的面部补丁学习面部表情控制。模型在包含丰富人体运动和自然场景的视频数据集上训练。
a)IP-Adapter将参考图像编码为图像的 CLIP 嵌入,并将这些信息作为残差注入到扩散模型(SD)的交叉注意力层中。b)ReferenceNet是一个可训练的并行 UNet 模型,它通过将自注意力特征拼接的方式,将语义信息传递给 SD。c)Dynamics-Adapter使用部分共享权重的 UNet 对参考图像进行编码。通过在自注意力机制中学习残差,并通过可训练的查询和输出线性层实现外观控制。其他所有组件都与 SD 保持相同的冻结权重。
02 演示效果与对比
为了评估 X-Dyna 在人体视频动画中的动态纹理生成表现,将 X-Dyna 生成的结果与 MagicPose(基于 ReferenceNet 的方法)和 MimicMotion(基于 SVD 的方法)进行比较。为了确保公平比较,所有生成的视频都保持相同的分辨率:高度 x 宽度 = 896 x 512。
不同Adapter设计的比较:为了展示提出的 Dynamics-Adapter 的有效性,展示了与 IP-Adapter 和 ReferenceNet 的视觉比较。
最低要求:生成一段包含 16 帧的单个视频(batch_size=1)需要至少 20GB 的 GPU 内存。推荐配置:建议使用 80GB 内存的 GPU。
https://github.com/bytedance/X-Dyna
https://arxiv.org/pdf/2501.10021欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.