在人体图像动画中,保持首帧身份特征的同时确保精确的动作控制,是一个基础性的挑战。主流的“参考到视频”(Reference-to-Video, R2V)范式中的图像到动作绑定(Image-to-Motion Binding)过程忽略了现实应用中常见的关键时空错位,从而导致身份漂移和视觉伪影等问题。南大联合腾讯提出了SteadyDancer,一个基于“图像到视频”(Image-to-Video, I2V)范式的框架,实现了协调一致的动画生成,并且首次能够稳健地保证首帧特征的保留。(链接在文章底部)
首先,提出了条件调和机制(Condition-Reconciliation Mechanism),用于调和两种冲突的条件,实现精确控制的同时不损失图像真实性。其次,设计了协同姿态调制模块(Synergistic Pose Modulation Modules),生成与参考图像高度兼容的自适应、连贯的姿态表示。最后,采用了分阶段解耦目标训练流程(Staged Decoupled-Objective Training Pipeline),分层优化模型以兼顾动作精度、视觉质量和时间一致性。
SteadyDancer识别并解决了现实场景中常见的时空错位问题,包括源图像与驱动视频之间的空间结构不一致和时间起始差距,这些问题往往会导致生成动画中的身份漂移。
![]()
R2V 范式将动画生成视为将参考图像绑定到驱动姿态的过程。然而,这种对齐约束的放宽在存在时空错位时容易失败,导致空间不一致或时间起始差距场景下出现伪影和突兀的过渡。
![]()
相比之下,I2V 范式更优,因为它天然保证了首帧的保留,并通过“动作到图像对齐(Motion-to-Image Alignment)”机制,实现了从参考状态直接生成高保真且连贯的视频。
与几种目前流行的动作视频生成框架进行对比。可以看到SteadyDancer 相较于HumanVid、Hyper-Motion、MimicMotion以及Wan-Animate效果更好。
同时,为弥补现有同源基准无法评估时空错位的问题,提出了X-Dance,一个包含多样化图像类别和复杂驱动视频的新基准,用于更全面地评估模型的泛化能力。
![]()
尽管SteadyDancer在生成协调一致的动画方面表现出色,但仍存在一些局限性,包括:在处理风格化图像(如动漫)时,模型的风格一致性略低于真实图像的保真度;在极端动作差异情况下,优先保证动作精度可能导致过快或略显不自然的过渡;此外,当前架构高度依赖输入姿态序列的准确性,连续的姿态估计误差可能引发不可逆的生成伪影。
https://huggingface.co/datasets/MCG-NJU/X-Dance欢迎关注交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.