一个优秀的Dancer！轻松驾驭复杂动作SteadyDancer|动画|视觉|伪影|image|steadydancer

一个优秀的Dancer！轻松驾驭复杂动作SteadyDancer

2025-11-27 14:21:48　来源: 带你学AI

广东举报

分享至

在人体图像动画中，保持首帧身份特征的同时确保精确的动作控制，是一个基础性的挑战。主流的“参考到视频”（Reference-to-Video, R2V）范式中的图像到动作绑定（Image-to-Motion Binding）过程忽略了现实应用中常见的关键时空错位，从而导致身份漂移和视觉伪影等问题。南大联合腾讯提出了SteadyDancer，一个基于“图像到视频”（Image-to-Video, I2V）范式的框架，实现了协调一致的动画生成，并且首次能够稳健地保证首帧特征的保留。（链接在文章底部）

首先，提出了条件调和机制（Condition-Reconciliation Mechanism），用于调和两种冲突的条件，实现精确控制的同时不损失图像真实性。其次，设计了协同姿态调制模块（Synergistic Pose Modulation Modules），生成与参考图像高度兼容的自适应、连贯的姿态表示。最后，采用了分阶段解耦目标训练流程（Staged Decoupled-Objective Training Pipeline），分层优化模型以兼顾动作精度、视觉质量和时间一致性。

SteadyDancer识别并解决了现实场景中常见的时空错位问题，包括源图像与驱动视频之间的空间结构不一致和时间起始差距，这些问题往往会导致生成动画中的身份漂移。

R2V 范式将动画生成视为将参考图像绑定到驱动姿态的过程。然而，这种对齐约束的放宽在存在时空错位时容易失败，导致空间不一致或时间起始差距场景下出现伪影和突兀的过渡。

相比之下，I2V 范式更优，因为它天然保证了首帧的保留，并通过“动作到图像对齐（Motion-to-Image Alignment）”机制，实现了从参考状态直接生成高保真且连贯的视频。

与几种目前流行的动作视频生成框架进行对比。可以看到SteadyDancer 相较于HumanVid、Hyper-Motion、MimicMotion以及Wan-Animate效果更好。

同时，为弥补现有同源基准无法评估时空错位的问题，提出了X-Dance，一个包含多样化图像类别和复杂驱动视频的新基准，用于更全面地评估模型的泛化能力。

尽管SteadyDancer在生成协调一致的动画方面表现出色，但仍存在一些局限性，包括：在处理风格化图像（如动漫）时，模型的风格一致性略低于真实图像的保真度；在极端动作差异情况下，优先保证动作精度可能导致过快或略显不自然的过渡；此外，当前架构高度依赖输入姿态序列的准确性，连续的姿态估计误差可能引发不可逆的生成伪影。

https://huggingface.co/datasets/MCG-NJU/X-Dance

欢迎关注交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.