尽管近年来基于图像的人体动画方法在合成真实的身体和面部动作方面取得了进展,但在精细的整体可控性、多尺度适应性和长期时序一致性方面仍然存在关键缺陷,这限制了它们的表现力和稳健性。为了解决这些问题,字节提出了一种基于扩散变换器(DiT)的框架—DreamActor-M1。(链接在文章底部)
DreamActor-M1 是一种基于 DiT 的人体动画框架,采用混合引导机制,实现精细可控、多尺度适应与长期时序一致性。给定参考图像,可模拟视频中的人体行为,生成的视频具有时序一致性,能够保持人物身份特征,并且具备高保真度。通过融合隐式面部表征、3D 头部球体与身体骨架实现稳健运动控制,结合渐进式训练与视觉参考,保证不同尺度下的表现力与时序连贯性。
01 技术原理
DreamActor-M1 总体流程概览如下:在训练阶段,首先从驱动帧中提取身体骨架和头部球体,并通过姿态编码器将其编码为姿态潜变量。该姿态潜变量随后与加入噪声的视频潜变量在通道维度上进行融合。视频潜变量是通过 3D VAE 对完整视频中的一个片段进行编码得到的。同时,面部表情通过面部动作编码器进行编码,生成隐式面部表征。需要注意的是,参考图像可以是从输入视频中采样的一帧或多帧,用于在训练中提供额外的外观细节,且参考分支与噪声分支共享 DiT 模型的权重。
最终,去噪后的视频潜变量将受到编码后的视频潜变量的监督。在每个 DiT 模块中,面部动作 token 会通过交叉注意力(Face Attn)集成到噪声分支中,而参考 token 的外观信息则通过拼接自注意力(Self Attn)和后续的交叉注意力(Ref Attn)注入到噪声分支中。
推理流程概览如下:首先,(可选地)生成多个伪参考图像,以提供互补的外观信息。接着,从驱动视频中提取混合控制信号,包括隐式面部动作和显式姿态(头部球体和身体骨架)。最后,这些信号被注入到 DiT 模型中,用于合成人体动画视频。该框架实现了面部动作与身体姿态的解耦,其中面部动作信号也可由语音输入替代生成。
02 演示效果与对比
多样性:DreamActor-M1方法对于各种角色和动作风格都具有很强的鲁棒性。
可控与稳定性:DreamActor-M1方法支持仅传输部分动作(例如面部表情和头部动作)
可以通过骨骼长度自适应调整感知动画
可以扩展到音频驱动的面部动画,提供多语言口型同步
补充视觉指导确保时间一致性,可以处理参考图像中未观察到的人体姿势
方法支持在不同头部姿势方向下生成结果
与现有人体图像动画方法(如 Animate Anyone 、Champ 、MimicMotion 和 DisPose )进行对比后,DreamActor-M1方法在细粒度动作、身份保持、时序一致性以及高保真度方面表现更优。
https://arxiv.org/pdf/2504.01724欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.