字节提出了X-Actor,一个新颖的音频驱动自回归扩散框架,可通过一张静态参考图像和一段音频生成逼真、富有情感表达的人像动画视频。与以往主要关注唇形同步和短时视觉保真度的方法不同,X-Actor 实现了具备演员级表现力的长时人像表演,能够捕捉与语音节奏和语义内容协调一致的细腻、动态演变的情感变化,并实现长时间的唇形同步与情感音频一致性。(链接在文章底部)
X-Actor 的核心是一个两阶段的解耦生成流程:首先,采用一个音频条件下的自回归扩散模型,在长时间窗口内预测表现力丰富但去身份化的面部运动潜变量;接着,通过一个基于扩散的视频合成模块将这些潜变量还原为高保真度的视频动画。该方法在解耦视觉和身份信息的紧凑潜空间中建模,并结合diffusion-forcing 训练机制,有效捕捉音频与面部动态之间的长程关联,实现稳定、无误差积累的情感运动预测,支持无限时长的连续生成。
01 技术原理
X-Actor 将视频合成与音频驱动的运动生成解耦,并在一个紧凑、富有表现力、与身份无关的面部运动潜空间中进行建模。具体来说,使用预训练的运动编码器将说话视频帧编码为一系列面部运动潜变量序列。这些潜变量被注入异步采样的噪声等级,并通过一个使用diffusion-forcing 机制训练的自回归扩散模型进行去噪重建。
在每一个运动片段(motion chunk)内部,应用全局自注意力机制以保留细粒度的表情表现力;而跨片段的因果自注意力机制则确保了长程的时间连贯性与上下文感知能力。每个运动 token 还通过窗口化交叉注意力机制与对齐的视频帧音频特征进行关联,从而实现精确的唇形同步并捕捉情绪的瞬时变化。
在推理阶段,模型会基于历史运动上下文,按照单调递减的噪声调度策略,以自回归方式迭代预测未来的运动 tokens。最后,结合一张参考图像,使用预训练的扩散视频生成器将预测的运动序列渲染为高保真、富有情感的视频帧。
运动多样性:同一张参考图像,不同音频驱动多样化表演
X-Actor 与当前主流音频驱动人像动画方法的主观效果对比:相比之下,X-Actor方法能够生成与输入音频高度契合、富有情感表现力的表演,而其他方法则在面部情绪和表情一致性方面表现不佳,其输出结果容易受到参考图像中原始情绪的干扰。
尽管已取得显著进展,X-Actor 目前仍局限于头部动画,尚未建模全身动作与手势。此外,当前视频扩散模型在情感表现力上仍有限,未来将探索如哭泣、颤抖等更复杂的动态表现,并尝试将方法泛化到非人类对象如动物等。与此同时,高质量、长时情感表演数据的稀缺性仍是制约因素。
https://arxiv.org/pdf/2508.02944
欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.