网易首页 > 网易号 > 正文 申请入驻

X-Actor 惊艳登场!长时唇动+情感同步人像动画生成

0
分享至

字节提出了X-Actor,一个新颖的音频驱动自回归扩散框架,可通过一张静态参考图像一段音频生成逼真、富有情感表达的人像动画视频。与以往主要关注唇形同步和短时视觉保真度的方法不同,X-Actor 实现了具备演员级表现力的长时人像表演,能够捕捉与语音节奏和语义内容协调一致的细腻、动态演变的情感变化,并实现长时间的唇形同步与情感音频一致性(链接在文章底部)

X-Actor 的核心是一个两阶段的解耦生成流程:首先,采用一个音频条件下的自回归扩散模型,在长时间窗口内预测表现力丰富但去身份化的面部运动潜变量;接着,通过一个基于扩散的视频合成模块将这些潜变量还原为高保真度的视频动画。该方法在解耦视觉和身份信息的紧凑潜空间中建模,并结合diffusion-forcing 训练机制,有效捕捉音频与面部动态之间的长程关联,实现稳定、无误差积累的情感运动预测,支持无限时长的连续生成

01 技术原理

X-Actor 将视频合成与音频驱动的运动生成解耦,并在一个紧凑、富有表现力、与身份无关的面部运动潜空间中进行建模。具体来说,使用预训练的运动编码器将说话视频帧编码为一系列面部运动潜变量序列。这些潜变量被注入异步采样的噪声等级,并通过一个使用diffusion-forcing 机制训练的自回归扩散模型进行去噪重建。


在每一个运动片段(motion chunk)内部,应用全局自注意力机制以保留细粒度的表情表现力;而跨片段的因果自注意力机制则确保了长程的时间连贯性与上下文感知能力。每个运动 token 还通过窗口化交叉注意力机制对齐的视频帧音频特征进行关联,从而实现精确的唇形同步并捕捉情绪的瞬时变化

在推理阶段,模型会基于历史运动上下文,按照单调递减的噪声调度策略,以自回归方式迭代预测未来的运动 tokens。最后,结合一张参考图像,使用预训练的扩散视频生成器将预测的运动序列渲染为高保真、富有情感的视频帧

运动多样性:同一张参考图像,不同音频驱动多样化表演

X-Actor 与当前主流音频驱动人像动画方法的主观效果对比:相比之下,X-Actor方法能够生成与输入音频高度契合、富有情感表现力的表演,而其他方法则在面部情绪和表情一致性方面表现不佳,其输出结果容易受到参考图像中原始情绪的干扰

尽管已取得显著进展,X-Actor 目前仍局限于头部动画,尚未建模全身动作与手势。此外,当前视频扩散模型在情感表现力上仍有限,未来将探索如哭泣、颤抖等更复杂的动态表现,并尝试将方法泛化到非人类对象如动物等。与此同时,高质量、长时情感表演数据的稀缺性仍是制约因素。

https://arxiv.org/pdf/2508.02944

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爱马仕一夜翻车!吴越被嘲“豪门粽”,47亿中国市场遭本土化反噬

爱马仕一夜翻车!吴越被嘲“豪门粽”,47亿中国市场遭本土化反噬

湘村大余
2025-09-19 19:13:45
东北第二故乡三亚不香了?大批东北人纷纷撤离,背后原因令人无奈

东北第二故乡三亚不香了?大批东北人纷纷撤离,背后原因令人无奈

枫尘余往逝
2025-09-18 21:49:02
沉默1天后,菲向中国海警举白旗投降,中方态度强硬,马科斯落泪演戏

沉默1天后,菲向中国海警举白旗投降,中方态度强硬,马科斯落泪演戏

科技有趣事
2025-09-18 10:47:27
反对“一国两制”!蒋万安将率领四人再访大陆,大陆用10个字回应

反对“一国两制”!蒋万安将率领四人再访大陆,大陆用10个字回应

混沌录
2025-09-19 14:40:30
寿命比较短的男性,通常会有6个“共性”,希望你一个也不占!

寿命比较短的男性,通常会有6个“共性”,希望你一个也不占!

医学原创故事会
2025-07-31 15:53:03
两性关系:你看完下面文章,你就知道,晚年异性在一起到底是为啥

两性关系:你看完下面文章,你就知道,晚年异性在一起到底是为啥

朗威谈星座
2025-09-20 03:18:03
费内巴切主席:穆帅说来这执教是错误的?我认为双方都有错误

费内巴切主席:穆帅说来这执教是错误的?我认为双方都有错误

懂球帝
2025-09-19 16:05:08
国内暂无解药!死亡率接近100%!医生开出4瓶白酒救湖北小伙一命

国内暂无解药!死亡率接近100%!医生开出4瓶白酒救湖北小伙一命

朗威游戏说
2025-09-16 11:49:08
信达澳亚产品业绩持续发力 近一年44只产品收益超30%

信达澳亚产品业绩持续发力 近一年44只产品收益超30%

中国基金报
2025-09-19 09:15:57
特朗普想收回阿富汗空军基地的原因是中国?外交部:制造对抗不得人心

特朗普想收回阿富汗空军基地的原因是中国?外交部:制造对抗不得人心

澎湃新闻
2025-09-19 15:24:27
网传央企地产董事长被抓,建筑行业反腐清算来了!

网传央企地产董事长被抓,建筑行业反腐清算来了!

黯泉
2025-09-19 12:33:20
德国医生发现:一旦开始戒烟,7件事就不要做了,别害了自己

德国医生发现:一旦开始戒烟,7件事就不要做了,别害了自己

刘哥谈体育
2025-09-19 11:58:54
何猷君乘国产豪车现身南宁,新座驾崭新,传何超莲给家人买了30台

何猷君乘国产豪车现身南宁,新座驾崭新,传何超莲给家人买了30台

柠檬有娱乐
2025-09-19 14:14:57
美媒:歼36不但在技术领先,还比F47更早服役,将称霸中太平洋

美媒:歼36不但在技术领先,还比F47更早服役,将称霸中太平洋

栗子熟了呀
2025-09-19 09:45:13
《红楼梦》翻拍,贾宝玉的人选呼声最高的五位,你觉得谁最适合?

《红楼梦》翻拍,贾宝玉的人选呼声最高的五位,你觉得谁最适合?

窦韦侃影视
2025-09-10 10:36:32
谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

谁能认出这是全红婵?长相+身材都变了,网友:不可能回到过去了

念洲
2025-09-17 06:56:45
身体发出这4个“求救信号”,是免疫力崩溃的前兆!

身体发出这4个“求救信号”,是免疫力崩溃的前兆!

大象新闻
2025-09-17 15:45:04
具俊晔想要分大S那套价值4亿的豪宅,却拿不出6000万的税款

具俊晔想要分大S那套价值4亿的豪宅,却拿不出6000万的税款

小光侃娱乐
2025-09-19 21:25:04
中国驻菲律宾大使黄溪连辞行拜会菲外长拉扎罗

中国驻菲律宾大使黄溪连辞行拜会菲外长拉扎罗

界面新闻
2025-09-19 17:49:30
姆巴佩透露重磅消息,皇马将连续第二年全体缺席金球奖颁奖

姆巴佩透露重磅消息,皇马将连续第二年全体缺席金球奖颁奖

臻体育
2025-09-20 00:21:22
2025-09-20 04:32:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
349文章数 7关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

数码
时尚
手机
游戏
公开课

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

卡其裤+蓝衬衫,简单高级

手机要闻

小米 17 Pro 系列手机用上 L 型电池,背屏斥资 10 个亿打造

和三月七一样爱自拍,还恶趣味让叽米加班,长夜月越来越神秘了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版