网易首页 > 网易号 > 正文 申请入驻

首个基于Wan2.1的音频驱动数字人FantasyTalking

0
分享至

从单一静态肖像创建逼真的可动画化头像仍然具有挑战性。现有方法常常难以捕捉微妙的面部表情、相关的全身运动和动态背景。为了应对这些局限性,阿里提出了一种新颖的框架FantasyTalking,给定一张肖像图像、语音和文本,FantasyTalking可以生成富有表情、自然身体动作和身份特征的动画肖像。此外,FantasyTalking 还可以控制动画肖像的运动强度。(链接在文章底部)

尽管FantasyTalking在生成户外对话头像视频的应用场景中取得了显著的进展,展现了更高的真实感和连贯性,但由于其依赖扩散模型的推理过程,该过程需要通过迭代采样来逐步优化结果,因此整体的计算时间较长,导致在实时应用中的效率较低。这一瓶颈限制了其在一些需要快速响应的场景中的应用,如直播和互动实时应用等。

01 技术原理

FantasyTalking 方法基于Wan2.1 视频扩散变换器模型,采用双阶段视听对齐策略,能够生成高度逼真且视觉连贯的对话肖像。第一阶段通过片段级训练对齐音频驱动的动态,建立一致的全局运动;第二阶段通过唇部追踪掩膜精细化唇部动作,确保与音频信号同步。为保持面部一致性,用面部聚焦的跨注意力模块替代传统参考网络,并集成了运动强度调节模块,控制表情和身体动作的幅度,增强肖像的自然性和可控性。

片段级训练:如图(a)所示,第一阶段的训练计算了全长音视频标记序列中的3D全注意力关联,在片段级别建立了全局视听依赖关系,同时实现了整体特征融合。尽管这一阶段使得模型能够联合学习弱音频相关的非语言线索(例如眉毛运动、肩膀动作)和强音频同步的唇部动态,但模型仍然难以精确学习唇部运动。这是因为唇部在整个视觉场景中所占的比例较小,而每一帧的视频序列与音频高度相关。

帧级训练:在第二阶段的训练中,如图3(b)所示,专注于通过帧级精确的视听对齐来优化唇部的动作。根据一对一的映射关系对音频和视频进行分段,将视频标记重塑为形状为 × (ℎ × ) × 的矩阵,将音频标记重塑为形状为 × ′ × 的矩阵,其中表示通道数。接着,计算这些标记之间的3D全注意力,确保视觉特征仅关注它们对应的音频特征。

02 演示效果

视频生成: FantasyTalking 可以生成高度逼真的唇部同步,确保角色的口型与音频匹配。支持多种风格的头像,无论是现实风格还是卡通风格,并且能够生成高质量的对话视频。

逼真的对话视频: FantasyTalking 支持生成具有多种身体范围和姿势的逼真对话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

多样化角色风格:FantasyTalking 可以将角色和动物以各种风格进行动画化,生成动态、富有表现力且自然逼真的风格化视频。

与封闭源方法的比较:FantasyTalking模型的表现与当前多模态条件下人类视频生成的最先进方法OmniHuman-1进行了比较。

https://arxiv.org/abs/2504.04842
https://github.com/Fantasy-AMAP/fantasy-talking

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

继德国之后,英国也贴出中文标语?中国游客为何屡遭专属中文歧视

贱议你读史
2026-06-01 20:30:03
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
市场监管形同虚设!大量有毒根茎作物流入市场,蒜薹、土豆全程灌毒,农户自己不吃

市场监管形同虚设!大量有毒根茎作物流入市场,蒜薹、土豆全程灌毒,农户自己不吃

极目新闻
2026-05-24 21:12:36
欧冠决赛夜,这位美女主持人抢了镜

欧冠决赛夜,这位美女主持人抢了镜

乐道足球C
2026-06-01 20:47:46
就在刚刚,中国国民党正式宣布

就在刚刚,中国国民党正式宣布

安安说
2026-06-01 11:39:08
台海观澜 | 马英九不能不服老,郑丽文还须明大局

台海观澜 | 马英九不能不服老,郑丽文还须明大局

经济观察报
2026-06-01 16:56:29
1100万清洗!前巴萨10号离队:巅峰身价8000万 梅西接班人

1100万清洗!前巴萨10号离队:巅峰身价8000万 梅西接班人

叶青足球世界
2026-06-01 20:06:16
19岁大学生从5楼卫生间窗户坠亡,家属起诉学校及实习单位索赔145万元,长春法院判了

19岁大学生从5楼卫生间窗户坠亡,家属起诉学校及实习单位索赔145万元,长春法院判了

大风新闻
2026-06-01 16:35:07
奚梦瑶婚礼现场图!一双儿女当花童,四太笑的开心,谷爱凌也来了

奚梦瑶婚礼现场图!一双儿女当花童,四太笑的开心,谷爱凌也来了

美美赚钱
2026-06-01 14:04:53
女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

女篮世界杯中国队遭开门黑!首秀惜败德国:G2战又掀翻欧洲劲旅!

篮球快餐车
2026-06-02 02:17:47
7月1日起!投资美股不报备,就要没收违法所得...

7月1日起!投资美股不报备,就要没收违法所得...

玛丽姬丝
2026-06-01 15:29:35
河南13人死亡车祸后 :当地不少拼车群解散,有客运站被重申“严禁超员”丨封面深镜

河南13人死亡车祸后 :当地不少拼车群解散,有客运站被重申“严禁超员”丨封面深镜

封面新闻
2026-06-01 19:10:28
人口告别世界第一?二孩催生无效后,国家终于向住房方面动真格了

人口告别世界第一?二孩催生无效后,国家终于向住房方面动真格了

潮鹿逐梦
2026-06-01 22:43:07
给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

快科技
2026-05-31 14:09:06
从0-2到3-3!土伦杯日本队爆冷,亚洲3队仅中国队赢球

从0-2到3-3!土伦杯日本队爆冷,亚洲3队仅中国队赢球

何老师呀
2026-06-02 00:42:32
李明突然离世,年仅48岁!

李明突然离世,年仅48岁!

深圳晚报
2026-06-01 16:31:16
马科斯坏事做绝!中方大使罕见撂重话:中国人不好欺负,后果严重

马科斯坏事做绝!中方大使罕见撂重话:中国人不好欺负,后果严重

叮当当科技
2026-06-02 01:13:49
五年减少3900万!儿童节,越来越冷清了

五年减少3900万!儿童节,越来越冷清了

西部城市
2026-06-01 11:30:39
中国手机全面撤离?莫迪开始慌了,外媒:更可怕的才刚刚开始

中国手机全面撤离?莫迪开始慌了,外媒:更可怕的才刚刚开始

混沌录
2026-06-01 23:24:08
CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

CCTV5直播!上午8点30分!NBA总决赛G1来袭,文班和大头再续恩怨

球盲百小易
2026-06-02 00:52:56
2026-06-02 06:00:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

头条要闻

伊朗计划彻底封锁霍尔木兹海峡 特朗普回应

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

数码
家居
亲子
教育
军事航空

数码要闻

LG 34U601B 1800R曲面显示器开售:34英寸21:9带鱼屏,1599元

家居要闻

自信舒展 高背座椅

亲子要闻

儿子啊不带你这么坑爹的呀

教育要闻

海口一老师赛课猝死,学校称,按工伤处理,引发社会关注

军事要闻

韩国最大军工企业爆炸 已造成5人死亡

无障碍浏览 进入关怀版