网易首页 > 网易号 > 正文 申请入驻

5分钟素材创造超写实人物形象!人大等团队提出SyncTalk - 高保真说话人合成

0
分享至

本文介绍来自人大等多个团队的最新科研成果 - SyncTalk。这是一种基于NeRF的高同步性说话人合成方法,专门针对提升说话人视频真实感和同步性而设计。本文克服了以往在同步性方面遇到的挑战,仅使用5分钟的说话视频即可生成高真实感的人物形象。目前该工作已入选CVPR 2024。

论文题目: SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis 论文链接: https://arxiv.org/abs/2311.17590 项目主页: https://ziqiaopeng.github.io/synctalk 代码链接: https://github.com/ZiqiaoPeng/SyncTalk

图1 SyncTalk通过使用5分钟的训练视频即可输出高真实感的说话人视频

一、 动机

合成由语音驱动的高真实感的说话人物视频面临着许多挑战。传统的基于GAN的方法难以保持一致的面部身份,而基于NeRF方法虽然能够解决这个问题,但通常会产生不匹配的唇部动作不具表现力的面部表情不稳定的头部姿势。一个逼真的说话人物需要同步协调人物身份、唇部动作、面部表情和头部姿势。缺乏这些同步效果是一个根本性缺陷,导致生成的效果不真实。

为了解决同步这一关键问题,作者引入了SyncTalk。这种基于NeRF的方法有效地保持了人物身份,增强了说话人物合成中的同步性和真实感。SyncTalk采用面部同步控制器(Face-Sync Controller)来使唇部动作与语音对齐,并创新性地使用3D面部混合形状模型来捕捉准确的面部表情。使用头部同步稳定器(Head-Sync Stabilizer)优化头部姿势,实现更自然的头部动作。使用动态肖像渲染(Dynamic Portrait Renderer)来生成高质量图像并恢复头发细节,提供更好的视觉体验。

二、方法

在本节中,将介绍作者提出的SyncTalk的三个关键模块,如图2所示,分别是:1)使用Face-Sync Controller控制嘴唇动作和面部表情,2)使用Head-Sync Stabilizer提供稳定的头部姿势,以及使用Dynamic Portrait Renderer渲染高同步面部视频,以下将进行详细介绍。

2.1 Face-Sync Controller

Audio-Visual Encoder

现有的基于NeRF的方法主要使用Deepspeech、Wav2Vec 2.0或HuBERT等方法提取音频特征,但是这些专为自动语音识别(ASR)任务设计的音频编码器并不能准确反映嘴唇运动。这是因为预训练模型基于从音频到文本的特征分布,而该任务需要从音频到嘴唇运动的特征分布。作者选择使用在2D视听同步数据集LRS2上进行预训练的视听同步音频编码器。这确保了通过该方法提取的音频特征和嘴唇运动具有相 同的特征分布,从而提供更精准的唇部运动。

Facial Animation Capturer

先前基于NeRF的方法只能控制眨眼,不能准确地控制面部表情。 如果用于训练的角色有大幅度的面部动作,如眯眼、扬眉或皱眉,会导致面部表情僵硬和面部细节不正确等问题。 考虑到对更加同步和逼真的面部表情的需求,本文增加了一个表情同步控制模块。 具体来说,通过使用 B 表示的52个面部混合形状系数,引入3D面部先验来对面部进行建模,如图3所示。 由于3D人脸模型可以保留人脸运动的结构信息,因此可以很好地反映面部的运动,而不会造成人脸结构失真。 在训练过程中,首先使用来自EmoTalk的面部混合形状捕获模块将面部表情捕获为E(B) ,并选择七个核心面部表情控制系数来控制眉毛、额头和眼睛区域。 它们与表情高度相关,与嘴唇运动无关。

2.2 Head-Sync Stabilizer

为了获取头部姿态,本文首先使用头部运动跟踪器来将3D可变形模型(3DMM)中的投影Landmark与视频帧中的实际Landmark之间的误差降到最低,从而得到较为稳定的头部旋转 和平移 。考虑到基于NeRF的方法对于头部运动的稳定性要求较高,如果运动参数不准确会出现较为明显的头部忽大忽小的情况。之前的方法仅使用稀疏的面部关键点来得到不稳定的头部姿态。

本文通过引入稠密点面部运动的追踪算法,并使用SLAM中的Bundle Adjustment来提高关键点和头部姿态估计的准确性,并引入了一个两阶段的优化框架。在第一阶段,随机初始化 个关键点的3D坐标,并优化它们的位置,使其与图像平面上跟踪的关键点对齐。此过程涉及最小化损失函数 ,该函数捕获投影关键点 和跟踪关键点 之间的差异,如下所 示:

在 第二阶段,进行更全面的优化,以细化3D关键点和相关 的头部联合姿态参数。通过Adam优化器调整了空间坐标、旋转角度 和平移 , 使误差 最 小化,表示为:

最终得到准确且稳定的头部姿态。

2.3 Dynamic Portrait Renderer

Tri-Plane Hash Representation

先前的方法如RAD-NeRF利用Instant-NGP实现了说话人的快速推理,但在音频驱动的3D动态头部建模中,哈希冲突影响了渲染质量和收敛性。为解决此问题,本文参考ER-NeRF使用三平面哈希表示,通过NeRF的三平面分解将3D空间分解为三个正交平面。在因子分解过程中,所有空间区域都被压缩到2D平面上,并修剪相应的特征网格,从而减少低维子空间中的散列冲突。在较少噪声的情况下,网络可以更专注于音频特征的处理,因此能够更准确地重建头部结构和更精细地捕捉动态运动。在建模过程中,对于给定的坐标 ,通过三个2D哈希编码器对其投影坐标进行编码:

其中 输 出 , 表示层级数, 表示每个条目的特征维度,表示与投影坐标 相对应的平面几何特征, 表示平面 的多分辨率哈希编码器。通过合并结果,得到最终的几何特征 :

其中特征的串联由 表示,结果为一个 通道的向量。利用 、观察方向 、嘴唇特征 和表情特征 ,三平面哈希的隐式函数定义为:

Portrait-Sync Generator

在训练过程中,为了解决NeRF在捕捉头发细节和动态背景等细节方面的局限性,作者引入了一个具有两个关键部分的人像同步生成器。首先,NeRF渲染面部区域 ( ) ,通过高斯模糊创建 作为面部的遮罩,然后使用同步的头部姿态,能够将面部渲染结果与原始图像 ( ) 贴合以增强头发细节的保真度。

其次,当头部和躯干结合在一起时,如果源视频中的角色说话而生成的面部保持沉默,可能会出现下巴上的伪影,我们使用平均颈部颜色 ( ) 来填充这些区域,从而实现了更加逼真的细节和改进的视觉质量。

三、实验

3.1 定量评估

首先作者比较了在自驱动情况下不同方法的结果,SyncTalk在图像质量上均优于其他方法,在同步性方面结果超过了大部分的方法。

SyncTalk具有两种输出模式,分别是使用人像同步生成器,和不使用人像同步生成器。通过使用人像同步生成器后,头发细节得到恢复,图像质量也得到提高。由于唇部、表情和姿势的同步,在图像质量方面也优于基于NeRF的方法,特别是在LPIPS度量方面。
其次比较了使用异源音频驱动的效果(使用其他人说话的音频驱动当前人物)。

表2 嘴唇同步的定量结果

本文引入唇形同步误差距离(LSE-D)和置信度(LSE-C)用于唇形音频同步评估。SyncTalk展示了最先进的唇形同步效果,通过结合预训练的视听编码器进行唇形建模,克服了小样本NeRF的局限性。

3.2 定性评估

为了更直观地评估图像质量,在下图中展示了SyncTalk与其他方法之间的比较。从这张图中可以看出,SyncTalk展示了更高质量、更准确的面部细节。

图4 不同方法合成面部的定性比较

为了对所提出的模型进行更全面的评估,作者设计了一个用户研究问卷,并要求参与者从五个角度对生成的视频进行评分:口型同步准确性、表情同步准确性、姿势同步准确性、图像质量、视频真实度。用户研究的结果见下表。SyncTalk在所有评估中都超越了以前的方法。此外,SyncTalk在视频真实性方面取得了最高分,比第二名的IP-LAP高出20%。可以看出该方法可以产生人类感知的视觉质量,从而实现高真实感。

表3 用户研究结果

四、总结

本文详细介绍了一种高度同步的基于NeRF的逼真语音驱动说话人合成方法 - SyncTalk。该框架包括面部同步控制器、头部同步稳定器和人像同步生成器,它们可以保持人物身份并生成同步的嘴唇运动、面部表情和稳定的头部姿势。通过广泛的评估,与现有方法相比,SyncTalk 在创建逼真和同步的说话人视频方面表现出卓越的性能。随着说话人任务的快速发展,在不久后大家都可以拥有属于自己的虚拟人物。
Illustration From IconScout By 22

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州堵成一锅粥,返程人困在高速上动弹不得,城市容量快到天花板

广州堵成一锅粥,返程人困在高速上动弹不得,城市容量快到天花板

音乐时光的娱乐
2026-02-23 10:42:28
“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

“茶几”正在退出中国家庭,学广东人这样做,实用性让人大开眼界

室内设计师有料儿
2026-02-19 11:17:18
腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

腾讯关闭天美蒙特利尔工作室!成立5年没有自己作品

游民星空
2026-02-23 09:21:23
梁洛施在5亿豪宅过年,穿红外套抱狗拜年,豪宅好气派母子四人住

梁洛施在5亿豪宅过年,穿红外套抱狗拜年,豪宅好气派母子四人住

树娃
2026-02-22 20:57:12
吴谨言洪尧海南偶遇用餐!二人世界甜度拉满

吴谨言洪尧海南偶遇用餐!二人世界甜度拉满

手工制作阿歼
2026-02-23 00:27:44
詹姆斯或创NBA降薪纪录!下赛季可能少赚4873万:从顶薪变底薪?

詹姆斯或创NBA降薪纪录!下赛季可能少赚4873万:从顶薪变底薪?

罗说NBA
2026-02-23 04:58:55
马筱梅晒定制红包,把婆婆张兰放感谢第一位,汪大爷也来陪产

马筱梅晒定制红包,把婆婆张兰放感谢第一位,汪大爷也来陪产

离离言几许
2026-02-23 11:49:37
成都楼市惊现“烫手山芋”:当年抢破头的房子,如今白送都没人要?

成都楼市惊现“烫手山芋”:当年抢破头的房子,如今白送都没人要?

房探科技
2026-02-23 11:15:25
在刚刚,18家公司出现重大利好消息,看看有没有与你相关的个股?

在刚刚,18家公司出现重大利好消息,看看有没有与你相关的个股?

股市皆大事
2026-02-23 09:45:12
Cell重磅:运动有益大脑的关键在于肝脏,让你无需运动,逆转衰老及阿尔茨海默病相关记忆丢失

Cell重磅:运动有益大脑的关键在于肝脏,让你无需运动,逆转衰老及阿尔茨海默病相关记忆丢失

生物世界
2026-02-23 11:05:18
悲情 50岁希金斯快哭了:背靠背靠背三连亚 狂赞赵心童:绝对天才

悲情 50岁希金斯快哭了:背靠背靠背三连亚 狂赞赵心童:绝对天才

风过乡
2026-02-23 07:32:26
AGI时代,养老金将变得毫无意义?大白话告诉你AGI到底是什么?

AGI时代,养老金将变得毫无意义?大白话告诉你AGI到底是什么?

我不叫阿哏
2026-02-22 13:14:03
女人都喜欢被命令、喜欢被带领,但就是不喜欢被尊重、被给选择

女人都喜欢被命令、喜欢被带领,但就是不喜欢被尊重、被给选择

加油丁小文
2026-02-22 07:00:04
谷爱凌戴32万手表领金牌,她戴的施华洛世奇千元耳饰已售罄!

谷爱凌戴32万手表领金牌,她戴的施华洛世奇千元耳饰已售罄!

车窗起雾q
2026-02-23 00:54:25
贾玲背刺沈腾《飞驰人生3》!?

贾玲背刺沈腾《飞驰人生3》!?

八卦疯叔
2026-02-23 11:07:57
新加坡大满贯赛:国乒大获全胜!王艺迪3:0韩国名将,黄友政3:1

新加坡大满贯赛:国乒大获全胜!王艺迪3:0韩国名将,黄友政3:1

国乒二三事
2026-02-23 13:27:49
几乎都是假货!利润高达650%,为何消费者还前赴后继争相购买?

几乎都是假货!利润高达650%,为何消费者还前赴后继争相购买?

没有偏旁的常庆
2026-02-23 07:30:10
五台山大火:官方披露伤亡情况,大量内幕披露,一画面信息量大

五台山大火:官方披露伤亡情况,大量内幕披露,一画面信息量大

博士观察
2026-02-23 11:23:20
突发利空,3家证券龙被警示,芯片龙头被立案,7股发退市警示

突发利空,3家证券龙被警示,芯片龙头被立案,7股发退市警示

鹏哥投研
2026-02-23 09:01:33
五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

博士观察
2026-02-22 16:44:15
2026-02-23 15:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

腾讯字节,“火拼”漫剧

头条要闻

特朗普被指考虑对伊朗先“小打”再“大打”

头条要闻

特朗普被指考虑对伊朗先“小打”再“大打”

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

结婚五金迈入10万大关 年轻人结婚更难了

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

亲子
数码
艺术
房产
军事航空

亲子要闻

看剧游园两不误,春节到马兰花剧场解锁亲子遛娃新方式

数码要闻

摩尔线程自研笔记本引老外关注!首发“长江”处理器 Linux/安卓/Windows随心切换

艺术要闻

十大名家画春,送给春天的你!

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版