网易首页 > 网易号 > 正文 申请入驻

小红书AIGC团队提出图像和视频换脸新算法DynamicFace

0
分享至



本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。



  • 论文标题:DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors
  • 论文链接:
  • https://arxiv.org/abs/2501.08553
  • 项目主页:
  • https://dynamic-face.github.io/

近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力:

  • 影视行业:导演只需一张定妆照,即可让演员「数字替身」在绿幕里实时完成高难度的表情捕捉与重打光,后期不再为补拍镜头而烧预算,真正进入「先拍脸、后拍景」的降本增效时代。

  • 游戏行业:捏脸系统将不再局限于预设模板。玩家上传一张自拍,即刻生成 360° 可旋转、可眨眼、可微表情的个性化角色;配合实时语音驱动,NPC 的口型与情绪可随剧情即时变化,沉浸式体验再升一级。

  • 自媒体与电商:短视频创作者无需真人出镜,一张品牌代言照即可批量产出不同光线、不同角度的口播视频;虚拟主播更可 7x24 小时直播带货,表情自然、光影一致,告别「恐怖谷」效应。

人脸视频生成的核心难题在于,如何在根据参考图像和外部动作序列,严谨地保持源参考人脸身份特征不被损伤的同时,还要维持目标人脸动作的一致性。现有方法在追求真实动态表现时,通常会遭遇以下三大挑战:

  • 空间与时间建模的内在矛盾:许多聚焦于身份一致性的图像生成模型在空间特征提取方面已足够优秀,然而由于在注入运动信息时耦合了目标身份特征,进而导致运动信息不准确,一旦需要建模时间变化的视频扩散模型时,不准确的运动建模会被逐帧放大,最终陷入身份还原能力和运动一致难以两全的问题。

  • 身份一致性降低:在复杂或大幅度动作变化情况下,面部区域极易出现形变、失真,难以保证人物独特的面貌特征能随时保留。这种问题直接影响动画人物的个体识别度和可信度,也是用户接受数字人像动画的首要阻碍。

  • 整体视频质量受损:当前最优秀的人像动画生成模型虽然在动画效果层面取得进展,但往往还需借助外部换脸后处理工具以改善关键帧细节。可惜,这类后处理虽能暂时修复细节,却往往损伤了整段视频在视觉上的统一性和自然度,导致画面出现割裂感和不连贯的现象。

小红书提出 DynamicFace,让视频人脸交换迈入「电影级」工业流水线!

方法介绍

本研究提出了一种创新性的人脸置换方法DynamicFace,针对图像及视频领域的人脸融合任务实现了高质量与高度一致性的置换效果。

与传统人脸置换方法相比,DynamicFace 独创性地将扩散模型(Diffusion Model)与可组合的 3D 人脸先验进行深度融合,针对人脸运动与身份信息进行了精细化解耦,以生成更一致的人脸图像和视频。



可组合三维面部先验的显式条件解耦

针对现有方法在身份与运动表征中普遍存在的耦合冗余问题,DynamicFace 提出将人脸条件显式分解为身份、姿态、表情、光照及背景五个独立的表征,并基于 3DMM 重建模型获取对应参数。

具体而言,利用源图像提取身份形状参数 α,目标视频逐帧提取姿态 β 与表情 θ,随后渲染生成形状–姿态法线图,减少目标人脸身份泄露,最大程度保留源身份;表情信息从二维关键点中提取,建模更精准的表情信息,仅保留眉毛、眼球及口唇区域的运动先验,避免引入目标身份特征;光照条件由 UV 纹理图经模糊处理得到,仅保留低频光照分量;背景条件采用遮挡感知掩码与随机位移策略,实现训练–推理阶段的目标脸型对齐。

四条条件并行输入 Mixture-of-Guiders,每组由 3×3 卷积与零初始化卷积末端构成轻量级条件注入模块,在注入网络前经过 FusionNet 融合四个条件特征后注入到扩散模型中,可在保持 Stable Diffusion 预训练先验的同时实现精准控制。


身份–细节双流注入机制

为实现高保真身份保持,DynamicFace 设计了双流并行注入架构。高层身份流由 Face Former 完成:首先利用 ArcFace 提取 ID Embedding,再通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份一致性;细节纹理流由 ReferenceNet 实现,该网络为 U-Net 的可训练副本,将 512×512 源图潜变量经 Spatial-Attention 注入主网络,实现细粒度的纹理迁移。


即插即用时序一致性模块

针对时序一致性问题,DynamicFace 会在训练中插入时序注意力层来优化帧间稳定性,但时序层在处理长视频生成时会出现帧间跳动的现象。为此,我们提出了 FusionTVO,将视频序列划分为若干段,并为每段设置融合权重,在相邻段的重叠区域实行加权融合;并在潜变量空间引入总变差(Total Variation)约束,抑制帧与帧之间的不必要波动;对于人脸之外的背景区域,在每一步去噪迭代过程中采用目标图像中的背景潜变量空间进行替换,维持了场景的高保真度。

生成结果展示








https://mp.weixin.qq.com/s/gt94VPIuKvN_ZU2KyT0UqA?click_id=1


https://mp.weixin.qq.com/s/gt94VPIuKvN_ZU2KyT0UqA?click_id=1

与 SOTA 方法的定性对比实验









DynamicFace 可以很好地保持身份(例如,形状和面部纹理信息)和动作(包括表情和姿势等),并且生成结果维持了更好的背景一致性。

具体来说,基于 GAN 的方法往往会生成较为模糊、视觉上并不真实且身份一致性较差的结果,但可以维持不错的运动一致性;其他基于扩散模型的方法能生成分辨率更高且更真实的结果,但运动一致性保持较差(如表情不一致,眼神朝向不同等)。

DynamicFace 通过精细化解耦的条件注入可以保证更优的表情一致、眼神一致和姿势一致性。

与 SOTA 方法的定量对比实验



为全面评估 DynamicFace 的性能,研究团队在 FaceForensics++(FF++)和 FFHQ 数据集上进行系统性的定量实验,并与当前最具代表性的 6 种换脸方法进行对比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。

实验遵循先前论文的参数设置:从每个测试视频中随机抽取 10 帧作为评估样本,并另取连续 60 帧用于视频级指标计算。所有方法均使用官方开源权重或公开推理脚本,在输入分辨率(512×512)下复现结果。定量结果如表中所示:DynamicFace 同时在身份一致性(ID Retrieval)和运动一致性(Mouth&Eye Consistency)达到了最优的结果。

整体而言,实验结果充分证明了 DynamicFace 在身份保真与运动还原方面的综合优势,验证了其在高质量人脸可控生成中的卓越性能。

更多应用样例





我们也展示了一些其他的应用示例,DynamicFace 可以对身份保持和人体驱动等生成结果进行后处理,显著提升生成结果的人脸 ID 一致性和表情控制,更多效果展示可以在项目主页中进行查看。期望这种精细化解耦条件注入的方法能为可控生成的后续工作提供新思路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大连女歌手被座椅架挤压重伤,抢救无效身亡,同类悲剧多次发生!

大连女歌手被座椅架挤压重伤,抢救无效身亡,同类悲剧多次发生!

可乐谈情感
2025-11-16 00:02:00
刚刚,交易所重拳出击:重点监控!释放什么信号?下周要变天了?

刚刚,交易所重拳出击:重点监控!释放什么信号?下周要变天了?

云鹏叙事
2025-11-16 08:05:02
大衣哥官宣女儿订婚,将择吉日完婚,女婿是邻村种地的老实人

大衣哥官宣女儿订婚,将择吉日完婚,女婿是邻村种地的老实人

娱慧
2025-11-14 17:25:14
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

墨印斋
2025-11-11 16:31:34
62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

62岁刘德华晒三餐:三十年如一日地吃几乎同样的食物!

诗意世界
2025-11-16 18:03:56
81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

81岁林豆豆现状:已退休23年,独居在北京老房子,用阅读打发时间

揽星河的笔记
2025-11-12 12:36:17
太有爱了!姚明带女儿回苏州探亲,父女散步姿势神复制网友看呆

太有爱了!姚明带女儿回苏州探亲,父女散步姿势神复制网友看呆

篮球国度
2025-11-16 10:56:06
金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

金鸡奖紧急除名祖峰!男配和编剧提名均已取消,网友曝片方出事了

叨唠
2025-11-16 06:09:55
山东的雪来了!刚刚,济宁发布天气预警!

山东的雪来了!刚刚,济宁发布天气预警!

济宁生活网
2025-11-16 19:22:03
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
官方提醒国人“避免前往”:日本旅游雪上加霜?

官方提醒国人“避免前往”:日本旅游雪上加霜?

环球旅讯
2025-11-15 09:58:16
火箭3换1追哈登?名宿支招:2新人+添头成筹码,快船不要申京

火箭3换1追哈登?名宿支招:2新人+添头成筹码,快船不要申京

熊哥爱篮球
2025-11-16 11:39:56
又轰27分12板10助,MVP榜第一!抱歉威少,你的历史三双王真悬了

又轰27分12板10助,MVP榜第一!抱歉威少,你的历史三双王真悬了

锅子篮球
2025-11-16 14:23:27
陈英已任重庆市委组织部副部长(主持日常工作)

陈英已任重庆市委组织部副部长(主持日常工作)

澎湃新闻
2025-11-16 19:18:28
神兽为何变成了淫兽?

神兽为何变成了淫兽?

最爱历史
2025-11-16 19:41:07
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

奇思妙想草叶君
2025-11-14 23:39:25
生涯砍下70场以上40+有多难?历史仅10人做到,榜首抡了271场

生涯砍下70场以上40+有多难?历史仅10人做到,榜首抡了271场

老郎体育汇
2025-11-16 18:13:41
长治反杀案反转!外地律师凭伤口与凶器不符破局,重金花得太值了

长治反杀案反转!外地律师凭伤口与凶器不符破局,重金花得太值了

阿燕姐说育儿
2025-11-16 15:04:58
央媒发文,28岁樊振东高调官宣喜讯,全网恭喜,终于等到这一天

央媒发文,28岁樊振东高调官宣喜讯,全网恭喜,终于等到这一天

阿紵美食
2025-11-16 17:55:55
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
2025-11-16 21:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

日高层:高市早苗今后应该不会再有此类发言

头条要闻

日高层:高市早苗今后应该不会再有此类发言

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
本地
数码
游戏
公开课

艺术要闻

俄罗斯风景油画欣赏 | Panov Eduard

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

数码要闻

RTX 5050借冰箱散热:频率激增23%至3.5GHz!打破世界纪录

爆料称贝塞斯达接下来有望重制《辐射:新维加斯》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版