网易首页 > 网易号 > 正文 申请入驻

CVPR 2024 | 基于DINO语义指导的单样本可变形人脸风格化

0
分享至

该工作针对单样本人脸风格化任务,考虑外观的跨域变化的同时,强调了艺术风格中的几何变形的重要性。具体来说,提出了一种基于DINO语义指导的可变形人脸风格化框架,通过在单一真实-风格图像对上进行训练,能够生成多样化、高质量的风格化人脸,同时保持输入人脸的身份一致性

论文题目: Deformable One-shot Face Stylization via DINO Semantic Guidance 论文链接: https://arxiv.org/pdf/2403.00459 项目主页: https://vcc.tech/research/2024/DoesFS 代码已开源: https://github.com/zichongc/DoesFS

一、引言

基于样例的人脸风格化旨在修改人脸照片风格,使其与指定的艺术人脸样例的风格一致。然而很多艺术风格样例十分稀缺,使用极其有限的风格样本对模型进行训练往往会出现过拟合现象。当前一些工作针对单样本人脸风格化通过不同的训练策略缓解了过拟合问题。然而,这些方法主要关注颜色和纹理的迁移,忽略了结构上的几何变形在艺术风格中的重要性

我们能否同时考虑外观变化和结构形变,仅仅根据一个风格样例来对人脸照片进行风格化呢?目前的方法都是对给定的风格人脸样例通过GAN逆映射来估计其在自然人脸域中的长相,并以此构建从自然域到风格域的迁移指导。但是这样会误导艺术风格中的几何形变信息,如图1所示。在该项工作中,我们主张使用真实-风格图像对来构建可靠的跨域变形指导,从而捕捉更全面的艺术风格元素以实现更高质量的人脸风格化效果。然而,现有方法缺乏对语义结构变化的关注,无法较好地捕获样例数据对中的形变模式。

图1 艺术格样例与GAN逆映射结果

为 此,本文提出一种基于DINO语义指导的单样本可变形人脸风格化框架,利用大规模自监督DINO-ViT[1]构建跨域的鲁棒且一致的人脸结构表示,进而引入方向变形损失和基于DINO特征自相似性的相对结构一致性约束。此外,本文以StyleGAN[2]作为人脸生成器基础网络,通过集成空间变换器STN使其具有变形感知能力。生成器在单一真实-风格图像对上进行微调训练,仅需10分钟。大量定性与定量比较证明了方法的有效性和优越性。

二、技术贡献

本工作主要贡献如下:

  • 探索了DINO-ViT的特征空间,并构造了一个跨域一致的人脸结构特征表示

  • 利用DINO的结构特征提出了方向变形损失和基于特征自相似的相对结构跨域一致性损失,作为跨域人脸结构变形指导;

  • 空间变换器STN集成到StyleGAN生成器中,并使用单一真实-风格图像对进行训练。通过定性和定量比较证明了方法的优越性。

三、方法介绍

图2 基于DINO语义指导的单样本可变形人脸风格化框架

本文方法的核心是使用设计的人脸结构变形损失和对抗损失来微调具有变形感知能力的StyleGAN生成器,整体框架如图2所示。模型训练时,首先采样隐编码 并通过Style Mixing分别向真实-风格图像样例进行颜色对齐,得到 和 ;接着将其分别输入到自然域StyleGAN生成器 和变形感知生成器 中,生成自然人脸图像和风格人脸图像。通过计算本文设计的损失,优化变形感知生成器 ,使其具备高质量风格人脸生成的能力。推理阶段,用户输入自然人脸图像,首先通过e4e[3]逆映射编码器获得其对应的隐编码,接着将隐编码输入到微调后的变形感知生成器,生成对应的风格人脸图像。

本文的主要研究内容由变形感知生成器、DINO语义指导、基于DINO语义的域适应以及颜色对齐这四部分组成,下面详细介绍。

3.1 变形感知生成器

在FFHQ人脸数据集上训练的StyleGAN网络具有强大的高质量人脸生成能力,但是对带有夸张变形的域外(OOD)人脸却难以生成。因此在诸如讽刺漫画风格的小样本迁移学习中,艺术风格,尤其是几何变形部分学习效果往往欠佳。为此,我们基于卷积网络的平移不变性,将STN(Spatial Transformer Network)集成到StyleGAN生成器中,对其中间层输出的卷积特征进行基本变换和TPS(Thin-plane Spline)变形,赋予生成器几何变形感知能力。变形感知生成器网络结构如图3所示:

图3 变形感知生成器

为了让STN带来的变形更加光滑,我们对TPS-STN的扭曲场进行约束:

3.2 DINO语义指导

通过学习的方式捕获人脸图像对中的几何变形模式需要稳健的结构特征作为指导。为此,我们希望能够利用现有的特征提取器来构建可靠的跨域变形指导。DINO-ViT是一种通过自蒸馏模式训练得到的视觉Transformer,在高级语义信息提取方面具有突出的性能。相比于当前流行的弱监督视觉Transformer(如CLIP[4]和FaRL[5]),我们认为DINO在自蒸馏学习中受益于训练数据增强操作,在语义结构信息的提取上更胜一筹。图4左对这三个ViT的特征进行了PCA可视化,可以看到DINO在自然人脸域和风格域中都展示出的更合理人脸语义结构划分,证实了我们的观点。因此,我们使用DINO作为人脸结构特征提取器来构建跨域变形指导。

为进一步提高跨域变形指导的可靠性,我们还通过一个简单的过拟合测试分析了DINO中不同层的Tokens和Keys特征的表达能力。图4右展示了测试中各个特征组合下的拟合损失曲线。经过分析,我们选择Tokens特征作为人脸结构的特征表示。

图4 不同ViT的各层特征PCA可视化(上)与不同DINO特征组合对过拟合收敛实验的损失曲线(下)3.3 基于DINO语义的域适应

本文的变形感知生成器用预训练的StyleGANv2进行初始化,为了将生成器从自然人脸域应用到目标风格域中,本文通过计算方向变形损失、相对结构跨域一致性损失和对抗风格迁移损失对生成器进行训练。

3.3.1 方向变形损失

方向形变损失由样本对的结构变化与生成数据对的结构变化之间的差异来表示,用于指导跨域变形的学习,其中我们使用DINO的Tokens特征作为结构表示。该损失定义为:

其中 分别表示生成自然人脸及其对应生成风格人脸的结构变化方向和样例自然人脸及其对应风格人脸的结构变化方向, 为DINO-ViT特征提取器。

3.3.2 基于特征自相似的相对结构跨域一致性损失

只有方向变形损失作为域适应的指导会导致过拟合现象。为此,我们提出使用DINO特征的自相似度来计算跨域一致性损失,约束生成的风格人脸域与自然人脸域之间的相对结构一致,保证生成人脸的多样性。

图5 相对结构一致性

图5展示了相对结构一致性的示意表示。我们首先将域内的样本两两相似度组合成向量 和 :

3.3.3 对抗风格迁移

颜色和纹理风格方面,我们通过对抗损失来学习给定样例的外观风格。判别器使用预训练的StyleGAN判别器做初始化,并修改为Patch判别器以关注局部的纹理和颜色风格。对抗损失如下:

其中 为Patch判别器, 为风格样例。

最后,域适应的总损失为:

3.4 颜色对齐

即便DINO特征能够比较好地解耦图像结构信息和外观信息,但是输入图像之间的颜色差异往往会对DINO结构特征的匹配带来一定影响。为了尽可能地消除这种干扰,我们利用Style Mixing操作,将采样的隐编码 分别向真实-风格图像样例进行颜色对齐,得到 和 。具体操作是将隐编码 的高层颜色编码(第9-18层)分别替换为风格样例中自然人脸和风格人脸对应隐编码的高层编码。

四、部分结果展示

图6展示了本文方法与现有的4个单样本人脸风格化方法的推理效果对比。其中这些对比方法都以单个风格人脸图像进行训练。由于这些方法都通过逆映射构造自然域的人脸长相,生成模型最终无法准确捕捉样例中的夸张变形模式。而本文方法能够得到更合理的结构变形和外观迁移结果。

图6 风格化结果与现有方法的结果对比

为更公平的对比,我们将MTG和JoJoGAN两个方法的训练输入修改为成对的图像样例,以对齐本文方法的训练输入。图7展示了与这两个变种方法的生成结果对比,本文方法的生成效果更加自然。由于缺乏可靠的跨域变形指导,变种方法在结构变形方面的效果不佳。

图7 风格化结果与现有方法的变种的结果对比

定量对比上,我们从视觉感知结构变形人脸身份三个方面与现有方法展开对比。我们使用LPIPS指标作为视觉感知的评估,另外设计了两个方向性指标(dir-CC, dir-ID)对结构变形效果、人脸身份保持进行评估。dir-CC和dir-ID分别使用VGG和ArcFace预训练模型提取特征,然后计算自然人脸图像到风格人脸图像的特征方向向量,用生成图像对与样例图像对之间的方向差异作为评估表示。表1展示了与现有方法在这三个指标上的定量对比。整体来看,相比使用单个风格样例训练的现有方法,本文方法在结构变形和身份保持两个方面有明显的优势;而对比使用成对风格样例训练的现有方法变种,本文方法也依然保持优越。

表1 在三个风格样例上的生成结果与现有方法的定量对比

表2展示了用户调研的结果。与任一现有方法对比,用户对本文方法的整体生成效果都有超过70%的偏好。

表2 用户调研结果

图8、图9展示了本文的消融实验结果。损失函数方面,方向变形损失和相对结构跨域一致性损失的组合能够有效学习风格样例中的形变模式,而对抗损失能够把握颜色风格的迁移。另外,STN的集成可以赋予生成器更好的变形能力,颜色对齐可以避免图像伪影的出现。

图8 损失函数消融实验结果

图9 STN模块消融实验结果(上)颜色对齐(C.A.)消融实验结果(下)

图10展示了本文方法对可调控的变形风格化人脸的生成能力。在生成过程中,对生成器中TPS-STNs的扭曲场进行简单的线性插值,可得到不同程度的人脸变形效果:

其中, 为没有任何变形的扭曲场, 为变形系数。

图10 可调控变形人脸风格化生成结果

五、总结与展望

本文介绍了一个全新的可变形人脸风格化框架,能够在单个真实-风格图像对下展开训练。在对抗风格损失和DINO语义指导下微调生成器,生成结果在外观迁移和结构变形方面都有高质量保证。通过定性定量的实验对比,本文相比现有单样本人脸风格化方法取得显著进步。

六、思考与讨论

Q: 方法相比现有工作做了多方面的改进,应用到成对的风格样例时得到了明显的人脸风格化效果,那么该方法能否应用到单一风格图像数据上呢?效果还会一样好吗?

A: 对于只有单一风格图像的情况,本文方法依然可以按照现有方法那样先对风格图像逆映射获得对于的自然人脸,并以此构成成对数据进行训练。图11展示了一个例子,本文方法效果仍然有所保证,但由于GAN逆映射局限,风格样例中标志性的笑容没有获得保留。

图11 单一风格图像(上)与成对风格样例(下)作为数据样本训练的模型生成结果

Q: 本文方法模型的生成结果多样性怎么样?

A: 我们选择了三个风格样例并计算IS指标对模型的生成多样性进行评估,如表3所示。本文方法的生成多样性要优于现有方法及其变种。

表3 与现有方法的生成结果多样性IS评估

以下是开放性问题,欢迎读者朋友留言讨论:

Q: 如果提供的真实-风格人脸图像之间本身不够相似,训练出来的生成模型效果还会好吗?

参考文献

[1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv'e J'egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. International Conference on Computer Vision (ICCV). 9650-9660, 2021.

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 8110-8119, 2020.

[3] Omer Tov, Yuval Alaluf, Yotam Nitzan, Or Patashnik, and Daniel Cohen-Or. Designing an encoder for stylegan image manipulation. ACM Transactions on Graphics (TOG). 40(4), 133:1-133:14, 2021.

[4] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision. International Conference on Machine Learning (ICML). 8748-8763, 2021.

[5] Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, and Fang Wen. General facial representation learning in a visual-linguistic manner. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 18676–18688, 2022.

作者:周漾 来源:公众号【深圳大学可视计算研究中心】

llustration From IconScout By Twiri

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纽约时报嘲讽特朗普:发动战争正把伊朗变成世界强国,成全球第四极

纽约时报嘲讽特朗普:发动战争正把伊朗变成世界强国,成全球第四极

西游日记
2026-04-08 09:42:07
现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

现场无红毯,无仪仗队!大陆一句话讲清郑丽文访问的性质!

阿龙聊军事
2026-04-08 08:54:27
社保基金会:坚决拥护党中央决定

社保基金会:坚决拥护党中央决定

新京报
2026-04-07 21:41:14
中国男篮国手王俊杰宣布将转校 感谢过去3年在旧金山大学的时光

中国男篮国手王俊杰宣布将转校 感谢过去3年在旧金山大学的时光

醉卧浮生
2026-04-08 09:45:09
震惊!老师下班买杯奶茶,竟被家长深夜追责,一段聊天记录炸锅了

震惊!老师下班买杯奶茶,竟被家长深夜追责,一段聊天记录炸锅了

火山詩话
2026-04-08 07:24:29
44岁苍井空老师复出后变这样了?现场红色吊带裙实拍,网友热评:她老公精神力太强大

44岁苍井空老师复出后变这样了?现场红色吊带裙实拍,网友热评:她老公精神力太强大

乔话
2026-04-07 21:11:37
邓正红软实力哲学:星系自组织形成核心驱动 物质从混沌走向有序

邓正红软实力哲学:星系自组织形成核心驱动 物质从混沌走向有序

邓正红软实力
2026-04-08 11:18:29
郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

郑丽文刚落地上海,就传出不寻常信号!6天后,两岸会有大动作?

闫树军论评
2026-04-07 16:29:13
RIP!罗马尼亚80岁老帅因病去世:12天前率队无缘世界杯 气晕住院

RIP!罗马尼亚80岁老帅因病去世:12天前率队无缘世界杯 气晕住院

风过乡
2026-04-08 04:55:06
伊朗提出战争赔偿,特朗普答应赔2.5万亿美元,但掏钱的不是美国

伊朗提出战争赔偿,特朗普答应赔2.5万亿美元,但掏钱的不是美国

人生录
2026-04-07 17:19:08
以媒称以色列“仍在持续打击伊朗”

以媒称以色列“仍在持续打击伊朗”

财联社
2026-04-08 09:14:21
都是好兄弟!杨瀚森请混音全队吃饭 和G联赛教练队友们有说有笑

都是好兄弟!杨瀚森请混音全队吃饭 和G联赛教练队友们有说有笑

罗说NBA
2026-04-08 09:53:38
仅一户报名摇号的楼盘次日被告知售罄,到底有无暗箱操作

仅一户报名摇号的楼盘次日被告知售罄,到底有无暗箱操作

极目新闻
2026-04-08 11:26:26
“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

“一盒只加一滴”?北冰洋NFC葡萄汁添加量仅0.005%,公司回应:产品没问题

红星资本局
2026-04-07 20:40:07
“九一八事变”真相:下达“不抵抗”命令的不是蒋介石,另有其人

“九一八事变”真相:下达“不抵抗”命令的不是蒋介石,另有其人

锅锅爱历史
2026-04-08 01:22:20
石女征婚!无固定工作、多弟妹待帮扶!网友:这种是debuff加满吧

石女征婚!无固定工作、多弟妹待帮扶!网友:这种是debuff加满吧

火山詩话
2026-04-08 07:39:43
陈丽华辞世:巨额遗产分配合理,“唐僧”迟重瑞可按理想方式养老

陈丽华辞世:巨额遗产分配合理,“唐僧”迟重瑞可按理想方式养老

天天热点见闻
2026-04-08 08:16:03
刚刚,原油直线闪崩!特朗普:同意停火两周!伊朗同意停火,伊美谈判将于10日开始

刚刚,原油直线闪崩!特朗普:同意停火两周!伊朗同意停火,伊美谈判将于10日开始

中国基金报
2026-04-08 07:28:45
杀人诛心!拜仁2-1客胜皇马,主帅孔帕尼赛后发言暗藏捧杀玄机!

杀人诛心!拜仁2-1客胜皇马,主帅孔帕尼赛后发言暗藏捧杀玄机!

田先生篮球
2026-04-08 09:06:27
WTI原油期货跌幅扩大至19%

WTI原油期货跌幅扩大至19%

澎湃新闻
2026-04-08 07:53:06
2026-04-08 12:20:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2338文章数 596关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

午评:创业板指半日涨4.81% 全市场超5000只个股上涨

头条要闻

午评:创业板指半日涨4.81% 全市场超5000只个股上涨

体育要闻

皇马1.5亿巨星浪费超级单刀 丢球摊手抱怨

娱乐要闻

杨颖邓超低调现身观众席 支持陈赫话剧

财经要闻

特朗普同意停火两周 伊朗:接受停火提议

汽车要闻

5门5座/新复古造型 缤果Pro将于4月14日开启预售

态度原创

教育
本地
艺术
手机
家居

教育要闻

孩子主动表达的重要性与警示信号

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

齐白石『凌波仙子』

手机要闻

看片不再被吓一跳!Binge恐怖片预警神器上线:支持灵动岛提醒

家居要闻

自在恣意 侘寂风别墅

无障碍浏览 进入关怀版