CVPR 2022 | 基于Transformer的新型人脸属性编辑框架TransEditor|cvpr|向量|image|解耦

CVPR 2022 | 基于Transformer的新型人脸属性编辑框架TransEditor

2022-05-12 08:28:12　来源: 将门创投

北京举报

分享至

商汤科技、上海人工智能实验室、南洋理工大学S-Lab等机构的研究人员提出基于Transformer的对偶空间GAN，用于解决高可控性的复杂人脸属性编辑任务。

论文标题： TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial Editing 论文链接： https://arxiv.org/abs/2203.17266 项目地址： https://billyxyb.github.io/TransEditor/ 代码地址： https://github.com/BillyXYB/TransEditor

一、摘要

图1 - TransEditor编辑结果展示

面部编辑是一项具有许多实际应用的重要任务，广泛应用于图片，视频等领域。近年来随着生成对抗网络(GAN)[1] 的发展，自动可控的面部编辑也取得了巨大飞跃。然而，由于单个隐空间的耦合问题，高度可控的面部属性编辑仍然具有挑战性。比如在编辑人物头部姿态时，人物的其他特征也可能会发生变化。

为了解决这样的问题，基于双空间GAN方法也已经被研究[2,3]。例如，DAT[2]使用两个对称的隐空间来解耦风格特征和结构特征。尽管如此，这些方法仍然无法获得具有高可控性的，合理的编辑结果（特别是对于性别等复杂属性）。

在这项研究中，我们提出了TransEditor，强调了在双空间GAN中交互对于更加可控的编辑的重要性，并且使用基于Transformer[4]的框架以作为交互。此外，我们提出了一种新的双空间编辑和逆推(inversion)方法，以提供更加灵活的编辑能力。大量实验证明了TransEditor在高度可控的面部编辑方面的有效性和优越性。

二、具体方法

图2 - TransEditor模型框架

本文的目标是希望实现更加可控的人脸属性编辑。图2显示了所提出的TransEditor模型的架构。

双空间生成。传统的GAN模型通常只使用单个隐空间进行人脸生成和属性编辑。作者通过对生成器生成过程进行分析，指出两个对生成过程产生直接影响的因素。首先是以StyleGAN2[5]为代表的层级style调制和解调向量，用于调制生成器每层特征图的分布。除此之外，初始特征图输入( )是后续整个生成过程的基础，StyleGAN2中的初始常量输入限制了模型的可控性。因此，作者仍然沿用ProGAN[6]模型中将采样的特征图作为生成器的输入。基于以上分析，作者提出了两个独立的隐空间， P 和 Z 。这两个空间的维度是都是，其中n是采样的向量个数。为了进一步鼓励空间内的解耦，将它们分别用单独的映射网络映射到P+和Z+空间，然后分别用作生成器的初始输入特征图和逐层样式调制。

双空间交互。如何合理利用这两个空间进行属性编辑并不是一件很容易的事情。作者通过对现有的基于对偶空间的SNI模型[2]和DAT模型[3]进行分析，SNI模型发现在所有层都引入Style向量会影响空间的解耦，例如在生成器的浅层改变Style向量会改变编辑后图像的结构信息。DAT模型在进行属性编辑时，当固定Content向量，只改变Style 向量的时候会出现严重的色调变化并导致伪影。作者将这种现象归因为对偶空间之间缺乏交互。

因此，作者引入了一个基于Transformer模型的交互模块让这两个空间在保持解耦的前提下建模空间的交互。具体架构设计中，令向量作为Query矩阵，向量作为Key和Value矩阵，这种设计的好处是向量只是用来对向量进行重加权，因此，Transformer交互模块的输出，也即交互后输出得到的的向量和向量在本质上仍然是解耦的。

作者将向量变形为4*4的空间维度作为生成器的初始特征图输入，将交互后的向量作为每层的style调制。生成任务由这两个向量共同完成。

人脸编辑。为了支持真实人脸编辑任务，作者提出了一个完整的基于对偶空间的逆推（Inversion）和编辑框架。这也是第一个尝试在两个空间进行属性编辑的模型。

编辑框架采用的是InterFaceGAN[7]编辑方式，分别在Z+空间和P+空间训练属性分界面方向向量和，在编辑不同的属性时，可以灵活控制沿着不同属性方向向量走的步长，从而达到灵活控制属性改变程度的目的。具体来说，对于一些只包含在P空间的属性，比如头部姿势，可以令，只改变的大小控制pose属性改变的程度；对于一些只包含在Z空间的属性，例如发色，同理，可以令，只改变的大小。对于一些复杂的属性，例如性别和年龄，是由两个空间共同控制的，可以同时改变和的大小，来完成复杂属性的编辑。同时也可以在两个空间分别沿着不同属性方向向量走不同的步长，可以同时完成两个属性的编辑(例如pose + smile)。

逆推框架是在pSp模型[8]的基础上将单空间逆推拓展成了双空间逆推。一个多层级的特征提取器会把图片提取到3个不同层次的特征图上，其中向量会使用所有层级，而向量只会从最高层的特征中获得。

图3 - Inversion 框架

三、实验结果

作者对此方法在人脸编辑任务上进行了实验，并且和当前一些最先进的方法进行对比。作者选取了单隐空间的StyleGAN2[5]，结构化隐空间的StyleMapGAN[9]以及双空间的DAT[3]进行了可视化和量化指标的对比。同时，为了验证双空间交互的重要性，作者对不同结构的框架进行了消融实验。

TransEditor具有解耦且平衡的两个空间P和Z。当固定P随机采样Z时，生成的图片具有一致的头部姿势；当固定Z随机采样P的时候，图片具有相似的风格特征。LPIPS指标可以被用于衡量空间的多样性。TransEditor对比DAT在两个空间更加平衡时，整体的多样性也有提高（见表1）。

表1 - 双空间LPIPS对比

同时，在对两个空间进行线性插值时，结果也表现出了平滑的变化（图4）。这样的性质有利于进行编辑。

图4 - P和Z空间随机采样和插值结果对比

属性编辑结果可视化对比。从可视化结果（图5）可以看出，在编辑性别时，DAT[3]模型编辑的人脸会出现明显的颜色变化和失真；StyleGAN2[5]则因为解耦不够彻底，导致人脸的其他属性也发生改变；StyleMapGAN[9]的结构化使其难以发生全局变化。

图5 - 真实图片编辑结果对比

属性编辑结果量化对比。针对现有属性编辑任务量化指标难以进行统一的问题，作者提出了一个新的衡量编辑解耦性的量化指标Re-Scoring: C_e/C_i。其中C_e表示被编辑属性分类器得分的累计变化，C_i表示其他属性的分类器得分的累计变化。这个指标有效地衡量了某个属性的编辑对其他属性的影响。越小则表示编辑一个属性的时候，别的属性受到的影响更小。表2展示了TransEditor的优越性。

表2 - 编辑结果量化对比

消融实验。通过消融实验验证双空间结构以及空间交互的重要性。

对比同样框架下，单空间交互以及双空间没有交互的结果，说明双空间架构和空间交互对于编辑任务的重要性。

图6 - 交互模块消融实验

尝试不同的Q，K，V选择方式，对比了将向量作为Q，向量作为K，V以及将向量作为Q，向量作为K，V这两种方式的编辑效果，以说明交互模块设计的合理性。

图7 - 交互模块不同设计方式解耦程度对比

四、总结

本文介绍了TransEditor，这是一种新颖的双空间GAN架构，引入了基于Transformer的跨空间交互机制。此外，作者提出了一种新的双空间图像编辑和逆推方式，用于高度可控的面部编辑。大量实验表明 TransEditor 在属性解耦和可控性方面的有效性，以及在复杂的属性编辑中超过了最先进的方法。此外，对双空间GAN的跨空间交互机制的改进可能是未来有趣的研究方向。

参考文献

[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. NeurIPS, 27, 2014.

[2] Yazeed Alharbi and Peter Wonka. Disentangled image generation through structured noise injection. In CVPR, 2020.

[3] Gihyun Kwon and Jong Chul Ye. Diagonal attention and style-based gan for content-style disentanglement in image generation and translation. In ICCV, 2021.

[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017

[5] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, 2020.

[6] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.

[7] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. PAMI, 2020.

[8] Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to-image translation. In CVPR, 2021.

[9] Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, and Youngjung Uh. Exploiting spatial dimensions of latent in gan for real-time image editing. In CVPR, 2021.

本文来自：公众号【商汤学术】作者：YanBo Xu

Illustration b y Igor Kapustin f rom i cons8

-The End-

扫码观看！

本周上新！

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.