商汤科技、上海人工智能实验室、南洋理工大学S-Lab等机构的研究人员提出基于Transformer的对偶空间GAN,用于解决高可控性的复杂人脸属性编辑任务。
论文标题: TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial Editing 论文链接: https://arxiv.org/abs/2203.17266 项目地址: https://billyxyb.github.io/TransEditor/ 代码地址: https://github.com/BillyXYB/TransEditor
一、摘要
图1 - TransEditor编辑结果展示
面部编辑是一项具有许多实际应用的重要任务,广泛应用于图片,视频等领域。近年来随着生成对抗网络(GAN)[1] 的发展,自动可控的面部编辑也取得了巨大飞跃。然而,由于单个隐空间的耦合问题,高度可控的面部属性编辑仍然具有挑战性。比如在编辑人物头部姿态时,人物的其他特征也可能会发生变化。
为了解决这样的问题,基于双空间GAN方法也已经被研究[2,3]。例如,DAT[2]使用两个对称的隐空间来解耦风格特征和结构特征。尽管如此,这些方法仍然无法获得具有高可控性的,合理的编辑结果(特别是对于性别等复杂属性)。
在这项研究中,我们提出了TransEditor,强调了在双空间GAN中交互对于更加可控的编辑的重要性,并且使用基于Transformer[4]的框架以作为交互。此外,我们提出了一种新的双空间编辑和逆推(inversion)方法,以提供更加灵活的编辑能力。大量实验证明了TransEditor在高度可控的面部编辑方面的有效性和优越性。
二、具体方法
图2 - TransEditor模型框架
本文的目标是希望实现更加可控的人脸属性编辑。图2显示了所提出的TransEditor模型的架构。
双空间生成。传统的GAN模型通常只使用单个隐空间进行人脸生成和属性编辑。作者通过对生成器生成过程进行分析,指出两个对生成过程产生直接影响的因素。首先是以StyleGAN2[5]为代表的层级style调制和解调向量,用于调制生成器每层特征图的分布。除此之外,初始特征图输入( )是后续整个生成过程的基础,StyleGAN2中的初始常量输入限制了模型的可控性。因此,作者仍然沿用ProGAN[6]模型中将采样的特征图作为生成器的输入。基于以上分析,作者提出了两个独立的隐空间, P 和 Z 。这两个空间的维度是都是 ,其中n是采样的向量个数。为了进一步鼓励空间内的解耦,将它们分别用单独的映射网络映射到P+和Z+空间,然后分别用作生成器的初始输入特征图和逐层样式调制。
双空间交互。如何合理利用这两个空间进行属性编辑并不是一件很容易的事情。作者通过对现有的基于对偶空间的SNI模型[2]和DAT模型[3]进行分析,SNI模型发现在所有层都引入Style向量会影响空间的解耦,例如在生成器的浅层改变Style向量会改变编辑后图像的结构信息。DAT模型在进行属性编辑时,当固定Content向量,只改变Style 向量的时候会出现严重的色调变化并导致伪影。作者将这种现象归因为对偶空间之间缺乏交互。
因此,作者引入了一个基于Transformer模型的交互模块让这两个空间在保持解耦的前提下建模空间的交互。具体架构设计中,令 向量作为Query矩阵, 向量作为Key和Value矩阵,这种设计的好处是 向量只是用来对 向量进行重加权,因此,Transformer交互模块的输出,也即交互后输出得到的的 向量和 向量在本质上仍然是解耦的。
作者将 向量变形为4*4的空间维度作为生成器的初始特征图输入,将交互后的 向量作为每层的style调制。生成任务由这两个向量共同完成。
人脸编辑。为了支持真实人脸编辑任务,作者提出了一个完整的基于对偶空间的逆推(Inversion)和编辑框架。这也是第一个尝试在两个空间进行属性编辑的模型。
编辑框架采用的是InterFaceGAN[7]编辑方式,分别在Z+空间和P+空间训练属性分界面方向向量 和 ,在编辑不同的属性时,可以灵活控制沿着不同属性方向向量走的步长,从而达到灵活控制属性改变程度的目的。具体来说,对于一些只包含在P空间的属性,比如头部姿势,可以令 ,只改变 的大小控制pose属性改变的程度;对于一些只包含在Z空间的属性,例如发色,同理,可以令 ,只改变 的大小。对于一些复杂的属性,例如性别和年龄,是由两个空间共同控制的,可以同时改变 和 的大小,来完成复杂属性的编辑。同时也可以在两个空间分别沿着不同属性方向向量走不同的步长,可以同时完成两个属性的编辑(例如pose + smile)。
逆推框架是在pSp模型[8]的基础上将单空间逆推拓展成了双空间逆推。一个多层级的特征提取器会把图片提取到3个不同层次的特征图上,其中 向量会使用所有层级,而 向量只会从最高层的特征中获得。
图3 - Inversion 框架
三、实验结果
作者对此方法在人脸编辑任务上进行了实验,并且和当前一些最先进的方法进行对比。作者选取了单隐空间的StyleGAN2[5],结构化隐空间的StyleMapGAN[9]以及双空间的DAT[3]进行了可视化和量化指标的对比。同时,为了验证双空间交互的重要性,作者对不同结构的框架进行了消融实验。
TransEditor具有解耦且平衡的两个空间P和Z。当固定P随机采样Z时,生成的图片具有一致的头部姿势;当固定Z随机采样P的时候,图片具有相似的风格特征。LPIPS指标可以被用于衡量空间的多样性。TransEditor对比DAT在两个空间更加平衡时,整体的多样性也有提高(见表1)。
表1 - 双空间LPIPS对比
同时,在对两个空间进行线性插值时,结果也表现出了平滑的变化(图4)。这样的性质有利于进行编辑。
图4 - P和Z空间随机采样和插值结果对比
属性编辑结果可视化对比。从可视化结果(图5)可以看出,在编辑性别时,DAT[3]模型编辑的人脸会出现明显的颜色变化和失真;StyleGAN2[5]则因为解耦不够彻底,导致人脸的其他属性也发生改变;StyleMapGAN[9]的结构化使其难以发生全局变化。
图5 - 真实图片编辑结果对比
属性编辑结果量化对比。针对现有属性编辑任务量化指标难以进行统一的问题,作者提出了一个新的衡量编辑解耦性的量化指标Re-Scoring: C_e/C_i。其中C_e表示被编辑属性分类器得分的累计变化,C_i表示其他属性的分类器得分的累计变化。这个指标有效地衡量了某个属性的编辑对其他属性的影响。越小则表示编辑一个属性的时候,别的属性受到的影响更小。表2展示了TransEditor的优越性。
表2 - 编辑结果量化对比
消融实验。通过消融实验验证双空间结构以及空间交互的重要性。
对比同样框架下,单空间交互以及双空间没有交互的结果,说明双空间架构和空间交互对于编辑任务的重要性。
图6 - 交互模块消融实验
尝试不同的Q,K,V选择方式,对比了将 向量作为Q, 向量作为K,V以及将 向量作为Q, 向量作为K,V这两种方式的编辑效果,以说明交互模块设计的合理性。
图7 - 交互模块不同设计方式解耦程度对比
四、总结
本文介绍了TransEditor,这是一种新颖的双空间GAN架构,引入了基于Transformer的跨空间交互机制。此外,作者提出了一种新的双空间图像编辑和逆推方式,用于高度可控的面部编辑。大量实验表明 TransEditor 在属性解耦和可控性方面的有效性,以及在复杂的属性编辑中超过了最先进的方法。此外,对双空间GAN的跨空间交互机制的改进可能是未来有趣的研究方向。
参考文献
[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. NeurIPS, 27, 2014.
[2] Yazeed Alharbi and Peter Wonka. Disentangled image generation through structured noise injection. In CVPR, 2020.
[3] Gihyun Kwon and Jong Chul Ye. Diagonal attention and style-based gan for content-style disentanglement in image generation and translation. In ICCV, 2021.
[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017
[5] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, 2020.
[6] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.
[7] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. PAMI, 2020.
[8] Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to-image translation. In CVPR, 2021.
[9] Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, and Youngjung Uh. Exploiting spatial dimensions of latent in gan for real-time image editing. In CVPR, 2021.
本文来自:公众号【商汤学术】 作者:YanBo Xu
Illustration b y Igor Kapustin f rom i cons8
-The End-
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.