网易首页 > 网易号 > 正文 申请入驻

CVPR 2022 | 基于Transformer的新型人脸属性编辑框架TransEditor

0
分享至

商汤科技、上海人工智能实验室、南洋理工大学S-Lab等机构的研究人员提出基于Transformer的对偶空间GAN,用于解决高可控性的复杂人脸属性编辑任务。

论文标题: TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable Facial Editing 论文链接: https://arxiv.org/abs/2203.17266 项目地址: https://billyxyb.github.io/TransEditor/ 代码地址: https://github.com/BillyXYB/TransEditor

一、摘要

图1 - TransEditor编辑结果展示

面部编辑是一项具有许多实际应用的重要任务,广泛应用于图片,视频等领域。近年来随着生成对抗网络(GAN)[1] 的发展,自动可控的面部编辑也取得了巨大飞跃。然而,由于单个隐空间的耦合问题,高度可控的面部属性编辑仍然具有挑战性。比如在编辑人物头部姿态时,人物的其他特征也可能会发生变化。

为了解决这样的问题,基于双空间GAN方法也已经被研究[2,3]。例如,DAT[2]使用两个对称的隐空间来解耦风格特征和结构特征。尽管如此,这些方法仍然无法获得具有高可控性的,合理的编辑结果(特别是对于性别等复杂属性)。

在这项研究中,我们提出了TransEditor,强调了在双空间GAN中交互对于更加可控的编辑的重要性,并且使用基于Transformer[4]的框架以作为交互。此外,我们提出了一种新的双空间编辑和逆推(inversion)方法,以提供更加灵活的编辑能力。大量实验证明了TransEditor在高度可控的面部编辑方面的有效性和优越性。

二、具体方法

图2 - TransEditor模型框架

本文的目标是希望实现更加可控的人脸属性编辑。图2显示了所提出的TransEditor模型的架构。

双空间生成。传统的GAN模型通常只使用单个隐空间进行人脸生成和属性编辑。作者通过对生成器生成过程进行分析,指出两个对生成过程产生直接影响的因素。首先是以StyleGAN2[5]为代表的层级style调制和解调向量,用于调制生成器每层特征图的分布。除此之外,初始特征图输入( )是后续整个生成过程的基础,StyleGAN2中的初始常量输入限制了模型的可控性。因此,作者仍然沿用ProGAN[6]模型中将采样的特征图作为生成器的输入。基于以上分析,作者提出了两个独立的隐空间, P 和 Z 。这两个空间的维度是都是 ,其中n是采样的向量个数。为了进一步鼓励空间内的解耦,将它们分别用单独的映射网络映射到P+和Z+空间,然后分别用作生成器的初始输入特征图和逐层样式调制。

双空间交互。如何合理利用这两个空间进行属性编辑并不是一件很容易的事情。作者通过对现有的基于对偶空间的SNI模型[2]和DAT模型[3]进行分析,SNI模型发现在所有层都引入Style向量会影响空间的解耦,例如在生成器的浅层改变Style向量会改变编辑后图像的结构信息。DAT模型在进行属性编辑时,当固定Content向量,只改变Style 向量的时候会出现严重的色调变化并导致伪影。作者将这种现象归因为对偶空间之间缺乏交互。

因此,作者引入了一个基于Transformer模型的交互模块让这两个空间在保持解耦的前提下建模空间的交互。具体架构设计中,令 向量作为Query矩阵, 向量作为Key和Value矩阵,这种设计的好处是 向量只是用来对 向量进行重加权,因此,Transformer交互模块的输出,也即交互后输出得到的的 向量和 向量在本质上仍然是解耦的。

作者将 向量变形为4*4的空间维度作为生成器的初始特征图输入,将交互后的 向量作为每层的style调制。生成任务由这两个向量共同完成。

人脸编辑。为了支持真实人脸编辑任务,作者提出了一个完整的基于对偶空间的逆推(Inversion)和编辑框架。这也是第一个尝试在两个空间进行属性编辑的模型。

编辑框架采用的是InterFaceGAN[7]编辑方式,分别在Z+空间和P+空间训练属性分界面方向向量 和 ,在编辑不同的属性时,可以灵活控制沿着不同属性方向向量走的步长,从而达到灵活控制属性改变程度的目的。具体来说,对于一些只包含在P空间的属性,比如头部姿势,可以令 ,只改变 的大小控制pose属性改变的程度;对于一些只包含在Z空间的属性,例如发色,同理,可以令 ,只改变 的大小。对于一些复杂的属性,例如性别和年龄,是由两个空间共同控制的,可以同时改变 和 的大小,来完成复杂属性的编辑。同时也可以在两个空间分别沿着不同属性方向向量走不同的步长,可以同时完成两个属性的编辑(例如pose + smile)。

逆推框架是在pSp模型[8]的基础上将单空间逆推拓展成了双空间逆推。一个多层级的特征提取器会把图片提取到3个不同层次的特征图上,其中 向量会使用所有层级,而 向量只会从最高层的特征中获得。

图3 - Inversion 框架

三、实验结果

作者对此方法在人脸编辑任务上进行了实验,并且和当前一些最先进的方法进行对比。作者选取了单隐空间的StyleGAN2[5],结构化隐空间的StyleMapGAN[9]以及双空间的DAT[3]进行了可视化和量化指标的对比。同时,为了验证双空间交互的重要性,作者对不同结构的框架进行了消融实验。

TransEditor具有解耦且平衡的两个空间P和Z。当固定P随机采样Z时,生成的图片具有一致的头部姿势;当固定Z随机采样P的时候,图片具有相似的风格特征。LPIPS指标可以被用于衡量空间的多样性。TransEditor对比DAT在两个空间更加平衡时,整体的多样性也有提高(见表1)。

表1 - 双空间LPIPS对比

同时,在对两个空间进行线性插值时,结果也表现出了平滑的变化(图4)。这样的性质有利于进行编辑。

图4 - P和Z空间随机采样和插值结果对比

属性编辑结果可视化对比。从可视化结果(图5)可以看出,在编辑性别时,DAT[3]模型编辑的人脸会出现明显的颜色变化和失真;StyleGAN2[5]则因为解耦不够彻底,导致人脸的其他属性也发生改变;StyleMapGAN[9]的结构化使其难以发生全局变化。

图5 - 真实图片编辑结果对比

属性编辑结果量化对比。针对现有属性编辑任务量化指标难以进行统一的问题,作者提出了一个新的衡量编辑解耦性的量化指标Re-Scoring: C_e/C_i。其中C_e表示被编辑属性分类器得分的累计变化,C_i表示其他属性的分类器得分的累计变化。这个指标有效地衡量了某个属性的编辑对其他属性的影响。越小则表示编辑一个属性的时候,别的属性受到的影响更小。表2展示了TransEditor的优越性。

表2 - 编辑结果量化对比

消融实验。通过消融实验验证双空间结构以及空间交互的重要性。

对比同样框架下,单空间交互以及双空间没有交互的结果,说明双空间架构和空间交互对于编辑任务的重要性。

图6 - 交互模块消融实验

尝试不同的Q,K,V选择方式,对比了将 向量作为Q, 向量作为K,V以及将 向量作为Q, 向量作为K,V这两种方式的编辑效果,以说明交互模块设计的合理性。

图7 - 交互模块不同设计方式解耦程度对比

四、总结

本文介绍了TransEditor,这是一种新颖的双空间GAN架构,引入了基于Transformer的跨空间交互机制。此外,作者提出了一种新的双空间图像编辑和逆推方式,用于高度可控的面部编辑。大量实验表明 TransEditor 在属性解耦和可控性方面的有效性,以及在复杂的属性编辑中超过了最先进的方法。此外,对双空间GAN的跨空间交互机制的改进可能是未来有趣的研究方向。

参考文献

[1] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. NeurIPS, 27, 2014.

[2] Yazeed Alharbi and Peter Wonka. Disentangled image generation through structured noise injection. In CVPR, 2020.

[3] Gihyun Kwon and Jong Chul Ye. Diagonal attention and style-based gan for content-style disentanglement in image generation and translation. In ICCV, 2021.

[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017

[5] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, 2020.

[6] Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196, 2017.

[7] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. PAMI, 2020.

[8] Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to-image translation. In CVPR, 2021.

[9] Hyunsu Kim, Yunjey Choi, Junho Kim, Sungjoo Yoo, and Youngjung Uh. Exploiting spatial dimensions of latent in gan for real-time image editing. In CVPR, 2021.

本文来自:公众号【商汤学术】 作者:YanBo Xu

Illustration b y Igor Kapustin f rom i cons8

-The End-

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谢娜北京演唱会宣布取消,网友:恭喜北京保卫战取得成功!

谢娜北京演唱会宣布取消,网友:恭喜北京保卫战取得成功!

玖宇维
2026-07-01 05:52:07
双詹合璧?TA:哈登将暂缓签约,以便球队能腾空间签下詹姆斯

双詹合璧?TA:哈登将暂缓签约,以便球队能腾空间签下詹姆斯

懂球帝
2026-07-01 06:09:06
半夜窗户爬进来个男人,女主人一看身强体壮,干脆放弃报警

半夜窗户爬进来个男人,女主人一看身强体壮,干脆放弃报警

那年秋天
2026-06-30 12:42:18
里子面子都丢了!管不住下半身的任素汐,一场演唱会撕下她的体面

里子面子都丢了!管不住下半身的任素汐,一场演唱会撕下她的体面

温读史
2026-07-01 02:06:34
WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

WTT美国大满贯:女单爆冷!世界第9出局 朱雨玲3:1 蒯曼温瑞博狂胜

童叔不飙车
2026-07-01 01:42:20
姆巴佩双响创纪录,德尚弯腰膜拜!

姆巴佩双响创纪录,德尚弯腰膜拜!

都市快报橙柿互动
2026-07-01 07:19:14
曼联无缘M费原因揭秘!热刺8500万钞能力截胡,没欧战凭啥狂花钱

曼联无缘M费原因揭秘!热刺8500万钞能力截胡,没欧战凭啥狂花钱

罗米的曼联博客
2026-07-01 06:56:51
猛龙队从快船签科怀·伦纳德后,必须完成的一项重要交易和签约

猛龙队从快船签科怀·伦纳德后,必须完成的一项重要交易和签约

好火子
2026-07-01 06:35:00
2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

IT之家
2026-06-30 16:30:15
老公用哪件事换来免死金牌?网友:给前丈母娘养老送终,再续前缘

老公用哪件事换来免死金牌?网友:给前丈母娘养老送终,再续前缘

夜深爱杂谈
2026-06-30 22:26:00
西贝太惨了!上海又有一个门店倒闭,声称因门店发展规划调整原因

西贝太惨了!上海又有一个门店倒闭,声称因门店发展规划调整原因

火山詩话
2026-07-01 07:01:18
罗永浩为韩红发声:虽然我也捐过很多钱,但和她却完全比不了

罗永浩为韩红发声:虽然我也捐过很多钱,但和她却完全比不了

映射生活的身影
2026-06-30 16:37:05
库库:和穆帅通话给了我很大信心;老佛爷让我先别穿皇马球衣

库库:和穆帅通话给了我很大信心;老佛爷让我先别穿皇马球衣

懂球帝
2026-06-30 22:21:10
张雪动了谁的奶酪?这5群人正在疯狂反扑

张雪动了谁的奶酪?这5群人正在疯狂反扑

林子说事
2026-06-30 12:43:30
美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

一种观点
2026-06-29 15:21:59
蒋介石心腹陈布雷后人现状:两儿子正厅及以上,长孙却成民族罪人

蒋介石心腹陈布雷后人现状:两儿子正厅及以上,长孙却成民族罪人

史之韵
2026-07-01 03:49:26
岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

电科技网
2026-06-30 23:50:24
医生发现:能跑能跳的老人,基本在70岁,就已经不做这6件事了

医生发现:能跑能跳的老人,基本在70岁,就已经不做这6件事了

芹姐说生活
2026-06-30 19:12:40
从“圆梦”到“笑话”:谢娜的演唱会为何成了流量时代的墓志铭

从“圆梦”到“笑话”:谢娜的演唱会为何成了流量时代的墓志铭

迷世书童
2026-06-30 23:42:40
小沈阳女儿沈佳润化次妆3.8万你以为天价?杨紫妆造10万都是少说

小沈阳女儿沈佳润化次妆3.8万你以为天价?杨紫妆造10万都是少说

白宸侃片
2026-06-30 08:16:49
2026-07-01 07:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2417文章数 596关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

教育
手机
亲子
时尚
游戏

教育要闻

教师如何有效管理课堂?

手机要闻

荣耀X80 Pro Max首销日销量曝光,多款新机待发布

亲子要闻

孩子的成长,爱永远不会缺席 #孩子 #孩子成长 #科普

Meiinpsn的穿衣风格,清新又叛逆

运营20年人气不减的MMORPG,如今免费上Steam全球同服了

无障碍浏览 进入关怀版