网易首页 > 网易号 > 正文 申请入驻

Transformer Yes!华为诺亚、北大等提出IPT模型,底层视觉任务刷榜

0
分享至

来自Transformer的降维打击!

北京大学等最新发布论文,联合提出图像处理Transformer,通过对low-level计算机视觉任务,如降噪、超分、去雨等进行研究,提出了一种新的预训练模型IPT,占领low-level多个任务的榜首。

本文是北京大学&华为诺亚等联合提出的一种图像处理Transformer。

Transformer自提出之日起即引起极大的轰动,BERT、GPT-3等模型迅速占用NLP各大榜单;后来Transformer被用于图像分类中同样引起了轰动;再后来,Transformer在目标检测任务中同样引起了轰动。

现在Transformer再出手,占领了low-level多个任务的榜首,甚至它在去雨任务上以1.6dB超越了已有最佳方案。

论文链接: https://arxiv.org/abs/2012.00364

1

摘要

随着硬件水平的提升,在大数据集上预训练的深度学习模型(比如BERT,GPT-3)表现出了优于传统方法的有效性。transformer的巨大进展主要源自其强大的特征表达能力与各式各样的架构。

在这篇论文中,作者对low-level计算机视觉任务(比如降噪、超分、去雨)进行了研究并提出了一种新的预训练模型:IPT(image processing transformer)。为最大挖掘transformer的能力,作者采用知名的ImageNet制作了大量的退化图像数据对,然后采用这些训练数据对对所提IPT(它具有多头、多尾以适配多种退化降质模型)模型进行训练。

,作者还引入了对比学习以更好的适配不同的图像处理任务。经过微调后,预训练模型可以有效的应用不到的任务中。仅仅需要一个预训练模型,IPT即可在多个low-level基准上取得优于SOTA方案的性能。

上图给出了所提方案IPT与HAN、RDN、RCDNet在超分、降噪、去雨任务上的性能对比,IPT均取得了0.4-2.0dB不等的性能提升。

2

方法

为更好的挖掘Transformer的潜力以获取在图像处理任务上的更好结果,作者提出了一种ImageNet数据集上预训练的图像处理Transformer,即IPT。

IPT 架构

上图给出了IPT的整体架构示意图,可以看到它包含四个成分:

  • 用于从输入退化图像提取特征的Heads;

  • encoder与decoder模块用于重建输入数据中的丢失信息;

  • 用于输出图像重建的Tails。

Heads

为适配不同的图像处理任务,作者提出采用多头(multi-head每个头包含三个卷积层)架构以分别处理不同的任务。假设输入图像表示为 ,每个头可以生成特征 (注:C默认64)。故多头架构的计算过程可以描述为:

其中 表示图像处理任务个数。

Transformer encoder

在将前述特征送入到Transformer之前,需要将输入特征拆分成块,每个块称之为“word”。具体来讲,输入特征 将被拆分为一系列块 ,其中 表示特征块的数量,P表示特征块尺寸。

为编码每个块的位置信息,作者还在encoder里面添加了可学习的位置编码信息 。这里的encoder延续了原始Transformer,采用了多头自注意力模块和前向网络。

encoder的输出表示为 ,它与输入块尺寸相同,encoder的计算过程描述如下:

其中 表示encoder的层数,MSA表示多头自注意力模块,FFN表示前馈前向网络(它仅包含两个全连接层)。

Transformer decoder

decoder采用了与encoder类似的架构并以encoder的输出作为输入,它包含两个MSA与1个FFN。

它与原始Transformer的不同之处在于:采用任务相关的embedding作为额外的输入,这些任务相关的embedding 用于对不同任务进行特征编码。decoder的计算过程描述如下:

其中 表示decoder的输出。decoder输出的N个尺寸为 的块特征将组成特征 。

Tails

这里的Tails属性与Head相同,作者同样采用多尾以适配不同的人物,其计算过程可以描述如下:

最终的输出 即为重建图像,其尺寸为 。输出图像的尺寸受任务决定,比如x2超分而言, 。

在ImageNet上预训练

除了transformer的自身架构外,成功训练一个优化transformer模型的关键因素为:大数据集。而图像处理任务中常用数据集均比较小,比如图像超分常用数据DIV2K仅仅有800张。针对该问题,作者提出对知名的ImageNet进行退化处理并用于训练所提IPT模型。

这里的退化数据制作采用了与图像处理任务中相同的方案,比如超分任务中的bicubic下采样,降噪任务中的高斯噪声。

图像的退化过程可以描述如下:

其中f表示退化变换函数,它与任务相关。对于超分任务而言, 表示bicubic下采样;对于降噪任务而言, 。IPT训练过程中的监督损失采用了常规的 损失,描述如下:

上式同样表明:本文所提方案IPT同时对多个图像处理任务进行训练。也就说,对于每个batch,随机从多个任务中选择一个进行训练,每个特定任务对应特定的head和tail。

在完成IPT预训练后,我们就可以将其用于特定任务的微调,此时可以移除掉任务无关的head和tail以节省计算量和参数量。

除了上述监督学习方式外,作者还引入了对比学习以学习更通用特征以使预训练IPT可以应用到未知任务。对于给定输入 (随机从每个batch中挑选),其decoder输出块特征描述为 。作者期望通过对比学习最小化同一图像内的块特征距离,最大化不同图像的块特征距离,这里采用的对比学习损失函数定义如下:

其中 表示cosine相似性。为更充分的利用监督与自监督信息,作者定义了如下整体损失:

3

实验

数据集

作者采用ImageNet数据制作训练数据,输入图像块大小为 ,大约得到了10M图像数据。

采用了6中退化类型:x2、x3、x4、noise-30、noise-50以及去雨。

训练&微调

作者采用32个NVIDIA Tesla V100显卡进行IPT训练,优化器为Adam,训练了300epoch,初始学习率为 ,经200epoch后衰减为 ,batch=256。在完成IPT预训练后,对特定任务上再进行30epoch微调,此时学习率为 。

超分辨率

下表&下图给出了超分方案在图像超分任务上的性能与视觉效果对比。可以看到:

  • IPT取得了优于其他SOTA超分方案的效果,甚至在Urban100数据集上以0.4dB优于其他超分方案;

  • IPT可以更好重建图像的纹理和结构信息,而其他方法则会导致模糊现象。

降噪

下表&下图给出了所提方法在降噪任务上的性能与视觉效果对比,可以看到:

  • 在不同的噪声水平下,IPT均取得了最佳的降噪指标,甚至在Urban100数据上提升高达2dB。

  • IPT可以很好的重建图像的纹理&结构信息,而其他降噪方法则难以重建细节信息。

去雨

下表&下图给出了所提方法在图像去雨任务上的性能与视觉效果对比。可以看到:

  • 所提方法取得了最好的指标,甚至取得了1.62dB的性能提升;

  • IPT生成的图像具有与GT最相近,且具有更好的视觉效果。

泛化性能

为说明所提方法的泛化性能,作者采用了未经训练的噪声水平进行验证,结果见下表。可以看到:尽管未在该其噪声水平数据上进行训练,所提IPT仍取得了最佳的指标。

消融研究

下图对比了IPT与EDSR在不同数量训练集上的性能对比,可以看到:当训练集数量较少时,EDSR具有更好的指标;而当数据集持续增大后,EDSR很快达到饱和,而IPT仍可持续提升并大幅超过了EDSR。

下表给出了对比损失对于模型性能影响性分析(x2超分任务)。


当仅仅采用监督方式进行训练时,IPT的指标为38.27;而当引入对比学习机制后,其性能可以进一步提升0.1dB。这侧面印证了对比学习对于IPT预训练的有效性。

4

结论

本文旨在利用预训练的Transformer模型(IPT)来解决图像处理问题。

IPT模型采用多头、多尾设计,共用Transformer body,用于图像超分辨率、去噪等不同的图像处理任务。

为了最大限度地挖掘Transformer架构在各种任务上的性能,本文研究了一个合成的ImageNet数据集。其中,每个原始图像将被退化为一系列对应的配对训练数据。然后使用有监督和自监督方法训练IPT模型,这两种方法显示出很强的捕获底层图像处理固有特征的能力。

实验结果表明,本文的IPT可以在快速微调后,仅使用一个预训练的模型,就可以优于目前的SOTA方法。

在未来的工作中,作者将把IPT模型扩展到更多的任务中,比如去模糊、去雾等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英特尔CEO陈立武铁腕新规:芯片两次流片未能量产,员工将被解雇

英特尔CEO陈立武铁腕新规:芯片两次流片未能量产,员工将被解雇

IT之家
2026-05-21 16:49:24
18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

18岁被王全安选中,20岁登戛纳,后来为啥没人敢用她?

不似少年游
2026-05-21 14:26:19
伊朗最大内鬼曝光!前总统内贾德为以色列卖命,欲颠覆伊朗政权

伊朗最大内鬼曝光!前总统内贾德为以色列卖命,欲颠覆伊朗政权

共工之锚
2026-05-21 18:45:55
全球股市集体跳水,原油跳涨!伊朗最高领袖下令:严禁高浓缩铀外运

全球股市集体跳水,原油跳涨!伊朗最高领袖下令:严禁高浓缩铀外运

中国基金报
2026-05-21 21:41:49
闹大了!北师大男生实习期“拒上桌吃剩饭”,老师委屈哭诉引争议

闹大了!北师大男生实习期“拒上桌吃剩饭”,老师委屈哭诉引争议

火山詩话
2026-05-21 13:48:46
以军拦截“全球坚韧船队”画面公布,爱尔兰总统的妹妹遭以军扣留,爱尔兰总统:我很担心她,全球多地抗议以军行径

以军拦截“全球坚韧船队”画面公布,爱尔兰总统的妹妹遭以军扣留,爱尔兰总统:我很担心她,全球多地抗议以军行径

每日经济新闻
2026-05-21 11:17:36
联合声明:中国支持俄罗斯维护其主权和领土完整的努力

联合声明:中国支持俄罗斯维护其主权和领土完整的努力

俄罗斯卫星通讯社
2026-05-21 15:10:15
胡歌被正式确诊为早F晚E,粉丝们都痛心不已

胡歌被正式确诊为早F晚E,粉丝们都痛心不已

LULU生活家
2026-05-21 08:43:17
大家不要倒在黎明前!

大家不要倒在黎明前!

维舟
2026-05-21 21:10:33
顶不住了!日本开始偷偷与俄罗斯接触……

顶不住了!日本开始偷偷与俄罗斯接触……

民察秋毫
2026-05-21 17:09:16
上海启动"进场必查"!5天销毁不合格杨梅1641公斤

上海启动"进场必查"!5天销毁不合格杨梅1641公斤

看看新闻Knews
2026-05-21 23:03:04
中南大学原校长张尧学被双开,通报内容未涉及国家自然科学一等奖

中南大学原校长张尧学被双开,通报内容未涉及国家自然科学一等奖

东东趣谈
2026-05-21 17:20:02
快观察 | 接了特朗普一通电话,内塔尼亚胡为什么“头发都快着火了”?

快观察 | 接了特朗普一通电话,内塔尼亚胡为什么“头发都快着火了”?

上观新闻
2026-05-21 16:41:04
香港知名男星在内地复出,遭封杀七年陷经济困难,四处欠债不还

香港知名男星在内地复出,遭封杀七年陷经济困难,四处欠债不还

阿凫爱吐槽
2026-05-22 01:27:54
38.99万元!小米跑车级SUV YU7 GT上市 雷军:坚决反对在市政公路上危险驾驶

38.99万元!小米跑车级SUV YU7 GT上市 雷军:坚决反对在市政公路上危险驾驶

每日经济新闻
2026-05-21 21:25:25
一滴眼药水,兴奋两小时?青光眼药水成ED新偏方,伟哥不香了

一滴眼药水,兴奋两小时?青光眼药水成ED新偏方,伟哥不香了

思思夜话
2026-05-21 11:26:39
外围大涨 A 股暴跌:量化再成踩踏式行情放大器

外围大涨 A 股暴跌:量化再成踩踏式行情放大器

作家出版人姚茂敦
2026-05-21 17:01:35
毒杨梅全面失控!央视再暗访,波及多省商户,1天亏几亿只是开始

毒杨梅全面失控!央视再暗访,波及多省商户,1天亏几亿只是开始

奇思妙想草叶君
2026-05-20 23:00:43
英国一电台突然播报查尔斯国王去世消息,此时他本人正在北爱尔兰喝威士忌

英国一电台突然播报查尔斯国王去世消息,此时他本人正在北爱尔兰喝威士忌

西游日记
2026-05-21 14:13:48
燃气灶致癌!斯坦福研究:在家做一顿饭,等于吸20分钟汽车尾气

燃气灶致癌!斯坦福研究:在家做一顿饭,等于吸20分钟汽车尾气

娱乐圈见解说
2026-05-21 13:07:19
2026-05-22 05:48:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7294文章数 20753关注度
往期回顾 全部

科技要闻

小米YU7 GT正式发布:售价38.99万元

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

头条要闻

特朗普再威胁伊朗交出浓缩铀 称到手后或销毁

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

潮水退去,裸泳的一定不止五粮液

汽车要闻

雷军:YU7首战Model Y八败两胜 输给全球销冠不丢人

态度原创

游戏
艺术
数码
时尚
公开课

PS大作官宣重磅更新!PSSR安排了!还有大量新功能

艺术要闻

海市蜃楼水中树

数码要闻

MacBook Pro终于要上OLED了!消息称面板最快6月出货

今年夏天最流行的4组搭配,谁穿谁好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版